O que você não sabia sobre I.A para conversão de leads

O que você não sabia sobre I.A para conversão de leads

Estamos passando por um rápido e profundo processo de digitalização da economia, fato este que muda não só nossa forma de pensar, mas também o conjunto de ferramentas com as quais trabalhamos. Neste artigo falamos sobre I.A para conversão de leads, baseado na experiência da Aquarela sobre a importância do uso dos recursos de Inteligência Artificial e Data Analytics para aumentar consideravelmente a efetividade dos times de marketing no processo de aquisição (conversão) de clientes em plataformas digitais, como redes sociais, e-commerces, blogs e sites de notícias.

Tipo de problemas de conversão

Quais são os principais obstáculos para adquirir novos clientes? Abaixo apresentamos uma lista não exaustiva de problemas e/ou questões da nossa experiência em plataformas on-line na área de conversão de novos clientes. Vale lembrar que é bem provável (pelo menos em nossas estatísticas) que sua equipe de marketing apresenta alguns deste sintomas:

      • Temos muitas ferramentas, muitos dados e poucas decisões realmente baseadas em dados (fragmentação dos pontos de análise).”
      • “Dificuldade em mensurar o desempenho de conversão dos canais, normalmente são muitos canais. Como por exemplo, quais os caminhos levam à  maior conversão e como reorganizar o orçamento das campanhas?”
      • “Não temos certeza sobre nosso público, como por exemplo: Quais os pontos críticos de conversão? Horário, dia da semana, tipo de oferta e preço mais eficientes? Ou Quais os comportamentos predominantes que causam maior impacto nas vendas de assinaturas?”
    • “Atividades de campanhas com pouca efetividade e pouca automação do processo.”

Bom, a lista é grande, mas isso já nos ajuda a direcionar a conversa para o que vocês devem saber, pelo menos estar cientes de como as técnicas de Inteligência Artificial podem e já são utilizadas na prática. A seguir detalhamos essas possibilidades.

Fluxo dos usuários em canais de conversão

Normalmente, as empresas têm algum tipo de ideia de como seus clientes se movem ao longo da jornada do usuário, desde a primeira vez que visitam um site até o fechamento de uma compra. Os problemas de conversão variam consideravelmente de empresa para empresa, mas de modo geral a sequência de etapas (fluxo) que o cliente segue até a conversão é chamada de um funil de vendas respeitando os níveis a seguir:

    • Conscientização – o cliente percebe a existência de um produto ou serviço e reconhece valor do trabalho (“Eu não sabia que havia um aplicativo para isso” ou “Não conhecia este site ou blog”).
    • Interesse e Desejo – o cliente expressando ativamente interesse em um grupo de produtos (“Gosto destes artigos” ou “Eu gostaria de ter esse produto”, “Acho que posso comprar uma assinatura”).
  • Ação – dando o próximo passo para comprar o produto escolhido (“Onde eu insiro detalhes de pagamento?”).

Em cada uma dessas etapas as informações são trocadas em diferentes níveis, começando com dados da plataforma (notícias, produtos, fotos, etc) e quanto mais próximo da ação mais informações a plataforma recebe do usuário, tais como números de cliques, tempos de visita ao site, fluxos dentro do site até os dados cadastrais e de faturamento, como cartão de crédito.

O estudo dos canais é fundamental para orientar as campanhas de marketing que são aplicadas nos mesmos. Logo, se sabemos os melhores canais de conversão, sabemos como priorizar determinadas estratégias e até abandonar outras. Na figura abaixo apresentamos um sintetizador que criamos para calcular e também visualizar os canais de maior sucesso de conversão. Foram identificados dois grandes clusters de atratividade, em Azul está o centro de atração que leva a maior parte das conversões, e em verde um segundo centro de atratividade, com menos referências.

Estudo de canais

Estudo de canais

Interessante é que este radar permite detectar caminhos que levam páginas com erros ou inexistentes (erro 404), isso causa grande frustração dos usuários, passível inclusive com a penalização no ranqueamento do Google.

Páginas com error 404

Recomendação de canais

Se os canais apresentam características diferentes de conversão, então políticas diferentes devem ser aplicadas de forma mais ajustada. No gráfico abaixo, há distinção das cores verde e amarelo para informar se determinada parte do site tem características de converter usuários logo na entrada (maior impulso) ou na saída (maior análise de percepção de valor do conteúdo).

Recomendação de acordo com o canal

Recomendação de público

Entender o canal é apenas uma das diversas facetas que ajudam a descrever o comportamento do usuário o qual forma o público alvo de cada campanha. Dependendo do contexto da implantação da solução de IA, pode ser necessário fazer novos cruzamentos de dados mais complexos, que englobam dados demográficos, histórico de compras e etc.

Somente depois de exaustivos testes, tanto em algoritmos de mineração (machine learning) como de métodos, se torna possível reconhecer padrões consistentes de usuários que tendem a converter. Este processo normalmente demanda máquinas com grande potencial de processamento e memória (mais de 30 processadores e 100 Gigas de memória). Mas estes tópicos mais complexos traremos em futuros artigos, fique ligado em nosso blog!  😉

Recomendação de conteúdo

Escolher o melhor conteúdo para um cliente dentre milhares de alternativas é mais um desafio pautado na premissa de que:

“Quanto mais personalizado o serviço oferecido, mais satisfeito estarão os usuários e maior é a chance de conversão”.

O Netflix por exemplo, é uma forma de explicar e exemplificar como o conteúdo pode ser personalizado, abaixo a primeira pergunta que o usuário recebe após logar no sistema.

Recomendações do Netflix

Com base nas informações de cada usuário de forma separada, pode-se adequar o conteúdo de acordo com escolha de filmes correlatos, tempo total de filmes, números de desistências, dia da semana de maior acesso, período do dia (manhã, tarde ou noite) e assim por diante. A visualização dos resultados dependerá de como será a integração da solução com a plataforma on-line.

Ação automatizada

A automação dos processos de marketing com Inteligência Artificial podem variar bastante, e depende da estrutura dos sistemas em operação online e dos sistemas de inteligência. O conceito que explica as diferenças entre esses dois sistemas é abordada com mais detalhes neste artigo – diferenças entre sistemas transacionais e sistemas analíticos.

No cenário ideal, a plataforma on-line deve possuir processos estabelecidos de aquisição via paywalls e interfaces de fácil navegação, tanto para os usuários finais como também para os gestores de marketing que formulam campanhas e tomam ações rotineiramente. Assim, para que a automação tenha sucesso, é fundamental respeitar os fluxos dos funis de aquisição de clientes e alinhar as novas capacidades geradas pela tecnologia com os times de marketing e vendas. Estes serão responsáveis pelo monitoramento contínuo da performance das campanhas.

Principais ganhos do uso de sistemas inteligentes

A modelagem e implantação de sistemas inteligentes, ou também chamados de ferramentas de marketing 4.0, podem gerar ganhos financeiros e de market share expressivos dependendo das características de cada plataforma. Abaixo elaboramos algumas das oportunidades que podem ser alcançadas com os sistemas atuais:

    • Compreender os grandes fluxos de navegação na plataforma para elaboração de táticas e estratégias de ofertas e de conteúdo
    • Acompanhar o desempenho dos canais.
    • Receber sugestões de perfis, canais e conteúdos alinhados à uma maior chance de conversão
  • Automatizar o processo de aquisição.

Abaixo apontamos algumas diferenças básicas das soluções tradicionais e de marketing 4.0:

Marketing tradicional Marketing 4.0
Usuários utilizam plataformas genéricas, sendo atendidas como se fossem todas iguais. Usuários visualizam as plataformas de forma personalizada, recebendo recomendações de material/notícias/produtos nos canais e horários mais adequados.
O investimento em publicidade é formado sem apoio, ou com apoio parcial e manual de campanhas passadas. Investimento baseado em combinações de canais com melhor desempenho. Permitem também a automação dos processos de interação com os usuários em larga escala.
As personas que formam o público alvo estão na cabeça do gestor. As personas são geradas dos padrões reconhecidos nos dados.
A priorização das campanhas não é baseada em dados. Algoritmos de IA podem auxiliar na priorização tanto do público, como dos materiais e dos canais.
Processo manual de execução de campanhas. Automação de processos de campanhas.

Conclusões

A migração de diversos negócios para o mundo digital é uma realidade e a complexidade de reter clientes nesse novo mundo é um desafio que dificilmente será vencido sem o uso intensivo de tecnologias de Inteligência Artificial. Enquanto isso não acontecer, os times de marketing tenderão a continuar tomando decisões baseadas em visualizações e perfis de dados desconexos e com poucas chances de personalizar ofertas aos visitantes das plataformas.

Dado a natureza complexa desse trabalho, é sem dúvida importante que, durante os projetos de conversão, estes passem por um amplo levantamento arquitetural de sistemas utilizando metodologia de análise de dados para elucidar as premissas atuais das equipes de marketing.

Entendemos que o desafio de estruturar um Marketing voltado a dados é grande, o mercado tem apoiado-se em soluções que automatizam os processos de nutrição, tracking e segmentação, mas estas ferramentas não tornam essas informações inteligentes. Desenvolver sistemas que possam pegar estas informações e transformá-las em dados de inteligência para tomada de decisão autônoma é uma das verticais de trabalho que abordamos com nossas tecnologias. Desta forma, você poderá fazer a oferta no tamanho e na hora certa, para o lead adequado e preparado para conversão.

A Aquarela desenvolve sistemas inteligentes de recomendação em diversos nichos, para conhecer nossos módulos, clique aqui e agende uma reunião & demonstração.

 

O Profissional de Data Science na visão da Aquarela

O Profissional de Data Science na visão da Aquarela

Como prometido, segue aqui nossas impressões sobre o processo de contratação de cientista de dados na Aquarela. Por que estamos fazendo isso? Porque sabemos o quão frustrante é não ter um retorno de nossas informações, ou pelo menos um feedback da submissão. Já vivemos muito disso em editais e na época de bolsas de estudo.

Este artigo é, sobretudo, para aqueles que nos confidenciaram suas informações da vida profissional em nosso processo de seleção 07 – 2017. Ainda, sendo bem transparentes, fomos surpreendidos com a quantidade de currículos enviados e isso nos causou um atraso considerável no processo. Queríamos garantir que todas as informações fossem analisadas e respondidos adequadamente. Nosso trabalho é analisar!

Principais percepções

  • Para vagas mais definidas, como para Back-end e Front-end, houveram candidatos com perfis muito similares, já para analista de dados, foi bem difícil encontrar parecidos pois é de fato algo ainda sem uma formação específica. Isso fez com que a tarefa de análise fosse ainda mais complexa.
  • Muitas vezes, o currículo que chega na nossa mão não expressa detalhadamente a vida profissional, acadêmica ou social do candidato. Assim, os perfis que mais nos chamaram a atenção foram aqueles que apresentaram claramente experiência nas tecnologias citadas e com publicações de estudos de caso reais. Também, alguns transformaram o próprio CV em um dashboard de habilidades (muito interessante).
  • Há uma grande tendência na migração de carreira para Data Science, mais de 85% dos candidatos se mostram dispostos a fazer este processo de troca de áreas técnicas e negócios para esse campo.
  • Nestes últimos anos trabalhando diretamente com Data Science, vemos que os perfis dos analistas advindos do quadrante de negócio apresentam uma curva menor para atingir o planalto de produtividade (plateau de produtividade) nas análise de dados em relação aos perfis do quadrante técnico, possivelmente pela prática de atividades de comunicação, redação de textos e apresentação de resultados e pelo salto na usabilidade das ferramentas de Analytics nos últimos meses.
  • Não foi possível (pelo menos ainda) afirmar algo consistente sobre uma formação (diploma) ideal para análise de dados, tivemos pessoas excelentes da engenharia, física, administração, estatística, etc. O que é mais aparente, usando uma metáfora, é que o os perfis mais desenvolvedores criam a guitarra e os perfis mais de negócio e de Data Science, tocam a guitarra e ainda cantam. Existem músicos que fazem a própria guitarra a própria músicas, mas são raros.
  • O inglês é um dos conhecimentos menos comuns dos candidatos, o mesmo continua sendo um diferencial. Data Science é um dos processos mais intensivos de comunicação na atualidade, sobre tudo na  tangibilidade de conceitos abstratos, o inglês é necessário em todos os aspectos e um ponto chave no processo de autodidatismo.
  • Alguns perfis se adaptam bem à vaga de análise de dados, mas não ao perfil de empresa startup (ver na continuação).

Perfil das Startups

Além dos conhecimentos básicos profissionais já amplamente conhecidos, vale a pena um parecer sobre as diferenças dos ambientes de trabalho corporativos e das startups.

  • Carreiras em startup não se encaixam em modelos acadêmicos e nem corporativos, havendo dificuldade até de atribuir cargos nas mesmas. Pois, as coisas acontecem de forma tão dinâmica que as funções ficam mais amarradas as tarefas definidas para semana do que algo planejado, sequencia em estruturas.
  • Risco da distância geográfica. O alto grau de complexidade do trabalho e dinâmicas com dados ainda exige (pelo menos para nós) muito a interação presencial já que grande parte do conhecimento está sendo desenvolvido internamente.
  • Para uma startup cada novo membro representa muito para o todo do grupo, se de um lado em grandes organizações alguns profissionais se sentem apenas um número, em startups eles se tornam praticamente membros da família. Por isso levamos tão a sério esse processo aqui.
  • Startups são times de vôlei de praia. Se necessário é preciso sacar, bloquear, se jogar na areia, pegar sol e chuva e como os recursos nem sempre são abundantes às vezes podem parecer até futevôlei que é a expressão máxima da habilidade dos jogadores se virando com o que tem. Quem o faz, é por pura paixão. Isso pode causar muitas e severas quebras de expectativas, além da insatisfação laboral. O quanto isso é importante pode ser percebido nesta análise, por meio de Data Analytics, de otimização de gestão de pessoas.
  • Startups, antes da tecnologia, são essencialmente empresas gestoras de conhecimento, só que de forma muito mais dinâmica e fragmentada do que ambientes de grande porte. No caso da Aquarela, estamos trabalhando na fronteira de processos de engenharia e machine learning no país e esse padrão de necessidade de gestão do conhecimento se repete continuamente. Neste artigo aqui escrevemos como funcionam os diferentes níveis de gerenciamento de dados até à sabedoria organizacional e o diferencial competitivo.

Recomendações

Dando um sul para aqueles que querem atuar como analistas de dados, seguem algumas sugestões de atividades:

  • Busque dados (datasets) públicos para gerar análises, preferencialmente com informações do nosso país para aprender e a ensinar.
  • Foque em conceitos mais do que em ferramentas, ferramentas mudam muito rápido, conceitos ficam com vocês.
  • Invista no inglês para que ele se torne seu amigo no longo prazo.
  • Refine sua redação e gramática, tanto em português como em inglês voltado a descrição de gráficos, tendências e possíveis interpretações.
  • Uma forma de facilitar o aprendizado é participando das comunidades de ciência de dados. Por exemplo Data Science Floripa.
  • Aprimore seus conhecimentos em R, Python ou Scala. Aqui um post falando sobre R e Python.
  • Defina uma área dentro de ciência de dados para produzir os cases, aqui no blog já escrevemos com algumas sugestões.
  • Estude seriamente o Linux, por quê? porque ele é muito legal e útil, nós usamos o Ubuntu e CentOS.
  • Procure estar próximo, fisicamente, dos ambientes das empresas de análise, por mais virtual que seja o mundo a conversa olho no olho ainda faz e fara toda a diferença.
  • Busque formas de comprovar seu perfil autodidata, transforme seu CV em um dashboard criativo usando técnicas de visualização.
  • Caso tiver um perfil apenas acadêmico ou apenas empresarial, sugerimos mesclar, só acadêmico ou só empresarial são perfis mais fracos.
  • Utilizar o processo de ensino para fixar conceitos e práticas com as ferramentas, conseguir expressão o conhecimento em linguagem clara e didática é fundamental. Tornar as coisas simples é o trabalho de todos os cientistas.

O nosso muito obrigado

Foi muito difícil fazer uma escolha com tantos candidatos ninjas e dispostos a crescer conosco. Encaramos este processo não somente como um preenchimento de uma vaga, mas um primeiro contato (em muitos casos) com pessoas de diversas partes do Brasil. A vontade era de poder admitir mais umas quinze pessoas pelo menos nesta onda de contratação, contudo, encaminhamos diversos currículos para nossos parceiros e alguns até já estão sendo empregados. Sim, queremos todos trabalhando e gerando riquezas para esse país!

Caso alguém não tenha sido contactado, por gentileza entre em contato conosco (pelo email daniela.zanesco@aquare.la ou redes sociais).

Desejamos manter contato com as pessoas, abertos para direcioná-las para um caminho de desenvolvimento pessoal e profissional, bem como potencializar os indivíduos que entraram para o nosso time.

Saudações do time de Gestão de Talentos da Aquarela!

Assine nossa Newsletter e fique por dentro dos nossos posts exclusivos.

Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

 

Com os feedbacks dos artigos relacionados ao projeto Serenata de Amor e a introdução dos conceitos de política supervisionada que eles estão ajudando a introduzir no país, descobrirmos que existem muitas pessoas curiosas (futuros cidadãos cientistas de dados) querendo informações mais detalhadas sobre o comportamento dos gastos dos parlamentares por partidos e por estados. Como não podemos responder a todos os questionamentos e hipóteses levantadas, vamos virar o jogo e facilitar a digestão dos dados de maneira que a grande massa consiga alcançar e replicar esses dados da maneira mais ampla e rápida possível para suas realidades.

Entraves técnicos do acesso aos dados públicos

A estratégia definida pelo time SERENATA foi utilizar tecnologias de ponta e utilizando o idioma inglês para a construção da plataforma de captura e disseminação dos dados. Estas duas medidas são absolutamente acertadas, pois assim, estão conseguindo que diversos programadores, cientistas e pesquisadores (Brasileiros ou não) de qualquer parte do mundo possam colaborar e manter o crescimento acelerado da plataforma. Só para se ter uma ideia, neste exato momento são 576 membros no grupo do Telegram discutindo melhorias do projeto, tudo em inglês.

Para fazer com que as informações geradas pelo projeto sejam mais acessíveis à população, levantei alguns pontos que considero como barreiras técnicas temporárias do processo:

  • Grande parte da população não é alfabetizada em inglês.
  • O conjunto de dados (1580942 linhas)  ultrapassa o limite de linhas que o Excel ou LibreOffice são capazes de processar – Mais informações neste post sobre os limites do Excel.
  • O repositório Github (onde ficam guardados todos os códigos e dados de forma pública 100% na nuvem) ainda é um mistério para muitos. E realmente não é fácil explicar como funciona um mecanismo de gestão de códigos capaz de manter a integridade do projeto com mais de 500 pessoas trabalhando 24×7.Imaginem que seria uma forma de organizar a edição de um documento do no Word de forma colaborativa e sem perder nenhuma informação.
  • Formatos de dados e códigos Python, assim como o inglês não são amplamente conhecidos.

Dos pontos levantados, gostaria de reafirmar que todas as decisões de projetos que visualizei e que criaram esses entraves são absolutamente necessários e sem eles não teríamos nada para discutir. Estamos ampliando um trabalho “semente”, e esse esforço é comum em todos os processos de inovação.

Processo de Facilitação

Para que mais pessoas possam inferir conhecimento a partir dos dados, gerei diversas versões recortadas dos dados traduzindo os nome das colunas para o português. Assim pessoas com noções mínimas de Excel possam usar filtros, planilhas dinâmicas e até gráficos para estudar esses dados 100% públicos da forma mais detalhada possível no menor tempo.

Abaixo está um printscreen da tela do super Ubuntu 17 tunado durante esse processo. Isso dá uma boa noção de como o trabalho sobre dados demanda processamento e memória RAM ou paciência.

Download dos arquivos

Neste link você deve ter acesso as pastas compartilhadas do Google Drive com as seguintes informações:

  • ArquivoCompleto – Contém todos os registros de reembolsos desde 2009 – não pode ser aberto em Excel.
  • RecortePeloAno – O arquivo completo foi retalhado em arquivos menores no formato Excel contendo todos os registros de reembolsos de todos os partidos e todos os estados, porém, fechados por cada ano desde 2009.
  • RecortePorEstado – Neste estão todos os lançamentos de todos os partidos de todos os anos, porém, isolados por estado da federação.

Recomendações

Este artigo tem um objetivo de disseminar o conhecimento tanto da complexidade geralmente não prevista em projetos de análise de dados (aspectos técnicos matam projetos caso não sejam bem arquitetados) e também promover o conceito da política supervisionada em nosso país, área que vai crescer muito nos próximos anos assim como o tema de análise avançada de dados (Advanced Analaytics).

Ao proporcionar dados fatiados e já tratados recomendo fortemente que profissionais de tecnologia, professores, alunos e cientistas façam o seguinte:

  • Encontrem padrões sozinhos nos dados e abram discussões com colegas e alunos;
  • Descubram novas ferramentas para analisar dados;
  • Divulguem as informações de forma abrangente, curtam e compartilhem os achados;
  • Apoiem o projeto Serenata de Amor;
  • Utilizem dados reais para testar seus algoritmos (geralmente os exemplos na internet são dados sintéticos que dão mais de 98% de acerto nas predições, na vida real essa taxa de acerto é bastante difícil se chegar).

Por hora é isso, um abraço a todos e ótimas análises! Seguimos!

Facebook, Twitter, Linkedin.

Assine nossa Newsletter aqui.

Inteligência Artificial nas Quotas Parlamentares

Inteligência Artificial nas Quotas Parlamentares

2018 é um ano importante para o futuro do Brasil, e assim como você caro leitor, nós também temos uma grande preocupação: 

Será que finalmente levaremos o hexa nesta copa?

Brincadeiras a parte, 2018 é ano de eleição, momento no qual vamos decidir quem será nosso presidente pelos próximos 4 anos. Sabemos que as opções não são as melhores até o momento, mas não vamos perder a fé em mudar o nosso país, certo? Neste post, pegamos carona no momento político e, aliando-se ao projeto “Serenata de amor”, traçamos o perfil dos gastos de dinheiro público feitos por nossos deputados. (Veja como o projeto aconteceu em Floripa) 

Utilizamos o VORTX (nossa plataforma de Inteligência Artificial) e ferramentas complementares como R, Python e Java, para encontrar padrões na forma como nosso dinheiro é gasto pelos deputados brasileiros. Perceba que até o momento não falamos em predição ou prescrição baseada em dados, outro ponto que este artigo mostrará é o fato de que Machine Learning também pode ser empregada na procura de padrões de comportamento, sem fazer nenhuma predição.

Dados de entrada

Mais de 1,5 milhões de notas fiscais emitidas de reembolso de 1158 deputados federais desde 2009 — Destes sobraram 1,138 que possuíam informações sobre a idade e o sexo — Fonte (https://serenatadeamor.org/).

O que queríamos descobrir?

  • Qual a idade provável de um cidadão se tornar deputado(a) federal?
  • Quais as características e as proporções de cada perfil parlamentar?
  • Qual o perfil de parlamentares mais gastões e quais os deputados mais econômicos? Como está a distribuição regional?
  • Quais os principais fatores associados aos gastos dos perfis descobertos?
  • Se existe uma relação entre a idade dos parlamentares com o gasto de suas cotas parlamentares?

Resultados utilizando Inteligência Artificial.

Depois de fazer uma série de enriquecimentos da base original, formatamos os dados no modelo requerido pela plataforma VORTX chegando assim aos seguintes resultados e validações.

Probabilidade de ser deputado por idade

Abaixo está o desenho e os cálculos da distribuição probabilística de alguém se tornar deputado de acordo com sua idade.

  • Probabilidade de ser parlamentar com menos de 30 anos é de 1,5%
  • Probabilidade de ser parlamentar com mais de 30 anos é de 98,5%
  • Probabilidade de ser parlamentar com menos de 80 anos é de  97,5%
  • Probabilidade de ser parlamentar com mais de 80 anos é  2,5%
  • Estar entre 30 e 80 é de 96% e fora dessa faixa 4%

 

Idade mínima = 23. Idade média = 56,87. Idade máxima = 98. Desvio padrão (taxa de variabilidade de idades) = 12,20.

Abaixo está o ranking dos deputados que fogem para baixo do padrão da curva normal, ou seja, os “deputados federais ninjas” que chegaram lá com 1,5% de chances.

 

Quadro de deputados federais mais novos desde 2009.

 

Proporções do perfil de gasto da quota parlamentar

No quadro abaixo vemos o perfil comportamental gerado pelo VORTX de todos os deputados analisados, sendo 3 grupos predominantes (1, 2 e 3) contém mais de 90% de todos os parlamentares. Os menos representativos chamados de 4, 5 e 6 são comportamentos anormais. O agrupamento 2 é formado apenas por mulheres ao passo que os demais, apenas por homens. Com isso vemos que existe diferenças consideráveis do comportamento por gênero.

Grupo 1 = 87,61%. Grupo 2 = 10,11%. Grupo 3 = 1,93%. Grupo 4 = 0,18% . Grupo 5 = 0,09% grupo 6 = 0,09%.

Perfil dos parlamentares gastões vs econômicos + região de atuação.

Abaixo apresentamos os sumários estatísticos dos grupos identificados pela ferramenta de forma automática. A primeira coluna da esquerda é o gasto médio em reais dos parlamentares. Imaginando que quanto maior a média, maior o custo deste para os cofres públicos, então temos o grupo 1 com a média mais alta: acima de R$ 1,2 mil, e os mais econômicos disposto no grupo 3, com gastos abaixo dos R$ 250,00. As mulheres do grupo 2 tendem a gastar R$157.21 menos que os homens do grupo 1. A proporção dos deputados com baixo custo é gritantemente menor do que os grupos principais.

A título de conhecimento, abaixo dos nomes estão a nota do grau de influência que a coluna tem na variação do valor médio. Ao contrário do que muitos pensam, encontrar padrões que já conhecemos é fundamental para saber se a ferramenta está interpretando corretamente a realidade, ou seja, felizmente o VORTX que não conhece nada de política ou quotas parlamentares, descobriu uma coisa que já se esperava: que os deputados(as) com médias maiores apresentam uma taxa maior de compras parceladas. Assim, o VORTX coloca ela como a primeira variável da esquerda para direita com nota 8.7 de influência. Seguida pela contagem do número de fornecedores.

Como parte da estratégia da análise, optamos por não considerar (não entregar para o algoritmo) a informação do estado e/ou partido dos deputados(as), tornando assim a análise sem qualquer viés que não sejam simplesmente o comportamento administrativo de cada um.

Uma vez que conseguimos atrelar a geolocalização dos parlamentares, a ferramenta desenha automaticamente a segmentação diretamente no mapa. Assim, é possível sintetizar os padrões e claro, depois descer (drill down) até encontrar os registros específicos de cada caso.

Ainda respondendo a questão 3, abaixo está um apontamento regional dos deputados que mais e menos gastam.

Em amarelo está a contagem absoluta, ou seja, quantos deputados de baixo custo existem em cada estado. Os amarelos estão apenas em alguns estados do país.

Mapa dos parlamentares do grupo 4 com a maior média de gastos. A letra é a primeira letra da variável que havíamos chamado de “ponto”.

Uma dúvida comum dos analistas é saber se os resultados fecham com a realidade do dado bruto. Este processo é muito importante em todo e qualquer tipo de análise de machine learning. Assim, fizemos alguns recortes da base sobre os resultados da entrega da inteligência artificial para verificar se os achados faziam sentido ou não.

Abaixo está uma das variáveis consideradas mais fortes no padrão de comportamento do uso das quotas. Com esta visualização podemos afirmar que deputados(as) com o menor custo médio apresentam uma quantidade muito maior de fornecedores do que todos os outros grupos. Esta variável é tão mais influente do que a idade do parlamentar que a segunda foi excluída automaticamente do modelo pela máquina.

Cada ponto representa um parlamentar. As cores estão relacionadas ao grupo criado pela inteligência artificial.

Na figura abaixo, podemos concluir também que não é possível fazer uma relação do comportamento de gasto por partido político já que há uma grande pluralidade de partidos nos diferentes perfis. Seria muito interessante, por exemplo, se algum partido tivesse uma política de redução dos gastos bem definida de modo que o grupo 3 tivesse apenas a cor deste partido ou fosse a cor predominante.

Cada ponto representa um parlamentar. As cores são o seu partido político. O eixo X representa o grupo que ele pertence de acordo com a inteligência artificial.

Já na visualização abaixo temos uma informação interessante. Quando estávamos levantado as perguntas de análise com a equipe de voluntários no evento  Serenata Capítulo Floripa. tínhamos uma intuição bastante forte de que os parlamentares mais jovens tivessem uma tendência a gastar menos, imaginando que houvesse uma melhor conscientização da importância da economia do dinheiro público. O resultado foi exatamente este, só que no sentido oposto. Verificamos que existe uma pequena tendência (muito fraca) da idade interferir no comportamento dos gastos. Os deputados(as) mais velhos tendem a gastar menos em média. Uma ressalva, a idade é baseada na diferença em anos da data de nascimento com a data desta pesquisa. Além alguns deputados já são falecidos(as).

Cada ponto representa um parlamentar, os homens são os pontos verdes e as mulheres os pontos vermelhos.

Brasil, todo dia um 7×1

Sabemos que o sentimento possa ser de frustração, afinal, descobrir que nem mesmo os deputados jovens estão conscientes do seu papel político-social é um tanto quanto desanimador. Mas para que aconteça mudança, temos que encarar a realidade, por esta razão que o projeto Serenata de amor foi criado, agregando o uso de Inteligência Artificial feita no Brasil com a necessidade de mudarmos nosso cenário político. 

Não deixem de seguir a Rosie no Twitter, robô criada pelo projeto que Twitta gastos suspeitos em tempo real, acompanhando de perto como nossos políticos gastam nosso dinheiro.

Acreditamos na mudança e na capacidade do povo brasileiro de inovar com tecnologia, acompanhe em nosso blog outros casos de uso de IA para predição e clusterização com dados públicos, e apoie o projeto Serenata de amor. Só assim faremos um Brasil mais inteligente e menos burocrático.

Fiquem ligados em nossas redes sociais!

Facebook, Twitter, Linkedin.

Assine nossa Newsletter aqui.

Natureza dos Dados e estruturação para Data Science

Natureza dos Dados e estruturação para Data Science

Em nossa jornada pelo Brasil como empreendedores de Advanced Analytics e Inteligência Artificial, notamos que uma das principais dificuldades dos clientes é a estruturação de projetos de data analytics e compreensão da informação (natureza dos dados) pelos times envolvidos.

Estruturar = Compartilhar informações

A estruturação de projetos de data analytics depende, obrigatoriamente, de um sólido e compartilhado conhecimento entre as equipes sobre as características dos dados que serão analisados, seja em qualquer setor ( veja alguns exemplos: Setores para Aplicar Análise Dados e Dados Necessários). Sem isso, há uma grande probabilidade de que a informação fique fragmentada em bancos de dados dispersos (chamamos de BANDO de dados), confusos e com baixo valor estratégico.

Portanto, acreditamos que:

Conceitos simplificados sobre a natureza dos dados tornam as ferramentas de análise mais fáceis, integráveis e tangíveis para os perfis não técnicos.

Na figura abaixo está um esquema do entendimento da Aquarela sobre a genética de dados, a gênesis ou o gênesis (como o primeiro livro da bíblia). Para chegarmos ao consenso deste modelo houve muita discussão, muita incoerência e muitas ideias. Porém, esse processo foi muito importante, pois embasa todos os outros processos dos projetos que desenvolvemos, sejam de análise de dados e estatística até a construção das ferramentas de IA para análise.

Natureza dos dados

Natureza de dados estruturados – Aquarela 2018

A natureza dos dados

Para completar (e explicar) a informação acima, segue um trecho de uma apresentação de nosso CTO, Joni Hoppen, transmitida via Facebook pelo pessoal da Wegov no dia 5 de maio de 2017 em Florianópolis:

No final do vídeo foi comentando sobre um problema típico nos escritórios: o sequestro do trabalho ou de processo de decisão pelo “Menino do Excel”. Aqui no sul chamamos tradicionalmente de “Piá do Excel ou “Guri do Excel”, escrevemos sobre ele no artigo Os dramas da implementação da cultura de Data Analytics – confira aqui.

Quem nunca foi sequestrado e teve que ficar esperando ele (Menino do Excel) aparecer para dar uma mão com uma fórmula mágica? Isso é um tema da área de gestão do conhecimento e será abordado futuramente.

Esperamos que estas informações, embora bastante introdutórias, possam ser úteis para todos aqueles que buscam desafiar seus conhecimentos sobre a realidade do mundo a partir de análises de dados. Caso você já está com o desafio de implementar um projeto de Data Analytics, elaboramos um infográfico com 5 passos para um projeto de sucesso, aqui.

Fiquem ligados em nossas redes sociais! Facebook, Twitter, Linkedin.

Assine nossa Newsletter e receba conteúdos exclusivos.