Data Analytics e o impeachment de 2016: Uma análise sem partido
Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.
Estudo da natureza dos dados e limpeza
Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).
Imagem recortada da planilha.
Assim temos:
Partidos com mais e menos membros votantes:
- PMDB = 66 votantes
- PMB = 1 votante
Estados com mais e menos membros votantes:
- São Paulo = 70 votantes
- Tocantins = 8 votantes
Números totais de votos:
SIM | NÃO | AUSENTE | ABSTENÇÃO |
367 | 137 | 2 | 7 |
Gênero dos votantes:
- Masculino = 462
- Feminino = 51
Aplicação de técnicas de mineração
Análise de textos
Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.
Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.
Análise de agrupamentos (clustering ou segmentação)
Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:
- Grupo 0 Azul = 310 votos – principal força PMDB
- Grupo 1 Verde = 57 votos – principal força PSDB
- Grupo 2 Vermelho = 146 votos – principal força PT
Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.
Análise preditiva de votos
Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim, 76 não e predizendo erroneamente 70 votos.
Pesos das variáveis
Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:
- O estado do carro;
- A previsão do tempo;
- O preço da gasolina;
- A distância a ser viajada;
- A quantidade de bagagem.
Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?
Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.
Conclusões e Limitações:
Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.
Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.
Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.
Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.
Blitz analytics
Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela VORTX.
Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autores
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.