Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.
Estudo da natureza dos dados e limpeza
Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).
Imagem recortada da planilha.
Assim temos:
Partidos com mais e menos membros votantes:
PMDB = 66 votantes
PMB = 1 votante
Estados com mais e menos membros votantes:
São Paulo = 70 votantes
Tocantins = 8 votantes
Números totais de votos:
SIM
NÃO
AUSENTE
ABSTENÇÃO
367
137
2
7
Gênero dos votantes:
Masculino = 462
Feminino = 51
Aplicação de técnicas de mineração
Análise de textos
Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.
Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.
Análise por Fernando Severo
Análise de agrupamentos (clustering ou segmentação)
Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:
Grupo 0 Azul = 310 votos – principal força PMDB
Grupo 1 Verde = 57 votos – principal força PSDB
Grupo 2 Vermelho = 146 votos – principal força PT
Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.
Análise preditiva de votos
Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim, 76 não e predizendo erroneamente 70 votos.
Pesos das variáveis
Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:
O estado do carro;
A previsão do tempo;
O preço da gasolina;
A distância a ser viajada;
A quantidade de bagagem.
Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?
Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.
Conclusões e Limitações:
Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.
Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.
Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.
Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.
Blitz analytics
Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela VORTX.
Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Neste Post tocaremos no assunto mais polêmico referente ao naufrágio do Titanic: A porta flutuante tinha espaço suficiente para Jack e Rose? (rs) Brincadeiras a parte, aqui abordaremos como o uso de Inteligência Artificial pode ajudar a descobrir os perfis de sobreviventes da tragédia de 1912. Para isso, separamos um dataset com informações das pessoas que embarcaram no Titanic.
Apesar da grande tragédia da viagem, os dados disponibilizados são muito ricos em detalhes, e por isso são amplamente utilizados nas comunidades de inteligência artificial, aprendizado de máquina e mineração de dados, uma vez que podem ser processados (passando por segmentação) por diversos tipos de algoritmos.
Na conclusão deixamos algumas ideias de como essa abordagem inovadora pode otimizar e alavancar negócios.
Sumário dos dados
Segundo a Enciclopédia Titânica, o número correto de passageiros foi 2.208, dos quais 1496 morreram e 712 sobreviveram. Dos dados que tivemos acesso, os números são os seguintes:
1309 pessoas abordo, dos quais 500 sobreviveram (38%) e 809 (62%) morreram.
Média de idade estimada 29,88 anos.
466 mulheres, das quais 127 morreram e 339 sobreviveram.
843 homens, dos quais 682 morreram e 161 sobreviveram.
O preço médio da passagem foi de £53,65 libras para o feminino e £76.60 para masculino.
Para mais detalhes desses dados, sugirimos a consulta no Google pelo seguinte termo de busca : Titanic Dataset.
Fatores em análise
Infelizmente, 267 passageiros (20,39%) tiveram de ser excluídos da análise porque as idades não foram informadas. Além disso, dos 15 fatores apresentados no arquivo original, selecionamos apenas aqueles numéricos com pesos mais fortes calculados pelo VORTX. Normalmente classificamos fatores, variáveis ou atributos de dados nas 3 seguintes categorias:
Protagonista – Fatores com forte influência positiva para gerar padrão de agrupamento com clareza (alto valor).
Antagonista – Fatores com ruído e/ou influência negativa aos padrões gerados pelo fator protagonista.
Coadjuvantes – Fatores que não desempenham um papel significativo na análise, mas podem enriquecer os resultados.
De acordo com o poder de influência, os protagonistas escolhidos para esta análise foram:
Idade do passageiro = 87,85%
Valor da passagem = 72,69%
Número de pais de crianças no navio = 71,69%
Número de irmãos ou cônjuges no navio = 72,42%
Nos primeiros processamentos do conjunto de dados, o fator “Gênero” que indica se o passageiro era homem ou mulher, tendiam a ter um papel antagonista à formação do grupo. Isso significa a ausência de um padrão para formar os grupos e o índice de nitidez dos dados cai de 30% para menos de 7%, justificando a remoção desse fator da análise.
Segmentação: Resultados com o VORTX
Após o processamento, o VORTX trouxe os seguintes indicadores, dos quais não são oferecidos por outros algoritmos de agrupamento, portanto, explicamos brevemente cada um deles:
Nitidez (Sharpness) = 33,64%. Ele mostra a visibilidade do padrão nos dados ou o quão confiante a máquina está sobre a formação dos grupos. Segundo a nossa escala de qualidade, uma nitidez acima de 20% já é útil para a tomada de decisão.
Descoberta automática de segmentos (grupos) = 8. Esta é uma função que torna todo o processo muito mais fácil para o analista de dados. Ao contrário de k-means e outros algoritmos conhecidos, VORTX encontra o número certo (ideal) de grupos automaticamente, reduzindo drasticamente os erros de segmentação que acontecem quando o analista informa um determinado número não condizente a realidade. Ex. Imagine que todos os elementos são amarelos e você manda segmentar em 5? O resultado será 5 grupos amarelos. Ao contrário também é possível, existem 5 grupos sendo um de cada cor e você manda o algoritmo separar todos em 3 grupos. Resultado, haverão elementos de cores diferentes dentro do mesmo grupo.
Distinção dos grupos = O quão único é um grupo em relação a todos os demais. Neste caso, o mais distinto é o número 5 com 51,48% (cor mais escura) em contra partida, o grupo menos distinto é o 1 com 8,58%. Isto significa que os elementos do grupo 5 tendem a ser mais homogêneos do que os outros grupos.
Tela do VORTX Big Data
Ao analisar os grupos, adicionando a coluna que indica a sobrevivência ou não do passageiro após o evento, foi possível gerar a taxa de sobrevivência de cada grupo e a tarifa média de bilhetes por grupo. Em uma visualização rápida e sumarizada, aqueles que têm as características do grupo 5 ou 7 têm mais chances de sobreviver ao naufrágio.
Indicadores gerados a partir da análise de grupo – Contagem de pessoas por grupo, taxa de sobrevivência, valor médio da passagem por grupo.
Nomeação de grupos
Para operacionalizar uma estratégia de gestão em qualquer setor (saúde, indústria, varejo e etc) você precisa nomeá-los para estudar as características de cada grupo. Para isso, deve-se olhar para as características predominantes de cada grupo (persona).
Segue abaixo uma comparação visual, de apenas 4 grupos, com o fator “Idade”. Como este é um gráfico de frequência, quanto mais alto está a linha no gráfico maior é o número de passageiros com essa característica. Esses fatores podem ser facilmente estudados de forma interativa na VORTX DATASCOPE.
Ainda, uma outra forma de entender as características do grupo é olhar diretamente para os dados agrupados. Neste caso, eu tirei um screenshot dos dados do grupo 5, que tem os passageiros mais distintos e homogêneos do navio. A partir disso dá para dizer que esse grupo é dos jovens que viajam com toda a família de alta renda.
Conclusões e recomendações
O passageiro mais típico é uma pessoa jovem, com uma idade média de 21 anos e que pagou, em média, £26,35. Enquanto o passageiro outlier – leia aqui o que são outliers e como tratá-los em uma análise de dados – é um indivíduo no grupo 8, que tinha 38 anos, pagou £ 7.775, estava viajando com ambos os pais e mais 4 irmãos.
Olhando para o caso (apenas mil registros) não é um número grande o suficiente para descobrir mais perfis. Contudo, se você tem milhões de transações e clientes a ferramenta poderá servir de instrumento chave para otimizar a gestão, reduzir custos e melhorar produtos para o seu público.
Agora, pense consigo com base no que você leu aqui:
Quem é o seu cliente mais típico?
Quais são as características de cada grupo de clientes?
Qual é o custo total ou receita por grupo?
Quais grupos representam 80% do seu custo ou receita?
Quais os grupos que você deseja abordar na sua estratégia, e quais não?
Quais são os fatores protagonistas, antagonistas que mais afetam a sua estratégia?
A persona (grupo) criado pelo VORTX coincide com a persona que você tem hoje? Agora é possível comparar e aperfeiçoar!
Esperamos que esse breve estudo seja interessante e útil para que você possa planejar suas grandes decisões (ou do seu negócio) utilizando inteligência computacional.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.