13 dicas para tornar suas tabelas Excel MUITO mais apresentáveis

13 dicas para tornar suas tabelas Excel MUITO mais apresentáveis


A área de da ciência de dados está ligada a um processo intenso de comunicação, como já escrevemos neste post, sobre o perfil do cientista de dados na visão da Aquarela.

Portanto, saber comunicar informações importantes (e, em muitos casos, bastante abstratas) de modo direto e atrativo é uma das habilidades que os melhores cientistas de dados exercitam diariamente. 

O objetivo deste artigo é mostrar que; a forma como você apresenta uma tabela Excel, por mais simples que seja, pode impactar diretamente o seu público (seja ele seu chefe, cliente, equipe, etc). Portanto, visualização de dados é muito mais do que apenas a visualização de gráficos.

Menos é Muito Mais

Por muito tempo, o senso estético e a análise de dados caminharam afastados. Porém, com a democratização do acesso à informação e o crescente interesse do mercado por analytics, o “sex appeal” da visualização de dados foi colocado em cheque por diversas vertentes de trabalho, como por exemplo o jornalismo de dados.

Neste caminho, hoje temos uma realidade onde os dados legíveis são mais importantes do que apenas dados. Ler informação nem sempre significa entendimento, porque a compreensão do leitor sempre depende da forma de comunicação utilizada.

Aqui é importante salientar que:

“Visualização de dados não é apenas a geração de gráficos e painéis (dashboards), é algo que abrange também todas as interfaces visíveis dos dados aos diversos tipos de usuários. Alguns visualizam dados em modo texto, por exemplo, e são muito eficientes.” – Joni Hoppen, 2017

Visualmente falando, em muitos casos, menos significa mais. Comunicação significa tornar algum conhecimento comum.

Demonstração no Excel: Dados ou informação?

Nas figuras a seguir apresentamos duas imagens da mesma tabela (conjunto de dados) para demonstrar o contraste entre o design das duas. A primeira é um tipo bastante comum de planilha do Excel, criada sem uma estratégia coerente, e a segunda é resultado da aplicação das 13 dicas que citamos aqui.

tipo genérico de tabela que não foi feita com conceitos de design de dados em mente.
Resultado da aplicação de conceitos de design de dados sobre a tabela

Fica uma pergunta ao leitor: Qual das imagens apresenta mais dados e qual apresenta mais informação?

Níveis de informação e maturidade

Uma empresa com alto nível de maturidade em data analytics apresenta visualizações de dados em diferentes níveis de granularidade de acordo com cada perfil, garantindo que decisões aconteçam no tempo certo pelas pessoas certas dentro de um fluxo coerente de trabalho.

“Uma informação bem comunicada reduz a ansiedade” – Richard Saul Wurman, 1989

Para ajudar nesse processo de melhorar a qualidade de análise de dados, disponibilizamos alguns materiais de apoio, como nosso E-book sobre introdução a cultura de data analytics, aonde mostramos como você pode quebrar as barreiras no processo de adoção de uma cultura de dados. Baixe agora e descubra como fazer parte da revolução do analytics!

Alguns exemplos:

  • Técnicos de operação: Os técnicos que estão atendendo fisicamente os clientes nos diversos bairros da cidade precisam apenas das informações do agendamento e que estas caibam na tela do celular.
  • Especialistas de Infraestrutura: Os analistas de bancos de dados precisam de acesso em modo texto aos bancos de dados e a forma como são concatenados às tabelas em texto é muito importante para entender a estrutura das tabelas de forma não sumarizada (dados brutos).
  • Gestor: Os gestores necessitam de relatórios de alto nível e já sumarizados (the Big Picture) com as informações mais relevantes e que possam ser consumidas no menor tempo.

Mais informações sobre níveis de informação neste artigo: Dos Dados à Inovação

Como fazer na prática?

Legal, quero melhorar minha comunicação de dados, mas tenho tenho zero conhecimento de design. Não sei a diferença de CMKY e RGB, muito menos usar o photoshop, como posso melhorar a minha visualização de dados?

Calma! Agora vem a parte legal!

Inspirado no autor Joey Cherdarchuk, fizemos uma versão brasileira (Herbert Richers) com algumas melhorias, baseadas em nossa experiência como instrutores de Data Analytics na Aquarela, para que você possa utilizar rapidamente estas dicas e apresentar os resultados de suas análises de forma muito mais profissional e impactante. Basta seguir alguns destes 13 passos a seguir:

Notem que o fundamental aqui é a utilização dos conceitos de design aplicado a uma tabela, e não necessariamente das funcionalidades da ferramenta, pois ferramentas como o Excel, o Google Sheet ou o LibreOffice sem uma estratégia são apenas ferramentas.

Nesta linha o autor Joey Cherdarchuk vai mais além dizendo que os dados são melhores apresentados quando ficam pelados:

“Data looks better naked” – Joey Cherdarchuk, 2013

Para te ajudar a entender melhor como essa “mágica” visual aconteceu, disponibilizamos para download a tabela do exemplo, assim você possa replicar as ideias em suas próximas interações com o excel, clique na imagem abaixo e faça o download!

Gostou?

Para mais informações, recomendamos um estudo da teoria Gestalt, que traz a ideia de incorporação dos espaços vazios como elementos do desenho, uma teoria tão interessante (ponto de vista do Joni) que pode ser aplicada no planejamento pessoal, organização da casa, processos de urbanização e etc.

Recomendamos também o livro Information Anxiety, do autor Richard Saul Wurman, um dos criados dos famosos TED talks. Nesse livro ele transmite um apanhado geral do que fazer quando a informação não te diz o que você precisa saber.

Outros temas analíticos que vão ao encontro da visualização de dados são:

  • Design de Indicadores;
  • Design de Informação;
  • Visualização de dados;
  • Técnicas de apresentação.

Esperamos que essas informações sejam úteis no seu dia a dia e que possam de fato gerar mudanças na sua estratégia de trabalho com dados e que isso gere de decisões de melhor qualidade, pois vivemos num país que precisa urgente de melhores decisões em todos os níveis.

Continuem atentos às novas publicações, fiquem à vontade para comentar abaixo e não esqueçam de compartilhar essas informações com seus amigos pois:

“A cultura de Data Analytics só cresce quando compartilhada.” – Joni Hoppen, 2017

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Outliers, o que são e como tratá-los em uma análise de dados?

Outliers, o que são e como tratá-los em uma análise de dados?

Os outliers são dados que se diferenciam drasticamente de todos os outros. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.

Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:

  1. os outliers podem viesar negativamente todo o resultado de uma análise;
  2. o comportamento dos outliers pode ser justamente o que está sendo procurado.

Os outliers presentes em datasets  (o que são datasets) possuem diversos outros nomes, como:

  • dados discrepantes;
  • pontos fora da curva; (o que é curva normal?)
  • observações fora do comum;
  • anomalias;
  • valores atípicos;
  • entre outros.

A seguir, elencamos algumas situações comuns em que os outliers surgem na análise de dados e apontamos sugestões de como lidar com eles em cada caso.

Como identificar quais são os dados outliers?

Existem diversas formas de encontrar outliers, aqui citamos algumas delas.

Encontrar os outliers utilizando tabelas

A forma mais simples de encontrar dados outliers é olhar diretamente para a tabela ou planilha de dados – o dataset como chamam os cientistas de dados.

O caso da tabela a seguir exemplifica claramente um erro de digitação, ou seja, de input dos dados. Logo, o campo da idade do indivíduo “Antônio Silveira” certamente não representa a idade de 470 anos.

Olhando para a tabela é possível identificar o outlier, mas fica difícil afirmar qual seria a idade correta. Existem várias possibilidades que podem se referir a idade certa, como: 47, 70 ou ainda 40 anos.

Em uma pequena amostra, a tarefa de encontrar outliers com o uso de tabelas pode ser fácil. Porém, quando a quantidade de observações (linhas) passa para a casa dos milhares ou milhões fica impossível de encontrar quais são os dados que destoam do geral.

Portanto, a tarefa de identificar anomalias pode se tornar difícil, principalmente quando mais variáveis (mais as colunas) são envolvidas. Para isso existem outros métodos.

Encontrar os outliers utilizando gráficos

Uma das melhores formas de identificar dados outliers é utilizando gráficos. Pois, ao plotar um gráfico o analista consegue claramente perceber que existe algo diferente.

Veja a seguir alguns cases que exemplificam a visualização de outliers com gráficos.

Case: outliers no sistema de saúde brasileiro

Em um estudo já publicado em nosso blog analisamos os fatores que levam as pessoas a não comparecem em consultas agendadas no sistema público de saúde da cidade de Vitória/ES.

No dataset, diversos padrões foram encontrados, como por exemplo: crianças praticamente não faltam às consultas; e mulheres comparecem muito mais às consultas do que os homens.

Porém, um caso curioso foi o de uma senhora “outlier”, que com 79 anos agendou uma consulta com 365 dias de antecedência e de fato compareceu à consulta.

Este é um caso, por exemplo, de um dado outlier que merece ser estudado, pois o comportamento dessa senhora pode trazer informações relevantes de medidas que podem ser adotadas para aumentar a taxa de assiduidade nos agendamentos.

Veja o caso no gráfico a seguir.

Identificação de um outlier com agendamento médico superior a 360 dias e com positivo para o comparecimento.
Agendamentos médicos na cidade de Vitória-ES

Case: outliers no mercado financeiro brasileiro

No dia 17 de maio de 2017 as ações da Petrobrás caíram 15,8% e o índice da bolsa (IBOVESPA) teve uma queda de 8,8% em um único dia. Neste caso, a maioria das ações da bolsa brasileira viram seu preço despencar neste dia.

Essa forte variação negativa teve como principal motivação a delação de Joesley Batista, um dos eventos políticos mais impactantes que aconteceram no primeiro semestre de 2017.

Esse caso representa um outlier para o analista que, por exemplo, deseja saber qual foi a média de retornos diários das ações da Petrobrás nos últimos 180 dias. Certamente o dia da delação de Joesley afetou fortemente a média para baixo.

Ao analisar o gráfico a seguir, mesmo diante de diversas observações, fica fácil identificar o ponto que destoa dos demais.

Posição das ações da PETR4

O dado do exemplo acima pode ser chamado de outlier, mas se levado ao pé da letra, não pode necessariamente ser considerado um “ponto fora da curva”. Portanto, a “curva” no gráfico acima, apesar de contra-intuitivo, é representada pela linha reta que corta os pontos.

Ainda pelo gráfico acima é possível perceber que apesar de diferente dos demais, o dado não está exatamente fora da curva. Neste sentido, um modelo preditivo poderia facilmente inferir, com alta precisão, que uma queda de cerca de 9% no índice da Bolsa representaria uma queda de cerca de 15% no preço das ações da Petrobrás.

Em outro caso, ainda com dados do mercado financeiro de ações brasileiro, a ação da empresa Magazine Luiza teve valorização de 30,8% em um dia em que o índice da Bolsa subiu apenas 0,7%.

Em suma, esse dado, além de ser um ponto atípico, distante dos demais, representa também um ponto fora da curva. Veja o gráfico:

Informações das ações MGLU3

Este é um caso de outlier que pode prejudicar não apenas cálculos de estatística descritiva, como média e mediana, por exemplo, mas afeta também a calibração de modelos preditivos.

Encontrar os outliers utilizando métodos estatísticos

Uma maneira mais complexa, porém bastante precisa, de encontrar outliers em uma análise de dados é encontrar a distribuição estatística que mais se aproxima à distribuição dos dados e utilizar métodos estatísticos para detectar os pontos discrepantes.

O exemplo a seguir representa o histograma da conhecida métrica dos motoristas “quilômetros por litro”.

O dataset utilizado para este exemplo é um conjunto de dados público bastante explorado em testes estatísticos por cientistas de dados e estudantes.

O dataset é composto por dados extraídos da “Motor Trend US magazine” de 1974 e compreende diversos aspectos acerca da performance de 32 modelos de automóveis da época. Mais detalhes neste link.

O histograma é uma das principais e mais simples ferramentas gráficas para o analista de dados utilizar na compreensão do comportamento dos dados que está analisando.

No histograma abaixo a linha azul representa como seria a distribuição normal (gaussiana) baseada na média, desvio-padrão e tamanho da amostra, e está contraposta com o histograma em barras.

As linhas verticais vermelhas representam as unidades de desvio-padrão. Percebe-se que os carros com performance “outlier” para a época conseguiam fazer uma média maior que 14 quilômetros por litro, o que corresponde à mais de 2 desvios padrões em relação à média.

Distribuição normal do consumo por litros

Pela distribuição normal, os dados que estão a menos de duas vezes do desvio-padrão correspondem a 95% de todos os dados; os outliers representam, nesta análise 5%.

Outliers em processo de agrupamentos (clustering)

Neste vídeo em inglês (com legendas) apresentamos a identificação de outliers de modo visual a lúdica com bandeira a partir do processo de agrupamentos (clustering). Mais informações sobre clustering neste artigo específico sobre o tema.

Conclusões: o que fazer com os outliers?

Vimos ao longo deste artigo que é imprescindível dar atenção aos outliers, pois eles podem viesar toda a análise de dados. Porém, além de identificar, o que é preciso fazer para tratar os pontos fora da curva?

Existem diversas saídas, algumas delas são:

  • excluir as observações discrepantes da amostra de dados: quando o dado discrepante é fruto de um erro de input dos dados, então ele precisa ser removido da amostra;
  • realizar uma análise separada apenas com os outliers: esta abordagem é útil quando se quer investigar casos extremos, como alunos que só tiram notas boas, empresas que apresentam lucro mesmo em tempos de crise, casos de fraudes, entre outros.
  • utilizar métodos de clusterização para encontrar uma aproximação que corrige e dá um novo valor aos dados outliers: em casos de erros no input dos dados, ao invés de excluir e perder uma linha inteira de registros devido a uma única observação outlier, uma solução é utilizar algoritmos de clusterização que encontram o comportamento das observações mais próximas ao dado outlier e fazem inferência de qual seria o melhor valor aproximado.

Por fim, a principal conclusão sobre os outliers pode ser resumida da seguinte forma:

um dado outlier pode ser o que mais atrapalha sua análise, mas também pode ser exatamente aquilo que você está procurando.

Ainda, estratégias de tratamento de outliers podem ter um impacto direto em negócios reduzindo custos de manutenção de equipamentos industriais com análises preditivas e prescritivas – Ler mais (Vortx Manutenção 4.0).

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Inteligência Artificial na descoberta dos fatores chaves do IDH

Inteligência Artificial na descoberta dos fatores chaves do IDH

Neste post mostramos mais um caso de estudo utilizando a Inteligência Artificial VORTX com dados reais. Aqui demonstramos como a abordagem de descoberta de cenários pode ajudar a tomada de decisão de forma profunda em vários setores. Para conhecer algumas áreas com grande potencial de aplicação, veja este artigo com 14 áreas sugeridas. Nesta análise em específico levamos em consideração perguntas típicas de gestores:

Quais os fatores que mais impactam no meu resultado?

Qual configuração ideal dos fatores (das variáveis) para se atingir o cenário com melhor desempenho?

Neste caso selecionamos 65 índices nacionais de 188 países para descobrir quais deles tem maior peso em relação ao Índice de Desenvolvimento Humano e quais cenários são criados pelas máquina. Para validar a precisão do algoritmo, plotamos no mapa os países de acordo com seu cenário.

As perguntas-chave desta análise:

  1. Quantos cenários de Índice de Desenvolvimento Humano existem no mundo e em quais cenários os países estão alocados?
  2. Entre os 65 índices, quais deles têm maior influência na variação do IDH?
  3. O que é o DNA de um cenário e como eles são utilizados para análise?

Bom, antes de ver os resultados, vejam todas variáveis analisadas abaixo. Então, tente descobrir intuitivamente quais seriam as repostas para pergunta 2. Esta é uma tarefa muito importante para a validação cenários. OK?

(mais…)
O que o VORTX diz sobre o quadro de medalhas olímpicas?

O que o VORTX diz sobre o quadro de medalhas olímpicas?

Olá pessoal,

Aproveitando o clima de olimpíadas no Brasil, resolvi fazer uma análise de agrupamentos com o VORTX sobre os dados consolidados das medalhas distribuídas em Londres. Bom, então vamos lá!

O que significam as medalhas?

Em todo projeto de análise de dados, a primeira etapa é sempre saber o que as coisas significam na realidade. Logo, do ponto de vista do esporte, cada medalha significa muita coisa, vejamos alguns exemplos:

  • Reconhecimento pelo esforço e disciplina pessoal;
  • Resultado da organização e investimento dos países em cada modalidade (disciplina regional);
  • Marcos históricos;
  • Ranking de qualidade e etc.

Bom, esses foram apenas alguns exemplos de muita coisa atrelada ao evento. Para um analista de dados, o quadro de medalhas pode significar:

Um índice composto de centenas de sub-indicadores sociais apresentado na forma de ranking quantitativo dos países.

Os dados utilizados

Coletei o quadro de medalhas olímpicas distribuídas em Londres disponível na Wikipedia, não levando em consideração países com “0” medalhas. Para a análise, cada linha é um país.

  • Primeira coluna, nome do país;
  • Segunda coluna, número de medalhas de ouro;
  • Terceira coluna, número de medalhas de prata;
  • Quarta coluna, número de medalhas de bronze;
  • Removido a coluna total de medalhas.

Obs. Mas por que remover o total de medalhas por país? É simples, este é um indicador composto da soma de todas as medalhas e como queremos descobrir padrões que existem entre a distribuição de medalhas, precisamos deixar o modelo homogeneizado. Esse é um erro bastante comum nas práticas de processamento de dados que resulta em análises com baixa confiança, pois os algoritmos processam tudo, se entrar coisa errada, saí coisa errada. Usando uma metáfora, colocar os dados totais em uma análise é como se o cozinheiro jogasse a colher dentro da máquina de triturar, o resultado vai ser misturado e influenciado.

Perguntas, processamento e repostas

Vamos utilizar o Aquarela VORTX Big Data para descobrir o comportamento de distribuição das medalhas olímpicas.

  1. Quantos grupos de países parecidos em termos de desempenho existem, como são caracterizados e o quanto representam proporcionalmente?

No total formam 5 grupos distintos de países com a seguintes proporções:

As características do primeiro grupo são apresentadas em um gráfico de frequência, enquanto mais alto o gráfico, maior é o número de países com o valor do eixo X. Em uma breve interpretação, no grupo 1 são muito poucos os países 16 medalhas (ouro, prata ou bronze).

Abaixo está uma tabela de sumarização dos resultados com os demais grupos. Procure as diferenças nos resultados e pense em qual nome daria para cada grupo.

Eu diria que o grupo 1 é formado por países de baixa performance, e o grupo 3 de alta. Dar nome aos grupos é o trabalho do analista, o algoritmo já fez o mais complicado que é separar e organizar toda a coisa olhando para todos os fatores.

  1. Qual o grau de confiança do padrão encontrado?

Estes dados apresentem uma nitidez de 96,04% o que é muito alto e significa que os grupos estão de fato muito bem segmentados.

  1. Qual é um resultado típico ou comum nas olimpíadas?

Sendo o grupo 1 o maior grupo, que equivale a 91,76% dos países que receberam medalhas, é possível afirmar que tipicamente os países recebem até duas medalhas. Do contrário, não é típico um país receber mais de 20 medalhas.

  1. Quais países têm características mais distintas da maioria?

Comparando os resultados de distinção dos grupos gerados pelos VORTX, podemos afirmar que os grupos 3 e 4 são os grupos países mais diferentes ou diferenciados.

Grupo 1 – 83,28%
Grupo 2 – 79,31%
Grupo 3 – 100%
Grupo 4 – 100%
Grupo 5 – 84,73%

  1. É possível prever os resultados das olimpíadas do Rio 2016 com base do padrão dos grupos?

A identificação dos agrupamentos, dá o ponta pé inicial das análises, organizando e estruturando o raciocínio lógico, porém a assertividade dos modelos de predição dependem de vários fatores, dentre eles:

  • a quantidade de dados sendo analisados (neste caso são poucos), quanto mais dados, melhor.
  • mudanças estruturais no quadro de medalhas, como por exemplo adição ou remoção de novos esportes.
  • Influência política ou os casos de doping que afastaram diversos atletas.

Conclusões e Reflexões

Bom pessoal, os resultados fazem sentido para vocês? Vejam que exercício foi feito com dados relativamente simples de 3 colunas onde já é possível descobrir coisas interessantes. Agora, o que realmente importa em relação a utilização de algoritmos de agrupamento para resolver resultados práticos em outras áreas? Abaixo seguem algumas ideias:

  • Seria interessante saber quais os problemas típicos e o grau de homogeneidade das turmas escolares ou tratamentos hospitalares?
  • Seria estratégico descobrir quais alunos ou pacientes são muito diferentes do comum e demandam atendimento especial?
  • Seria interessante saber quais as características predominantes de equipamentos que mais quebram? Isso reduziria o custo de operação?
  • Quando temos 3 colunas como o caso das medalhas é fácil encontrar o padrão no olho, certo? E se forem 2 milhões de linhas e 20 colunas, como você encontraria o tipo de venda que traz o melhor retorno sobre investimento?
  • Quais são as características dos usuários que fraudam o seguro? Qual é o corte ideal de idade por região, gênero e escolaridade? E quanto esses grupos representam de prejuízo?

É isso pessoal. Obrigado pela atenção, vamos em frente! Que há muito dado para se processar e muita gestão para melhorar, um forte abraço a todos.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

Data Analytics e o impeachment de 2016: Uma análise sem partido

Data Analytics e o impeachment de 2016: Uma análise sem partido

Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.

Estudo da natureza dos dados e limpeza

Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).

Imagem recortada da planilha.

Assim temos:

Partidos com mais e menos membros votantes:

  • PMDB = 66 votantes
  • PMB = 1 votante

Estados com mais e menos membros votantes:

  • São Paulo = 70 votantes
  • Tocantins = 8 votantes

Números totais de votos:

SIMNÃOAUSENTEABSTENÇÃO
36713727

Gênero dos votantes:

  • Masculino = 462
  • Feminino = 51

Aplicação de técnicas de mineração

Análise de textos

Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.

Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.

Análise por Fernando Severo

Análise de agrupamentos (clustering ou segmentação)

Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:

  • Grupo 0 Azul = 310 votos – principal força PMDB
  • Grupo 1 Verde = 57 votos – principal força PSDB
  • Grupo 2 Vermelho = 146 votos – principal força PT

Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.

Análise preditiva de votos

Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim,  76 não e predizendo erroneamente 70 votos.

Pesos das variáveis

Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:

  • O estado do carro;
  • A previsão do tempo;
  • O preço da gasolina;
  • A distância a ser viajada;
  • A quantidade de bagagem.

Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?

Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.

Conclusões e Limitações:

Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.

Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.

Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.

Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.

Blitz analytics

Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela VORTX.

Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores