7 dicas de ouro sobre Design de indicadores

7 dicas de ouro sobre Design de indicadores

No artigo sobre Indicadores de desempenho: de KPI dashboards a prescrições com IA apresentamos como surgiram os indicadores de desempenho, algumas áreas de aplicação e como a Inteligência Artificial pode ser utilizada na gestão destes. Neste artigo vamos falar um pouco sobre aquela que é considerada por alguns como arte e outros como ciência, o design de indicadores.

Peter Drucker já dizia:

(mais…)

Inteligência Artificial aplicada ao casamento: até que os dados não nos separem!

Inteligência Artificial aplicada ao casamento: até que os dados não nos separem!

Nosso CTO Joni Hoppen trocou alianças no dia 25 de novembro de 2017, e como bom cientista de dados que é, não pode deixar sua profissão de fora! Neste artigo, Joni conta como utilizou Advanced Analytics e Inteligência Artificial para encontrar padrões nas mais de 80 mil mensagens trocadas pelo whatsapp entre ele e sua esposa ao longo de 32 meses.

Esperamos que gostem e que se sintam incentivados a casar, ou pelo menos conhecer mais um pouco sobre Advanced Analytics e como isso já está mudando a forma que vivemos, boa leitura!

O casamento

A cerimônia aconteceu no dia 25 de novembro de 2017 em Santa Catarina. Nos conhecemos no famoso “bloco dos sujos” do carnaval de Florianópolis no dia 14 de fevereiro de 2015. Na ocasião eu estava vestido a caráter, ou seja, de mulher (como manda a tradição desse bloco de carnaval) e ela de pirata (mal sabia eu que ela iria roubar meu coração).

Durante 2 anos e 8 meses foram trocadas mais de 85 mil mensagens,até eu me surpreendi, sério! Após o processo de limpeza de dados para conformação Dataset de análise (O que são datasets e como utilizá-los?) sobraram 78550 mensagens válidas, que são mais ou menos como os votos válidos das eleições que excluem brancos, nulos e justificativas. Destas mensagens, foram excluídas todos os emojis. Por falar em emojis, eles dariam certamente uma análise por si só, já que hoje já é até possível fazer buscas no youtube a partir de emojis no celular (experimenta lá e sinta-se um porta-voz egípcio). 

Além das mensagens, houve também um total de 2.324 itens compartilhados, sendo:

  • Fotos – 807
  • Vídeos – 86
  • Áudios – 1431

Que resultam em 723 Megabytes de história.

Apresentação surpresa das análises :)

Apresentação surpresa das análises 🙂

 

Um dia depois do primeiro encontro começamos a trocar mensagens pelo Whatsapp começando por esta:

A primeira mensagem:

15/02/15 08:08:19: Joni: Oi Nubi
15/02/15 08:08:30: Joni: Bom dia

A resposta só veio perto do meio dia:

15/02/15 11:58:29: Nubia : Bom dia!! :).
15/02/15 12:00:26: Joni: Oi bom dia dois minutos antes do meio dia tá valendo.
15/02/15 12:09:26: Nubia: Kkkkk mas eu acordei faz tempo.

Bom, isso foi só o começo, o que escrevo no artigo foram um parte da apresentação dos votos de casamento (foi surpresa para todos), além do objetivo de conquistar o “Sim” da noivíssima, também poderia de alguma forma explicar para as duas famílias o que eu faço na minha vida profissional. Quem é analista sabe como é difícil explicar que o que se faz nessa área é abstrato. Pelas pesquisas, acredito que este trabalho tenha sido uma iniciativa pioneira no mundo. se alguém encontrar algo semelhante, nos avise, somos curiosos!

Análise exploratória

Como alguns já sabem, ninguém chega a receber apoio da Inteligência Artificial se não começar pelas análises estatísticas básicas de exploração dos dados. Assim, com tantas mensagens, o que poderia ser extraído de interessante?

Os metadados são informações que ajudam a explicar a natureza dos dados. Apenas como exemplo, a resolução de uma foto é o metadado da foto. Neste caso estamos falando de mais informações sobre os textos e aqui vão mais alguns números.

Qual comprimento médio das mensagens?


Considerando a contagem de cada dígito das mensagens, chegamos a uma média de 19 letras por mensagem trocada. Porém, essa informação não traz algo muito relevante. Assim, montei um gráfico com a contagem de mensagens em relação com a contagem das letras.

No gráfico abaixo vemos que a Nubia tende a escrever mais mensagens curtas de até 4 letras, ao passo que as minhas mensagens são mais longas (acima de 6 letras). Olhando os dados, alguém pode dizer que ela é mais direta e eu prolixo, será? Ainda, verifica-se uma tendência clara e esperada da correlação entre o tamanho das mensagem e a quantidade delas, ou seja, quanto maior o texto, menos mensagens ocorriam e assim por exemplo, pouquíssimas mensagens ultrapassaram 60 caracteres. Contudo, o que chama a atenção neste gráfico é o surgimento de um padrão nas mensagens de 40 letras que são muito mais frequentes do que na série. O que será que foi escrito com 40 caracteres?

Quantidade de mensagens por quantidade de letras

Quantidade de mensagens por quantidade de letras

Verificando o histórico e filtrando somente mensagens com 40 letras, descobri que o Whatsapp gera um texto no envio de mídias, fotos, vídeos e etc. Esses comportamentos geram pistas para que os algoritmos de Machine Learning consigam descobrir o padrão de comportamento de envios de mídia.

Metadados das mídias

Metadados das mídias

Quantas mensagens são trocadas por mês em média?

Até aquele momento, havia uma média de 88 mensagens por dia, que somando geram 613 por semana e uma média de 2450 mensagens por mês. O total acumulado dos 32 meses de análise foi de 78550 mensagens.  No gráfico de densidade abaixo é possível ver alguns padrões interessantes, como por exemplo, no início eu mandava consistentemente mais mensagens do que ela proporcionalmente. Já a partir do fim de 2015 ela virou o jogo.

Densidade das mensagens

Densidade das mensagens

 

Uma das coisas mais legais de se trabalhar com analytics é conseguir reconstruir a história a partir dos dados. Nesse caso, ficou bem evidente no gráfico uma situação na qual fomos assaltados e um dos celulares foi levado, fato que impactou diretamente no volume de mensagens trocadas em outubro de 2016. Felizmente não foi nada mais sério além dos bens materiais, e assim que substituímos pelo novo aparelho, a quantidade de mensagens voltou aos patamares anteriores. De agosto de 2017 em diante o número de mensagens foi baixando, explicado principalmente pela quantidade de trabalho envolvido nos preparativos do casamento.

Dados absolutos das mensagens

De forma sumarizada, a tabela traz a contagem de mensagens do casal e a soma, sendo classificadas por mensagens afirmativas e sem risos, seguida por afirmativas com risos. Para responder às seguintes questões:

  • Quem escreve mais?
  • Quem faz mais perguntas?
  • Quem dá mais mais risadas?
  • Qual o tipo de mensagem menos comum para cada autor?
Contagem de mensagens

Contagem de mensagens

 

Nota-se claramente que escrevi alguma pergunta contendo risos apenas 36 vezes. Que cara sério! Bom, se vocês estão conseguindo entender a análise, parabéns e bem-vindos ao mundo dos analistas de dados!

Somando as mensagem com risos em afirmações e perguntas, Eu ri 5103 vezes contra 5016 mensagens da Nubia. Achei bem equilibrado até, ainda bem :). Este poderia ser um bom indicador de equilíbrio entre casais. Se alguém ri muito mais do que o outro pode haver algo de errado ou seria certo.

Dados relativos Joni vs Nubia

Os valores absolutos apresentados acima são úteis para diversas perguntas, porém em muitos casos fica um pouco mais difícil responder comportamento em uma análise comparativa entre os autores. Por exemplo: Entre Joni e Núbia quem faz mais perguntas?

Para uma melhor compreensão deste tipo de pergunta, sempre recomendamos que os analistas façam modelagens comparativas usando proporcionalidade, vejam abaixo como fica o mesmo quadro comparando as proporções das respostas entre a Nubia e eu.

Quantidade de respostas

Quantidade de respostas

Fica bastante evidente quem é mais o mais curioso do casal?

Dados relativos aos próprios autores

Agora, aplicando a proporção distribuída pelas colunas temos o comportamento proporcional de cada autor, ou seja, 80% das minhas mensagens eram afirmativas e sem risos, já para a Núbia apenas 67%, sendo que quase 20% das mensagens dela eram perguntas sem risos. E eu sempre achando que eu era mais curioso :).

Quantidade de perguntas

Quantidade de perguntas

 

Interessante que a proporção de perguntas e risadas ficou a mesma, praticamente 13% das mensagens foram risadas, ou seja, grande parte das mensagens são afirmações! Que gente séria, não? Até seria interessante saber qual o padrão nacional e internacional.

As Top 15 palavras mais usadas

Abaixo estão elencadas, como normalmente se faz em análises textuais, as palavras mais frequentes em todas as mensagens trocadas. Importante lembrar que antes de gerar esta análise, foi necessário executar procedimentos de normalização do texto. Esta normalização significa transformar todas as letras em minúsculas e remover todos os acentos e outros “paranauês” de modo que a palavra “Não” seja igual a “não”. Caso contrário a lista conteria “tá” e em segundo lugar em “ta” em oitavo atrás de outras combinações. Essas decisões da preparação são bastante importantes em todo tipo de análise e é um dos motivos pelo qual cientistas de dados altamente qualificados são valorizados no mercado de trabalho no Brasil e principalmente fora dele.

Ranking Termo Aparições
ta 4667

 

 

 

bom 4562
vou 3730
nao 3628
to 3618
eu 3071
voce 2768
bem 2721
te 2468
10º oi 2427
11º ja 2118
12º tambem 2091
13º beijinhos 1899
14º gatinha 1730
15º nubi 1706

 

Detecção de padrões com Inteligência Artificial

A Inteligência Artificial pode ser utilizada de muitas formas, seu poder está em detectar comportamentos nos dados de forma automática, e até de forma mais profunda do que um ser humano seria capaz. Neste caso, escolhi fazer o seguinte teste, deixar a máquina ler todas as mensagens por algumas horas e descobrir qual é o comportamento mais típico das minhas mensagens em relação às mensagens da Núbia.

Se questionado, o modelo de IA apresentou uma precisão de 70% de acerto para descobrir quem é o Joni ou a Núbia. Em outras palavras, se apresentar uma nova mensagem para ele, ele acertaria 70% das vezes. Um dos motivos pelo qual o sistema se torna menos preditivo (confuso) sobre a decisão da autoria, foram mensagens em que ambos autores utilizavam as mesmas palavras com a mesma intensidade, como por exemplo:

    • bom dia

 

    • boa noite

 

    • agora

 

    • acho

 

    • vamos

 

    • almoço

 

  • saudades

Perguntando a IA

Quando que você acha que uma mensagem é do Joni?

Resposta:
Quando estão escritas algumas destas palavras na seguinte ordem:

-gatinha,
-trabalho,
-beijos,
-nubi,
-tomar,
-casa,
-linda,
-foto,
-minha,
-adoro

Quando você acha que uma mensagem é da Núbia?

Resposta:

Quando estão escritas algumas destas palavras na seguinte ordem:

-aham,
-quando é uma pergunta,
-baby,
-pela quantidade de letras,
-vou,
-beijos,
-também,
-mimir,
-quero,
-beijinhos,
-ainda,
-só,
-amanhã,
-ta,
-sim,
-eu

 

Conclusões e recomendações

Esse foi um retrato de uma aplicação Outlier de Data Analytics na vida real, que mostra como é possível fazer história apenas conversando no celular. Também mostra como é possível ensinar as máquinas a interpretarem padrões de comportamento em mensagens escritas em português. Pode ser também uma dica para quem está pensando em casar, porque não? Felizmente o “Sim” foi alcançado, e agora o relacionamento mudou de status. Quem sabe futuramente novas análises serão feitas, mas o que importa é conversar pela via real.

Este tipo de análise sobre linguagem natural é um dos tópicos mais difíceis de se abordar, tanto pela complexidade linguística como também pela explosão combinatória que rapidamente ocorrem em textos, aliado aos limites de processamento das máquinas. Logicamente que centenas de outros tipos de análises poderiam ser feitas sobre os mesmos dados, a grande limitação deste projeto foi em relação ao tempo disponível para as análises, já que cada nova ideia acaba demandando testes e avaliações. A área de linguagem natural (estudo de textos) é ampla e complexa, e com grande campo de aplicação no contexto da indústria 4.0 descrita aqui (Indústria 4.0 na visão da Aquarela) . Uma demonstração mais pragmática do impacto dessas abordagens em negócios e pesquisas foram escritas neste artigo (O que é a web 3.0 e sua importância para os negócios ). Essas tecnologias já são amplamente utilizadas nas principais ferramentas de redes sociais, disponíveis para inferir padrões de comportamento para compra, venda, conversão e etc, de modo a gerar a automação de gatilhos de ações preventivas nas bases de clientes.

 

O que é ciência de dados (data science) e como aplicá-la nos negócios?

O que é ciência de dados (data science) e como aplicá-la nos negócios?

Neste artigo vamos mostrar o que é ciência de dados, uma área que tem chamado cada vez mais atenção no mundo corporativo e universitário. É crescente o número de empresas buscando por aplicações de data science para negócios, bem como o número de profissionais que estão migrando para a área de ciência de dados e ajudando a democratizar o uso e a aplicação da matemática e estatística.

Popularidade da área de ciência de dados

Em outubro de 2012 a Harvard Business Review publicou um artigo intitulado “Data Scientist: The Sexiest Job of the 21st Century”, o qual foi muito falado ao redor do mundo e ajudou a enfatizar a relevância da área de ciência de dados.

Se a área de data science ganhou espaço em boa parte por ser uma área “atraente” – que chama atenção pelos belos gráficos, análises feitas com algoritmos complexos e métodos modernos –, hoje em dia o campo de ciência de dados tem aumentado ainda mais o seu espaço pela possibilidade de gerar valor às organizações, entregando resultados de forma rápida e objetiva como solução de problemas complexos.

A seguir apresentamos um gráfico com dados extraídos do Google Trends, que mostra a evolução das buscas pelo termo “data science” no Brasil e no mundo, de outubro de 2012 até julho de 2018. O gráfico mostra a popularidade das buscas, sendo 100 o momento de maior popularidade, 50 média popularidade e 0 nenhuma popularidade.

Popularidade das buscas por data science

Popularidade das buscas por data science

O gráfico mostra que a popularidade da área de ciência de dados cresce cada vez mais, estando no seu auge. Vemos que no Brasil há um certo “delay” em relação às buscas gerais em todo o mundo. As quedas sazonais no mundo são mais marcantes em dezembro ao passo que no Brasil não há um padrão bem definido da demanda.

O que é ciência de dados?

Ciência de dados é um campo interdisciplinar de investigação de dados que resolve problemas reais de negócios, com o uso de método científico e técnicas avançadas de análise de dados, machine learning e inteligência artificial. Esta é uma área essencial para posicionar as organizações no cerne da Indústria 4.0.

Uma das características marcantes da área de ciência de dados é a conexão que ela cria entre o mundo acadêmico e o mundo de negócios. Na academia muito se aprende sobre o método científico e a estruturação de pesquisas e análises. No mundo dos negócios, por sua vez, há um forte apelo pela rápida resolução de problemas práticos nos diversos setores das organizações.

“A ciência de dados pode resolver problemas simples e complexos, não apenas complexos. Existem problemas simples que geram grandes impactos nas operações e até nas estratégias de longo prazo.” Joni Hoppen

Com aplicações de data science é possível unir estes dois mundos, resolvendo problemas simples e complexos de forma estruturada, gerando impactos nos negócios. Estes impactos vão depender do tipo de problema que está sendo resolvido, e o fluxo de dados podendo abranger desde o nível operacional da empresa até a descoberta de novas regras de negócio (insights) para mudar decisões estratégicas de longo prazo.

Em termos de “campos de conhecimento”, a área de ciência de dados é uma intersecção entre ciência da computação, engenharias, matemática e estatística com áreas de negócio, que envolve conhecimentos de economia e administração, de forma geral.

Aplicando data science para negócios

O profissional que irá executar “data science” no dia a dia é o cientista de dados, e para aplicar data science para negócios é necessário um envolvimento tanto de áreas mais técnicas, quanto de áreas mais de negócio. A separação dos profissionais técnicos dos analistas de negócio tem se mostrado um fator crítico de sucesso desta natureza de projeto.

Na parte mais técnica, os cientistas de dados se relacionam com setores como: business intelligence (BI) / inteligência de mercado; tecnologia de informação (TI); administração de banco de dados (DBA).

Já nas áreas de negócio, os cientistas de dados irão se relacionar com profissionais que possuem domínio do negócio a respeito de cada problema específico que busca-se resolver, em outras palavras, são os profissionais que entendem as regras do jogo e jogam diariamente. Por exemplo: se o cientista de dados irá resolver um problema de gestão de estoque, então profissionais da área de logística e até mesmo da contabilidade poderão ser alocados para fazer parte do projeto.  

Neste artigo elaboramos de forma resumida 14 áreas de aplicação de ciência de dados e as recomendações necessárias para começar a estruturar análises em cada área.

Etapas para desenvolver projetos de ciência de dados com sucesso nos negócios

Para aplicar projetos de ciência de dados em negócios, é fundamental cumprir algumas etapas, as quais são descritas a seguir.

Desenvolver projetos de ciência de dados envolve muito mais do que o conhecimento de linguagens de programação, como Python e R, ou de saber como aplicar algoritmos complexos de machine learning e inteligência artificial.

Para colocar em prática projetos envolvendo ciência de dados que obtenham sucesso e agreguem valor para as empresas, é preciso ter uma metodologia, para mapear o problema a ser resolvido e definir métricas de sucesso do projeto.

Conheça a DCIM, metodologia desenvolvida pela Aquarela para implementar a cultura de Data Analytics nas organizações.

De forma geral, as seguintes etapas precisam ser cumpridas:

1. Definição de problema e métrica de sucesso

O ponto inicial para aplicar ciência de dados nas organizações é identificar qual é a dor de negócio, e qual é o indicador que realça essa dor na prática. Alguns exemplos de problemas que a já auxiliamos no processo de definição do caminho para a solução são:

    • Logística: como reduzir a taxa de entregas não efetuadas? Como otimizar as rotas e as cargas enviadas?

 

    • Marketing digital e sistemas online: como reduzir a taxa de churn de clientes?

 

    • Manutenção industrial (Embraer): como melhorar a assertividade na troca de peças para resolver defeitos de equipamentos de alto custo?

 

    • Gestão de estoque: como reduzir o provisionamento contábil de estoques e otimizar o deslocamento do patrimônio.

 

    • Área comercial: Como aumentar o ticket médio das vendas com a recomendação de produtos? Como antecipar a compra de produtos que invariavelmente seriam comprados pelo cliente?

 

    • Saúde: Como reduzir em 50% a taxa de faltas nos agendamentos médico? (Leia mais aqui).

 

    • Marketing: Como inferir motivos de perda de market-share e gerar recomendações de ações por produto.

 

  • Cobrança: Como antecipar o contato com clientes com mais probabilidade de pagamento das dívidas?

Clique aqui e conheça mais sobre as soluções da Aquarela.

2. Definição do dataset analítico a ser utilizado

O dataset (conjunto de dados) a ser utilizado pelo cientista de dados, não é uma simples extração de uma enorme massa de dados diretamente do banco transacional pelas queries SQL. (Saiba mais sobre projetos analytics de alto nível aqui.)

O dataset analítico é construído a partir da definição do problema, e precisa conter todas as variáveis (colunas) necessárias para que o problema em questão possa ser respondido.

Este conjunto de dados normalmente é uma mescla de variadas bases de dados, tanto internas (da própria organização), quanto externas. Nas fontes de dados externas entram bases compradas de fornecedores específicos, ou até bases públicas, que têm o fim de enriquecer os dados e melhorar a assertividade dos modelos que serão aplicados.

Veja aqui em detalhes o que é e como construir um dataset analítico.

3. Transformação e higienização de dados

Umas das etapas que mais exige horas de trabalho em ciência de dados é a transformação e higienização de dados.

Este processo inclui pontos que envolvem técnicas estatísticas, como tratamento de dados faltantes e tratamento de outliers. Outros procedimentos também são realizados nesta etapa, como: “merge” ou concatenação de colunas, enriquecimento de dados com bases externas (dados de latitude e longitude, temperatura, macroeconômicos, entre outros) e diversas outras reestruturações necessárias para que os modelos de inteligência artificial consigam trazer a resposta desejada.

4. Mineração de dados e modelagem com inteligência artificial

Um dos pontos mais importantes no processo de gerar valor para as companhias na área de ciência de dados é o processo de modelagem. Nesta etapa diversos modelos (centenas ou milhares) são treinados com o uso de diversas técnicas de inteligência artificial.

O propósito de todas essas modelagens é encontrar as inter-relações entre as variáveis (colunas) com o uso de inteligência artificial, e gerar outputs como:

 

    • previsões: projeções de como será o futuro de séries temporais;

 

    • análise de perfis: identificação de personas, categorização entre indivíduos similares dentro do conjunto de dados, o que permite encontrar também grupos de outliers, os quais possuem características muito diferentes dos demais;

 

  • criação de cenários: identificar grupos que impactam positiva ou negativamente em um target, uma variável a ser explicada.

Saiba mais sobre data mining (mineração de dados) em nosso artigo.

Ao final, os modelos escolhidos serão colocados em produção e monitorados pelos sistemas de acompanhamento, normalmente sistemas de BI ou mesmo planilhas de excel dependendo do nível de maturidade da organização. Veja aqui os 5 níveis de maturidade de dados da metodologia DCIM Aquarela.  

Veja também – Resultados da pesquisa sobre a qualidade dos dados empresariais no Brasil

5. Comunicação dos resultados obtidos em linguagem de negócio

A comunicação dos resultados dos projetos de ciência de dados deve ser feita em linguagem de negócios, com foco na objetividade e na agilidade, mostrando os KPI’s que foram impactados com o projeto e qual será o retorno financeiro obtido. Além disso, se recomenda apresentar a visão de futuro dos sistemas integrados, e uma lista com as oportunidades adjacentes, descobertas durante o processo (está última parte é a que consideramos mais disruptiva para os negócios).

Conclusão

Mostramos neste artigo o que é ciência de dados, uma área de grande interesse que está promovendo a democratização da matemática e estatística no mundo. Evidenciamos algumas características deste tipo de trabalho e apresentamos alguns exemplos de projetos que já realizamos em diversos setores.

Em nossa visão, a ciência de dados vai muito além das questões técnicas, pois aplicar ciência de dados na prática é saber o problema de negócio será atacado, descobrir quais dados estão disponíveis, quais indicadores existem ou precisam ser desenvolvidos. Além disso é necessário desempenhar um papel ponderador das avaliações qualitativos e quantitativos das tecnologias que serão utilizadas na resolução do problema, utilizando boa comunicação, sensibilidade técnica e de negócios. E, ao fim, ser capaz de colocar em produção as análises e partir para o monitoramento de desempenho.

Por fim, a área de ciência de dados é um dos principais motores que está moldando as organizações na era da informação, sendo capaz de gerar conhecimento em diferentes níveis do comportamento interno e até externo das organizações. Com o ganho em poder computacional, e também na capacidade de coleta e armazenamento de dados, há uma crescente demanda por profissionais fluentes nestes processos de análise, os cientistas de dados.

“Ciência de dados vai muito além dos algoritmos!”

A tendência para o futuro é que ciência de dados passe a ser cada vez mais relevante para os negócios, não apenas por ser uma área “sexy” – como tratada pelo artigo da HBR, citado anteriormente –, mas, principalmente, por gerar valor em análises que antes eram inviáveis (mesmo as mais simples) de serem realizadas.

Veja mais conteúdos relacionados em nosso blog:

 

 

 

 

Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios

Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios

A quantidade de dados gerados em um mercado altamente competitivo, fez com que as empresas se esforcem cada vez mais para oferecer produtos e serviços personalizados aos seus clientes.  Por isso, compreender o que é análise descritiva, prescritiva, preditiva e cenarização, bem como as diferenças entre estes termos, é um importante passo para os profissionais e empresas que desejam alcançar vantagens competitivas aplicando técnicas de Advanced Analytics.

Além disso, ao levarmos em conta o contexto empresarial da Indústria 4.0, para o qual estamos caminhando, gerar valor por meio de análises de dados descritivas, preditivas,  prescritivas e cenarização se torna imperativo.

O que é análise descritiva (exploratória)?

Análise descritiva ou exploratória de dados é uma forma de utilizar métricas e técnicas estatísticas simples ou avançadas para entender e explicar como os dados são, podendo ser:

  • univariada – investigação do comportamento de uma única variável (ou coluna);
  • bivariada – investigação de como duas variáveis se relacionam;
  • multivariada – investigação do comportamento de diversas variáveis, análise multi-colunar.

A análise descritiva é o processo mais básico para qualquer tipo de análise de dados, embora simples em diversas ocasiões é um processo que, quando aliado a uma metodologia consistente de Analytics pode responder importantes perguntas gerenciais de maneira quase imediata. Como por exemplo: Qual a flutuação das vendas ao longo do ano?

Análise descritiva univariada

Na análise descritiva univariada, é analisado o comportamento estatístico de apenas uma variável (ou coluna). Neste processo entram cálculos de média, mediana, moda, máximo, mínimo, desvio-padrão, variância, segregações de dados em percentis (quartis, decis, etc), entre outros.

Um dos gráficos mais comuns da análise descritiva univariada é o histograma e/ou gráfico de densidade. Veja um exemplo.

Exemplo de análise descritiva com histograma e gráfico de densidade

O histograma é um dos gráficos estatísticos mais simples, mas já é poderoso para fornecer insights nas análises. No exemplo a seguir é utilizado dados de comparecimento em agendamentos médicos na saúde pública da cidade de Vitória/ES. O histograma a seguir, por exemplo, já permite tirar conclusões como:

  • Os homens se preocupam muito menos em agendar consulta do que as mulheres;
  • Os homens vão mais ao médico quando são crianças e adolescentes, depois disso passam a ir ao médico mais próximo aos 50 anos, mas ainda com menos intensidade que quando eram crianças;
  • Mulheres também não vão muito ao médico pouco antes do 20 anos, mas depois frequentam as consultas com uma frequência muito superior aos homens.
Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)

O gráfico de densidade, por sua vez, é complementar ao histograma, mostrando a distribuição de uma única variável por vez, sem ser afetado pelo número de “bins” do histograma.

A principal diferença entre o histograma e o gráfico de densidade é que o histograma apresenta valores absolutos, enquanto o gráfico de densidade apresenta valores relativos à própria variável. Por ser um gráfico relativo, o eixo Y do gráfico de densidade possui uma interpretação que nem sempre é tão clara, mas ele viabiliza compreender onde estão as maiores e menores concentrações em cada variável.

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)

Se por um lado, o gráfico de densidade deixa mais evidentes as tendências de comportamento e descoberta de padrões, o histograma traz dados mais precisos no ponto de vista de tomada de decisão permitindo alterações no tamanho das barras conforme cada caso. Por exemplo: A partir do histograma, o gestor pode afirmar que mais de 3000 meninos com menos de 10 foram atendidos durante o período da análise, já no gráfico de densidade pode se dizer que houve uma intensidade maior de atendimentos de meninos até 10 anos durante o período em relação a todos os indivíduos do sexo masculino. Portanto, a escolha do tipo de gráfico fica a critério do analista e dos objetivos de negócio associados a decisão.

Análise descritiva bivariada

Na análise descritiva bivariada adicionam cálculos de investigação do relacionamento de  duas variáveis, como coeficientes de correlação e covariância, bem como a criação de indicadores percentuais, obtidos por meio da divisão de uma variável pela outra.

Também entram aqui as chamadas tabelas dinâmicas dos softwares de planilhas eletrônicas, como o Excel (curiosidade: na estatística estas tabelas são chamadas de tabelas de contingência).

Entre os gráficos mais comuns da análise descritiva bivariada está o diagrama de dispersão (scatter plot).

No diagrama de dispersão a seguir mostramos um exemplo do mercado de ações brasileiro, relacionando os retornos diários obtidos de ações de empresas listadas na Bolsa com o principal índice de mercado, o IBovespa (mais detalhes aqui).

Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA (Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)

Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA
(Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)

O que é análise preditiva?

Análise preditiva é a utilização de modelos estatísticos para apontar como serão os dados no futuro, ou como se comportam em condições diversas. Utiliza-se para tal modelos de machine learning e inteligência artificial, que vão desde modelos clássicos de regressão até modelos e algoritmos complexos que envolvem deep learning, métodos de redução de dimensionalidade, ensemble learning e swarm intelligence – conheça o VORTX. Atenção: Não há como fazer análises preditivas sem dados passados.

Diferença entre predição e previsão

Aqui vale um parênteses sobre a diferença entre predição e previsão. Entendemos a previsão como um subconjunto da predição. Enquanto a predição trata de dizer, de forma genérica, como um fato seria antes de sua ocorrência, a previsão parte do mesmo princípio, mas apenas aplica-se a fatos que estão vinculados ao tempo.

Exemplos de resultado de uma análise preditiva:

Por exemplo: um indivíduo de 30 anos, sexo masculino, solteiro, desempregado, possui uma probabilidade de atrasar o pagamento de uma fatura de 32%. Já uma senhora de 65 anos, viúva, aposentada, possui uma probabilidade de atrasar o pagamento de uma fatura de 4%. Ou seja, as alterações nas características alteram as probabilidades.

Segue figura de um exemplo de painel preditivo que trabalha justamente com a probabilidade de pagamento ou não de um indivíduo, dadas algumas circunstâncias.

Exemplo de painel preditivo

Exemplo de painel preditivo

A validação dos modelos preditivos são um tópico à parte, porém, em simples termos, é necessário que o modelo preditivo seja capaz de acertar pelo menos de 70% a 90% em das tentativas. Caso ele acerte menos de 50%, seria o mesmo que competir com a predição de cara ou coroa. Já se ele conseguir atingir 100% ou acima de 95%, pode ser que exista alguma variável no modelo comprometida.

Algumas limitações típicas de modelos preditivos são a dificuldade de fazer predições sobre categorias múltiplas ou invés de prever se o cliente vai pagar não. Digamos que os clientes podem: “Pagar à vista”, “Pagar a prazo”, “Pagar por cartão”, “Pagar por boleto”, “Não vai pagar”. As taxas de assertividade por categoria podem ser muito discrepantes. Para superar essa limitação é preciso construir algoritmos específicos para o problema além de efetuar transformações no dataset (O que são datasets e como utilizá-los? – https://www.aquare.la/datasets-o-que-sao-e-como-utiliza-los/) na fase de preparação dos dados.

Exemplos de análise preditiva com previsão:

Dada a oscilação histórica de indicadores da economia de um país, uma análise preditiva envolvendo previsão pode fazer uma inferência de como será a movimentação da taxa básica de juros do país ao longo dos próximos 6 meses. Ou seja, é a utilização de análise preditiva em séries temporais, como séries financeiras, econômicas, dados clima, dados de marketing digital, entre outros. É a previsão que viabiliza capturar efeitos temporais, como a sazonalidade, por exemplo.

A figura a seguir mostra um exemplo de previsão de série temporal sobre o indicador FipeZap, um índice de preços do mercado brasileiro de construção civil. O modelo utilizado neste exemplo utiliza as próprias variações do indicador para prever ele mesmo. Existe, porém, uma série de modelos bastante complexos envolvendo análises de séries temporais e demandam uma avaliação criteriosa caso a caso.

Exemplo de previsão (forecast) de série temporal

Exemplo de previsão (forecast) de série temporal

O que é análise prescritiva?

Análise prescritiva (de recomendação) é a utilização de ferramentas estatísticas (tanto de análise descritiva quanto preditiva), alinhadas à gestão de negócios, para gerar recomendações de ações a serem tomadas de forma automáticas ou semiautomáticas, com o fim de otimizar as estratégias adotadas pelas empresas e alcançar melhores resultados no menor espaço de tempo.

Enquanto a análise preditiva se limita a dizer como provavelmente será o futuro, a análise prescritiva fornece subsídios para tomar decisões que irão alterar o futuro. Em outras palavras, o que deve ser feito para que o futuro desejado se realize. Ou seja, no exemplo abaixo, quais são as recomendações de manutenção para que a troca das peças seja a melhor possível?

Exemplo de painel prescritivo de recomendações em manutenção industrial

Exemplo de painel prescritivo de recomendações em manutenção industrial

O que é análise de cenarização?

A análise de cenarização (descoberta de cenários de negócio) é uma análise multivariada que serve para descobrir as combinações sistêmicas de variáveis que levam a um determinado resultado.

A título de exemplo realizamos os seguintes testes:

Levando-se em consideração que um dos maiores problemas históricos do Brasil é a desigualdade social, medida pelo Coeficiente de Gini – que consiste em um número entre 0 e 1, sendo que 0 corresponde à completa igualdade (no caso do rendimento, por exemplo, toda a população recebe o mesmo salário) e 1 corresponde à completa desigualdade (onde uma pessoa recebe todo o rendimento e as demais nada recebem). Fonte.

Assim:

  • Quais das variáveis (fatores) têm a maior influência na variação do índice de desigualdade?
  • Quais são as características mais marcantes dos cenários de desigualdade social baixa e alta?

Utilizamos um dataset com 188 países e  64 indicadores macroeconômicos, entre os quais encontram-se  PIB, taxa de eletrificação da população, índice de desenvolvimento humano e outros. Chegamos aos seguintes resultados a partir do cenarizador Aquarela VORTX.

As variáveis com mais influência, ordenadas de forma decrescente, são:

variáveis com mais influência, ordenadas de forma decrescente

variáveis com mais influência, ordenadas de forma decrescente

Visualização multivariada dos cenários de baixa desigualdade social da Islândia.

Visualização multivariada dos cenários de baixa desigualdade social da Islândia.

No cenário Islandês temos uma baixa população carcerária em relação à população total em baixo investimento externo em relação ao PIB e uma escolaridade alta.

População carcerária média, escolaridade baixa e, muito capital privado. e alto fluxo de alunos no ensino superior.

Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos

Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos

Apesar do Brasil ser um dos países mais desiguais do mundo ele se encontra em um cenário intermediário quando consideramos os 65 indicadores. Em diversas outras análises que já realizamos o mesmo dataset é possível afirmar que a média Brasileira é muito próxima a média mundial. E que o padrão internacional de países extremamente desenvolvidos e igualitários são situações de outliers ou se agrupados, se tornam cenários pequenos.

Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.

Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.

Como gerar valor ao negócio com análise de dados?

Qualquer tipo de análise de dados somente fará sentido se for possível extrair ações e medir o impacto das ações tomadas. Para isso, nem mesmo os melhores e mais complexos modelos de machine learning são suficientes se não houver um alinhamento de negócio.

Por isso a Aquarela desenvolveu a DCIM (Data Culture Introduction Methodology), uma metodologia de desenvolvimento de projetos de Analytics, inspirada nos modelos de business CANVAS. Veja mais.

De forma resumida, para gerar valor com análises de dados (análise descritiva, preditiva, prescritiva e de cenarização) em negócios é preciso ter:

  • um objetivo definido, com meta de aumento ou redução atrelada a pelo menos um indicador, já considerando que já existem um trabalho de harmonização dos indicadores;
  • os diferentes tipos de análises suprem necessidades em níveis diferentes, como por exemplo: a cenarização serve para questões estratégicas ao passo que as análises descritivas e preditivas estão mais próximas da operação;
  • perguntas-chave: perguntas de negócio que, ao serem respondidas, vão auxiliar a atingir o objetivo;
  • levantamento de fontes de dados internas e externas que serão necessárias para o projeto de Analytics;
  • testes a serem realizados utilizando tanto análises descritivas, preditivas ou prescritivas, que serão ou não validados.

Por fim, mais importante do que os métodos de análise utilizados, ou o tipo de análise que será feita, é resolver os problemas de negócio e gerar valor!

7 livros descomplicados sobre Data Science

7 livros descomplicados sobre Data Science

Como falamos neste post aqui, gostamos de abordar assuntos complexos com analogias e histórias. Por isso, Selecionamos alguns livros que podem ajudá-lo a enriquecer suas argumentações na hora de explicar para sua mãe ou avó o que é Data Science e como você faz isso. (Talvez não seja bom falar do título “O andar do bêbado”).

Durante nossas capacitações, alguns alunos levantaram a necessidade de continuar o processo de aprendizado, e neste sentido, aqui estão algumas de nossas recomendações. A lista é direcionada para livros de cabeceira, aqueles que você pode ler antes de dormir e não ter pesadelos (esperamos). Por isso, deixamos os conteúdos mais técnicos para um outro post.

Aqui na Aquarela temos um time apaixonado por leitura, e estamos sempre trocando figurinhas sobre temas e recomendações, portanto, segue abaixo nosso top 7!

Descomplicando Data Science

A lógica do cisne negro – Taleb

O principal tema explorado por Taleb nesse livro é outlier. Ele o faz de uma maneira didática, com cunho filosófico, trazendo exemplos e histórias de sua vida, aqui você não precisa ser matemático ou estatístico para entender. Além disso, o autor tem um ótimo senso de humor, garantindo uma leitura divertida. Amazon

Escrevemos mais aqui sobre o que são outliers e como tratá-los.

Aleatoriedade – Deborah J. Bennett

Um livro que mostra por meio da história e de exemplos práticos que a humanidade sempre foi atraída pelo acaso, mas cometemos muitos equívocos ao nos depararmos com problemas contra-intuitivos. Ainda, Deborah fala um pouco sobre Geradores congruentes lineares, que teoricamente são simples de se entender e aplicar. Amazon

Small data: como poucas pistas indicam grandes tendências – Martin Lindstrom (Editora Harper Collins)

Aqui o autor é o protagonista. Ele viaja o mundo entrevistando e observando pessoas e suas constantes mudanças comportamentais em uma sociedade contemporânea. No livro o objetivo foi verificar como tudo isso afeta os hábitos de compra da população. E a partir disso, ele encontra pequenas pistas e insights que podem fazer de um produto um caso de sucesso. Amazon

O andar de bêbado – Leonard Mlodinov

Mais do que explicar e exemplificar os conceitos básicos de estatística  e probabilidade, o livro nos mostra o quanto podemos ter conclusões equivocadas ao querer encontrar algum padrão, achar uma explicação e preencher uma lacuna.

Leonard ainda fala sobre a importância da quantidade de informações, onde poucos dados/fatores dá margem para variadas interpretações e baseadas nas crenças pessoais de cada um. Amazon

Gestão Visual de projetos: Utilizando a informação para inovar – Júlio Monteiro Teixeira

Este livro, recém lançado, aborda questões chaves de gestão de projetos de colaborativos e criativos, como é o caso da gestão de processos de análise de dados ou ciência de dados. O livro é bastante visual e apresenta melhores práticas de colaboração encontradas durante o estudo de doutorado do autor realizado no Brasil e Alemanha, abordando temas de administração da criatividade em grupo até dicas sobre a estrutura física dos escritórios. Nosso CTO Joni Hoppen é um dos co autores convidados, a contribuição da Aquarela nesta obra foi a definição, em síntese, do processo de geração de indicadores, KPIs, Dashboards e o fluxo onde se encaixa a entrada dos algoritmos de mineração de dados para insights mais profundos. Amazon

Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking:

Escrito pelos renomados especialistas em ciência de dados Foster Provost e Tom Fawcett, o Data Science for Business introduz os princípios fundamentais da ciência de dados e orienta o “pensamento analítico de dados” necessário para extrair conhecimento útil e valor comercial dos dados coletados. Este guia também ajuda a entender as diversas técnicas de mineração de dados em uso atualmente. Amazon

Storytelling with Data: A Data Visualization Guide for Business Professionals:

Storytelling with Data ensina os fundamentos da visualização e da comunicação efetiva com dados. Você descobrirá o poder da narrativa e maneiras de transformar dados em  pontos cruciais de sua história. As lições deste livro são bastante acessíveis através de inúmeros exemplos do mundo real, prontos para aplicação imediata em seu próximo gráfico ou apresentação. Amazon

Bônus

Desenvolvemos dois materiais exclusivos sobre os primeiros passos dentro de projetos de Data Analytics e Data Science que podem ajudá-lo a atingir seus objetivos através dessas ferramentas vanguardistas da indústria 4.0:

[INFOGRÁFICO] 5 Passos para um projeto de data analytics de sucesso!

Esse infográfico tem o objetivo de ajudá-lo a traçar um plano de ação, mostrando as etapas do processo de implementação de uma cultura voltada a dados. Baixe ele aqui.

[E-book] Aprenda os fundamentos da cultura de data analytics e posicione-se a frente no mercado.

O e-book apresenta um guia que divide o processo de cultura de dados em sete etapas, da identificação da oportunidade até a replicação de um projeto de sucesso. Baixe ele aqui.

Conclusões:

Como mostramos, existem diversas opções de publicações relevantes na área de análise de dados e gestão, assim como os vídeos já sugeridos neste artigo. Contudo, a área é grande e diversa, então procure manter o foco no progresso lógico e de perfil de sua carreira com constantes leituras em temáticas que lhe agradam.

Esperamos que estas dicas tornem suas análises muito mais profundas e impactantes. Caso tenham mais sugestões não deixem de escrever nos comentários abaixo.

Boa leitura!