Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios

Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios

A quantidade de dados gerados em um mercado altamente competitivo, fez com que as empresas se esforcem cada vez mais para oferecer produtos e serviços personalizados aos seus clientes.

Por isso, compreender o que é análise descritiva, prescritiva, preditiva e cenarização, bem como as diferenças entre estes termos, é um importante passo para os profissionais e empresas que desejam alcançar vantagens competitivas aplicando técnicas de Advanced Analytics.

Além disso, ao levarmos em conta o contexto empresarial da Indústria 4.0, para o qual estamos caminhando, gerar valor por meio de análises de dados descritivas, preditivas,  prescritivas e cenarização se torna imperativo.

O que é análise descritiva (exploratória)?

Análise descritiva ou exploratória de dados é uma forma de utilizar métricas e técnicas estatísticas simples ou avançadas para entender e explicar como os dados são, podendo ser:

  • univariada – investigação do comportamento de uma única variável (ou coluna);
  • bivariada – investigação de como duas variáveis se relacionam;
  • multivariada – investigação do comportamento de diversas variáveis, análise multi-colunar.

A análise descritiva é o processo mais básico para qualquer tipo de análise de dados, embora simples em diversas ocasiões é um processo que, quando aliado a uma metodologia consistente de Analytics pode responder importantes perguntas gerenciais de maneira quase imediata. Como por exemplo: Qual a flutuação das vendas ao longo do ano?

Análise descritiva univariada

Na análise descritiva univariada, é analisado o comportamento estatístico de apenas uma variável (ou coluna). Neste processo entram cálculos de média, mediana, moda, máximo, mínimo, desvio-padrão, variância, segregações de dados em percentis (quartis, decis, etc), entre outros.

Um dos gráficos mais comuns da análise descritiva univariada é o histograma e/ou gráfico de densidade. Veja um exemplo.

Exemplo de análise descritiva com histograma e gráfico de densidade

O histograma é um dos gráficos estatísticos mais simples, mas já é poderoso para fornecer insights nas análises. No exemplo a seguir é utilizado dados de comparecimento em agendamentos médicos na saúde pública da cidade de Vitória/ES. O histograma a seguir, por exemplo, já permite tirar conclusões como:

  • Os homens se preocupam muito menos em agendar consulta do que as mulheres;
  • Os homens vão mais ao médico quando são crianças e adolescentes, depois disso passam a ir ao médico mais próximo aos 50 anos, mas ainda com menos intensidade que quando eram crianças;
  • Mulheres também não vão muito ao médico pouco antes do 20 anos, mas depois frequentam as consultas com uma frequência muito superior aos homens.
Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)
Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)

O gráfico de densidade, por sua vez, é complementar ao histograma, mostrando a distribuição de uma única variável por vez, sem ser afetado pelo número de “bins” do histograma.

A principal diferença entre o histograma e o gráfico de densidade é que o histograma apresenta valores absolutos, enquanto o gráfico de densidade apresenta valores relativos à própria variável. Por ser um gráfico relativo, o eixo Y do gráfico de densidade possui uma interpretação que nem sempre é tão clara, mas ele viabiliza compreender onde estão as maiores e menores concentrações em cada variável.

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)
Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)

Se por um lado, o gráfico de densidade deixa mais evidentes as tendências de comportamento e descoberta de padrões, o histograma traz dados mais precisos no ponto de vista de tomada de decisão permitindo alterações no tamanho das barras conforme cada caso.

Por exemplo: A partir do histograma, o gestor pode afirmar que mais de 3000 meninos com menos de 10 foram atendidos durante o período da análise, já no gráfico de densidade pode se dizer que houve uma intensidade maior de atendimentos de meninos até 10 anos durante o período em relação a todos os indivíduos do sexo masculino. Portanto, a escolha do tipo de gráfico fica a critério do analista e dos objetivos de negócio associados a decisão.

Análise descritiva bivariada

Na análise descritiva bivariada adicionam cálculos de investigação do relacionamento de  duas variáveis, como coeficientes de correlação e covariância, bem como a criação de indicadores percentuais, obtidos por meio da divisão de uma variável pela outra.

Também entram aqui as chamadas tabelas dinâmicas dos softwares de planilhas eletrônicas, como o Excel (curiosidade: na estatística estas tabelas são chamadas de tabelas de contingência).

Entre os gráficos mais comuns da análise descritiva bivariada está o diagrama de dispersão (scatter plot).

No diagrama de dispersão a seguir mostramos um exemplo do mercado de ações brasileiro, relacionando os retornos diários obtidos de ações de empresas listadas na Bolsa com o principal índice de mercado, o IBovespa (mais detalhes aqui).

Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA (Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)
Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA
(Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)

O que é análise preditiva?

Análise preditiva é a utilização de modelos estatísticos para apontar como serão os dados no futuro, ou como se comportam em condições diversas. Utiliza-se para tal modelos de machine learning e inteligência artificial, que vão desde modelos clássicos de regressão até modelos e algoritmos complexos que envolvem deep learning, métodos de redução de dimensionalidade, ensemble learning e swarm intelligence – conheça o VORTX. Atenção: Não há como fazer análises preditivas sem dados passados.

Diferença entre predição e previsão

Aqui vale um parênteses sobre a diferença entre predição e previsão. Entendemos a previsão como um subconjunto da predição. Enquanto a predição trata de dizer, de forma genérica, como um fato seria antes de sua ocorrência, a previsão parte do mesmo princípio, mas apenas aplica-se a fatos que estão vinculados ao tempo.

Exemplos de resultado de uma análise preditiva:

Por exemplo: um indivíduo de 30 anos, sexo masculino, solteiro, desempregado, possui uma probabilidade de atrasar o pagamento de uma fatura de 32%. Já uma senhora de 65 anos, viúva, aposentada, possui uma probabilidade de atrasar o pagamento de uma fatura de 4%. Ou seja, as alterações nas características alteram as probabilidades.

Segue figura de um exemplo de painel preditivo que trabalha justamente com a probabilidade de pagamento ou não de um indivíduo, dadas algumas circunstâncias.

Exemplo de painel preditivo
Exemplo de painel preditivo

A validação dos modelos preditivos são um tópico à parte, porém, em simples termos, é necessário que o modelo preditivo seja capaz de acertar pelo menos de 70% a 90% em das tentativas. Caso ele acerte menos de 50%, seria o mesmo que competir com a predição de cara ou coroa. Já se ele conseguir atingir 100% ou acima de 95%, pode ser que exista alguma variável no modelo comprometida.

Algumas limitações típicas de modelos preditivos são a dificuldade de fazer predições sobre categorias múltiplas ou invés de prever se o cliente vai pagar não. Digamos que os clientes podem: “Pagar à vista”, “Pagar a prazo”, “Pagar por cartão”, “Pagar por boleto”, “Não vai pagar”.

As taxas de assertividade por categoria podem ser muito discrepantes. Para superar essa limitação é preciso construir algoritmos específicos para o problema além de efetuar transformações no dataset (O que são datasets e como utilizá-los? – https://www.aquare.la/datasets-o-que-sao-e-como-utiliza-los/) na fase de preparação dos dados.

Exemplos de análise preditiva com previsão:

Dada a oscilação histórica de indicadores da economia de um país, uma análise preditiva envolvendo previsão pode fazer uma inferência de como será a movimentação da taxa básica de juros do país ao longo dos próximos 6 meses. Ou seja, é a utilização de análise preditiva em séries temporais, como séries financeiras, econômicas, dados clima, dados de marketing digital, entre outros. É a previsão que viabiliza capturar efeitos temporais, como a sazonalidade, por exemplo.

A figura a seguir mostra um exemplo de previsão de série temporal sobre o indicador FipeZap, um índice de preços do mercado brasileiro de construção civil. O modelo utilizado neste exemplo utiliza as próprias variações do indicador para prever ele mesmo. Existe, porém, uma série de modelos bastante complexos envolvendo análises de séries temporais e demandam uma avaliação criteriosa caso a caso.

Exemplo de previsão (forecast) de série temporal

Exemplo de previsão (forecast) de série temporal

O que é análise prescritiva?

Análise prescritiva (de recomendação) é a utilização de ferramentas estatísticas (tanto de análise descritiva quanto preditiva), alinhadas à gestão de negócios, para gerar recomendações de ações a serem tomadas de forma automáticas ou semiautomáticas, com o fim de otimizar as estratégias adotadas pelas empresas e alcançar melhores resultados no menor espaço de tempo.

Enquanto a análise preditiva se limita a dizer como provavelmente será o futuro, a análise prescritiva fornece subsídios para tomar decisões que irão alterar o futuro. Em outras palavras, o que deve ser feito para que o futuro desejado se realize. Ou seja, no exemplo abaixo, quais são as recomendações de manutenção para que a troca das peças seja a melhor possível?

Exemplo de painel prescritivo de recomendações em manutenção industrial
Exemplo de painel prescritivo de recomendações em manutenção industrial

O que é análise de cenarização?

A análise de cenarização (descoberta de cenários de negócio) é uma análise multivariada que serve para descobrir as combinações sistêmicas de variáveis que levam a um determinado resultado.

A título de exemplo realizamos os seguintes testes:

Levando-se em consideração que um dos maiores problemas históricos do Brasil é a desigualdade social, medida pelo Coeficiente de Gini – que consiste em um número entre 0 e 1, sendo que 0 corresponde à completa igualdade (no caso do rendimento, por exemplo, toda a população recebe o mesmo salário) e 1 corresponde à completa desigualdade (onde uma pessoa recebe todo o rendimento e as demais nada recebem). Fonte.

Assim:

  • Quais das variáveis (fatores) têm a maior influência na variação do índice de desigualdade?
  • Quais são as características mais marcantes dos cenários de desigualdade social baixa e alta?

Utilizamos um dataset com 188 países e  64 indicadores macroeconômicos, entre os quais encontram-se  PIB, taxa de eletrificação da população, índice de desenvolvimento humano e outros. Chegamos aos seguintes resultados a partir do cenarizador Aquarela VORTX.

As variáveis com mais influência, ordenadas de forma decrescente, são:

variáveis com mais influência, ordenadas de forma decrescente
variáveis com mais influência, ordenadas de forma decrescente
Visualização multivariada dos cenários de baixa desigualdade social da Islândia.
Visualização multivariada dos cenários de baixa desigualdade social da Islândia.

No cenário Islandês temos uma baixa população carcerária em relação à população total em baixo investimento externo em relação ao PIB e uma escolaridade alta.

População carcerária média, escolaridade baixa e, muito capital privado. e alto fluxo de alunos no ensino superior.

Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos
Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos

Apesar do Brasil ser um dos países mais desiguais do mundo ele se encontra em um cenário intermediário quando consideramos os 65 indicadores. Em diversas outras análises que já realizamos o mesmo dataset é possível afirmar que a média Brasileira é muito próxima a média mundial. E que o padrão internacional de países extremamente desenvolvidos e igualitários são situações de outliers ou se agrupados, se tornam cenários pequenos.

Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.
Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.

Como gerar valor ao negócio com análise de dados?

Qualquer tipo de análise de dados somente fará sentido se for possível extrair ações e medir o impacto das ações tomadas. Para isso, nem mesmo os melhores e mais complexos modelos de machine learning são suficientes se não houver um alinhamento de negócio.

Por isso a Aquarela desenvolveu a DCIM (Data Culture Introduction Methodology), uma metodologia de desenvolvimento de projetos de Analytics, inspirada nos modelos de business CANVAS. Veja mais.

De forma resumida, para gerar valor com análises de dados (análise descritiva, preditiva, prescritiva e de cenarização) em negócios é preciso ter:

  • um objetivo definido, com meta de aumento ou redução atrelada a pelo menos um indicador, já considerando que já existem um trabalho de harmonização dos indicadores;
  • os diferentes tipos de análises suprem necessidades em níveis diferentes, como por exemplo: a cenarização serve para questões estratégicas ao passo que as análises descritivas e preditivas estão mais próximas da operação;
  • perguntas-chave: perguntas de negócio que, ao serem respondidas, vão auxiliar a atingir o objetivo;
  • levantamento de fontes de dados internas e externas que serão necessárias para o projeto de Analytics;
  • testes a serem realizados utilizando tanto análises descritivas, preditivas ou prescritivas, que serão ou não validados.

Por fim, mais importante do que os métodos de análise utilizados, ou o tipo de análise que será feita, é resolver os problemas de negócio e gerar valor!

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

O que Sun Tzu ensina sobre Data Analytics Parte II

O que Sun Tzu ensina sobre Data Analytics Parte II

No post I, ver aqui, falamos sobre o quanto é importante o planejamento e se preparar para a nossa guerra contemporânea, que tem como objetivo a informação certa no menor prazo possível.

Nosso soldado data scientist  já tem consciência de ferramentas e possíveis estratégias para a batalha da análise de dados. Porém, o fato de ter apenas os métodos comprados e instalados na empresa nem sempre geram resultados, e por que isso acontece?

Disposição de Ferramentas

“7. Prever uma vitória que o homem comum pode prever não corresponde ao auge da habilidade.”

Sun Tzu falava da Disposição das Tropas, nós falamos da Disposição de Ferramentas. Descobrir o óbvio não agrega valor à empresa e é o principal ponto de atenção das equipes de analytics. A exceção a essa regra está nos casos onde análise tem o objetivo de testar um algoritmo ou abordagem e então saber se as ferramentas (metodologia + inteligência artificial) foram capazes de encontrar o que já se sabe e ir além.

Verificamos que a experiência dos analistas é um fator determinante no sucesso dos estudos de analytics. Isso se deve, principalmente, por prever erros estruturais nos fluxos de análise e a criatividade para desenvolver testes contra os algoritmos. Ainda, compará-los em diversas dimensões e eventualmente encontrar explicações esperadas de validação e no auge da habilidade, informações não previstas que geram oportunidades reais de melhoria.

Forças normais e extraordinárias

“5. Na batalha, valha-se da força normal para o combate e utilize a extraordinária para vencer.”

Existem forças normais que podemos usar para complementar as extraordinárias, é o exemplo das ferramentas livres e open source ou mesmo estratégias coerentes de indicadores (KPIs – Key Performance Indicators) já fazem uma diferença bastante grande no desempenho com impacto direto nos níveis de maturidade de analytics.

Agora dependendo do nível da competição, do timing e tamanho do mercado, utilizar ferramentas fechadas podem fazer a diferença do extraordinário, por isso, fique atendo a soluções fechadas disponibilizadas por APIs.

O preço da dúvida

“9. Na guerra, o perito age de maneira sutil e insubstancial, não deixa pistas; divinamente misterioso, é inaudível; torna-se, ele próprio, senhor do destino de seu inimigo.”

No mundo analytics, cases detalhados são raramente divulgados. Do que dá certo ou errado, cada um guarda para si, mais ou menos como no investimento em ações. Aparentemente, uma das formas mais plausíveis de se obter conhecimento real das tentativas e erros é pela incorporação e disseminação de processos de gestão do conhecimento e contratações estratégicas.   

Conclusão: Estratégias

“4. Na guerra, tanto a vantagem quanto o perigo são inerentes às manobras.”

Há uma expectativa bastante grande com relação a qualquer iniciativa de Data Analytics dentro das organizações e isto acontece independentemente do nível de maturidade de dados em que elas se encontram. O fato é que, para chegar a modelos preditivos realmente assertivos, o caminho é tortuoso e multidisciplinar. Por tanto, projetos com poucos recursos (horas de analistas, computadores parrudos, ferramentas de análise e capacitação) tendem a ter resultados coerentes com o investimento.  

Então é isso pessoal, espero que a analogia ajudou no entendimento e que gere valor no seu negócio. Um forte abraço de toda a equipe da Aquarela Advanced Analytics.

Gostou da leitura? Tem muito mais da onde veio este post, inscreva-se em nossa Newsletter e não perca nossos conteúdos!

Fiquem ligados em nossas redes sociais:

Facebook, Twitter, Linkedin

*SUN TZU. A Arte Da Guerra – por uma estratégia perfeita. São Paulo: Madras Editora, 2003.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Data Analytics e o impeachment de 2016: Uma análise sem partido

Data Analytics e o impeachment de 2016: Uma análise sem partido

Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.

Estudo da natureza dos dados e limpeza

Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).

Imagem recortada da planilha.

Assim temos:

Partidos com mais e menos membros votantes:

  • PMDB = 66 votantes
  • PMB = 1 votante

Estados com mais e menos membros votantes:

  • São Paulo = 70 votantes
  • Tocantins = 8 votantes

Números totais de votos:

SIMNÃOAUSENTEABSTENÇÃO
36713727

Gênero dos votantes:

  • Masculino = 462
  • Feminino = 51

Aplicação de técnicas de mineração

Análise de textos

Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.

Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.

Análise por Fernando Severo

Análise de agrupamentos (clustering ou segmentação)

Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:

  • Grupo 0 Azul = 310 votos – principal força PMDB
  • Grupo 1 Verde = 57 votos – principal força PSDB
  • Grupo 2 Vermelho = 146 votos – principal força PT

Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.

Análise preditiva de votos

Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim,  76 não e predizendo erroneamente 70 votos.

Pesos das variáveis

Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:

  • O estado do carro;
  • A previsão do tempo;
  • O preço da gasolina;
  • A distância a ser viajada;
  • A quantidade de bagagem.

Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?

Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.

Conclusões e Limitações:

Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.

Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.

Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.

Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.

Blitz analytics

Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela VORTX.

Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores