A quantidade de dados gerados em um mercado altamente competitivo, fez com que as empresas se esforcem cada vez mais para oferecer produtos e serviços personalizados aos seus clientes.  Por isso, compreender o que é análise descritiva, prescritiva, preditiva e cenarização, bem como as diferenças entre estes termos, é um importante passo para os profissionais e empresas que desejam alcançar vantagens competitivas aplicando técnicas de Advanced Analytics.

Além disso, ao levarmos em conta o contexto empresarial da Indústria 4.0, para o qual estamos caminhando, gerar valor por meio de análises de dados descritivas, preditivas,  prescritivas e cenarização se torna imperativo.

O que é análise descritiva (exploratória)?

Análise descritiva ou exploratória de dados é uma forma de utilizar métricas e técnicas estatísticas simples ou avançadas para entender e explicar como os dados são, podendo ser:

  • univariada – investigação do comportamento de uma única variável (ou coluna);
  • bivariada – investigação de como duas variáveis se relacionam;
  • multivariada – investigação do comportamento de diversas variáveis, análise multi-colunar.

A análise descritiva é o processo mais básico para qualquer tipo de análise de dados, embora simples em diversas ocasiões é um processo que, quando aliado a uma metodologia consistente de Analytics pode responder importantes perguntas gerenciais de maneira quase imediata. Como por exemplo: Qual a flutuação das vendas ao longo do ano?

Análise descritiva univariada

Na análise descritiva univariada, é analisado o comportamento estatístico de apenas uma variável (ou coluna). Neste processo entram cálculos de média, mediana, moda, máximo, mínimo, desvio-padrão, variância, segregações de dados em percentis (quartis, decis, etc), entre outros.

Um dos gráficos mais comuns da análise descritiva univariada é o histograma e/ou gráfico de densidade. Veja um exemplo.

Exemplo de análise descritiva com histograma e gráfico de densidade

O histograma é um dos gráficos estatísticos mais simples, mas já é poderoso para fornecer insights nas análises. No exemplo a seguir é utilizado dados de comparecimento em agendamentos médicos na saúde pública da cidade de Vitória/ES. O histograma a seguir, por exemplo, já permite tirar conclusões como:

  • Os homens se preocupam muito menos em agendar consulta do que as mulheres;
  • Os homens vão mais ao médico quando são crianças e adolescentes, depois disso passam a ir ao médico mais próximo aos 50 anos, mas ainda com menos intensidade que quando eram crianças;
  • Mulheres também não vão muito ao médico pouco antes do 20 anos, mas depois frequentam as consultas com uma frequência muito superior aos homens.
Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)

O gráfico de densidade, por sua vez, é complementar ao histograma, mostrando a distribuição de uma única variável por vez, sem ser afetado pelo número de “bins” do histograma.

A principal diferença entre o histograma e o gráfico de densidade é que o histograma apresenta valores absolutos, enquanto o gráfico de densidade apresenta valores relativos à própria variável. Por ser um gráfico relativo, o eixo Y do gráfico de densidade possui uma interpretação que nem sempre é tão clara, mas ele viabiliza compreender onde estão as maiores e menores concentrações em cada variável.

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)

Se por um lado, o gráfico de densidade deixa mais evidentes as tendências de comportamento e descoberta de padrões, o histograma traz dados mais precisos no ponto de vista de tomada de decisão permitindo alterações no tamanho das barras conforme cada caso. Por exemplo: A partir do histograma, o gestor pode afirmar que mais de 3000 meninos com menos de 10 foram atendidos durante o período da análise, já no gráfico de densidade pode se dizer que houve uma intensidade maior de atendimentos de meninos até 10 anos durante o período em relação a todos os indivíduos do sexo masculino. Portanto, a escolha do tipo de gráfico fica a critério do analista e dos objetivos de negócio associados a decisão.

Análise descritiva bivariada

Na análise descritiva bivariada adicionam cálculos de investigação do relacionamento de  duas variáveis, como coeficientes de correlação e covariância, bem como a criação de indicadores percentuais, obtidos por meio da divisão de uma variável pela outra.

Também entram aqui as chamadas tabelas dinâmicas dos softwares de planilhas eletrônicas, como o Excel (curiosidade: na estatística estas tabelas são chamadas de tabelas de contingência).

Entre os gráficos mais comuns da análise descritiva bivariada está o diagrama de dispersão (scatter plot).

No diagrama de dispersão a seguir mostramos um exemplo do mercado de ações brasileiro, relacionando os retornos diários obtidos de ações de empresas listadas na Bolsa com o principal índice de mercado, o IBovespa (mais detalhes aqui).

Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA (Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)

Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA
(Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)

O que é análise preditiva?

Análise preditiva é a utilização de modelos estatísticos para apontar como serão os dados no futuro, ou como se comportam em condições diversas. Utiliza-se para tal modelos de machine learning e inteligência artificial, que vão desde modelos clássicos de regressão até modelos e algoritmos complexos que envolvem deep learning, métodos de redução de dimensionalidade, ensemble learning e swarm intelligence – conheça o VORTX. Atenção: Não há como fazer análises preditivas sem dados passados.

Diferença entre predição e previsão

Aqui vale um parênteses sobre a diferença entre predição e previsão. Entendemos a previsão como um subconjunto da predição. Enquanto a predição trata de dizer, de forma genérica, como um fato seria antes de sua ocorrência, a previsão parte do mesmo princípio, mas apenas aplica-se a fatos que estão vinculados ao tempo.

Exemplos de resultado de uma análise preditiva:

Por exemplo: um indivíduo de 30 anos, sexo masculino, solteiro, desempregado, possui uma probabilidade de atrasar o pagamento de uma fatura de 32%. Já uma senhora de 65 anos, viúva, aposentada, possui uma probabilidade de atrasar o pagamento de uma fatura de 4%. Ou seja, as alterações nas características alteram as probabilidades.

Segue figura de um exemplo de painel preditivo que trabalha justamente com a probabilidade de pagamento ou não de um indivíduo, dadas algumas circunstâncias.

Exemplo de painel preditivo

Exemplo de painel preditivo

A validação dos modelos preditivos são um tópico à parte, porém, em simples termos, é necessário que o modelo preditivo seja capaz de acertar pelo menos de 70% a 90% em das tentativas. Caso ele acerte menos de 50%, seria o mesmo que competir com a predição de cara ou coroa. Já se ele conseguir atingir 100% ou acima de 95%, pode ser que exista alguma variável no modelo comprometida.

Algumas limitações típicas de modelos preditivos são a dificuldade de fazer predições sobre categorias múltiplas ou invés de prever se o cliente vai pagar não. Digamos que os clientes podem: “Pagar à vista”, “Pagar a prazo”, “Pagar por cartão”, “Pagar por boleto”, “Não vai pagar”. As taxas de assertividade por categoria podem ser muito discrepantes. Para superar essa limitação é preciso construir algoritmos específicos para o problema além de efetuar transformações no dataset (O que são datasets e como utilizá-los? – https://www.aquare.la/datasets-o-que-sao-e-como-utiliza-los/) na fase de preparação dos dados.

Exemplos de análise preditiva com previsão:

Dada a oscilação histórica de indicadores da economia de um país, uma análise preditiva envolvendo previsão pode fazer uma inferência de como será a movimentação da taxa básica de juros do país ao longo dos próximos 6 meses. Ou seja, é a utilização de análise preditiva em séries temporais, como séries financeiras, econômicas, dados clima, dados de marketing digital, entre outros. É a previsão que viabiliza capturar efeitos temporais, como a sazonalidade, por exemplo.

A figura a seguir mostra um exemplo de previsão de série temporal sobre o indicador FipeZap, um índice de preços do mercado brasileiro de construção civil. O modelo utilizado neste exemplo utiliza as próprias variações do indicador para prever ele mesmo. Existe, porém, uma série de modelos bastante complexos envolvendo análises de séries temporais e demandam uma avaliação criteriosa caso a caso.

Exemplo de previsão (forecast) de série temporal

Exemplo de previsão (forecast) de série temporal

O que é análise prescritiva?

Análise prescritiva (de recomendação) é a utilização de ferramentas estatísticas (tanto de análise descritiva quanto preditiva), alinhadas à gestão de negócios, para gerar recomendações de ações a serem tomadas de forma automáticas ou semiautomáticas, com o fim de otimizar as estratégias adotadas pelas empresas e alcançar melhores resultados no menor espaço de tempo.

Enquanto a análise preditiva se limita a dizer como provavelmente será o futuro, a análise prescritiva fornece subsídios para tomar decisões que irão alterar o futuro. Em outras palavras, o que deve ser feito para que o futuro desejado se realize. Ou seja, no exemplo abaixo, quais são as recomendações de manutenção para que a troca das peças seja a melhor possível?

Exemplo de painel prescritivo de recomendações em manutenção industrial

Exemplo de painel prescritivo de recomendações em manutenção industrial

O que é análise de cenarização?

A análise de cenarização (descoberta de cenários de negócio) é uma análise multivariada que serve para descobrir as combinações sistêmicas de variáveis que levam a um determinado resultado.

A título de exemplo realizamos os seguintes testes:

Levando-se em consideração que um dos maiores problemas históricos do Brasil é a desigualdade social, medida pelo Coeficiente de Gini – que consiste em um número entre 0 e 1, sendo que 0 corresponde à completa igualdade (no caso do rendimento, por exemplo, toda a população recebe o mesmo salário) e 1 corresponde à completa desigualdade (onde uma pessoa recebe todo o rendimento e as demais nada recebem). Fonte.

Assim:

  • Quais das variáveis (fatores) têm a maior influência na variação do índice de desigualdade?
  • Quais são as características mais marcantes dos cenários de desigualdade social baixa e alta?

Utilizamos um dataset com 188 países e  64 indicadores macroeconômicos, entre os quais encontram-se  PIB, taxa de eletrificação da população, índice de desenvolvimento humano e outros. Chegamos aos seguintes resultados a partir do cenarizador Aquarela VORTX.

As variáveis com mais influência, ordenadas de forma decrescente, são:

variáveis com mais influência, ordenadas de forma decrescente

variáveis com mais influência, ordenadas de forma decrescente

Visualização multivariada dos cenários de baixa desigualdade social da Islândia.

Visualização multivariada dos cenários de baixa desigualdade social da Islândia.

No cenário Islandês temos uma baixa população carcerária em relação à população total em baixo investimento externo em relação ao PIB e uma escolaridade alta.

População carcerária média, escolaridade baixa e, muito capital privado. e alto fluxo de alunos no ensino superior.

Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos

Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos

Apesar do Brasil ser um dos países mais desiguais do mundo ele se encontra em um cenário intermediário quando consideramos os 65 indicadores. Em diversas outras análises que já realizamos o mesmo dataset é possível afirmar que a média Brasileira é muito próxima a média mundial. E que o padrão internacional de países extremamente desenvolvidos e igualitários são situações de outliers ou se agrupados, se tornam cenários pequenos.

Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.

Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.

Como gerar valor ao negócio com análise de dados?

Qualquer tipo de análise de dados somente fará sentido se for possível extrair ações e medir o impacto das ações tomadas. Para isso, nem mesmo os melhores e mais complexos modelos de machine learning são suficientes se não houver um alinhamento de negócio.

Por isso a Aquarela desenvolveu a DCIM (Data Culture Introduction Methodology), uma metodologia de desenvolvimento de projetos de Analytics, inspirada nos modelos de business CANVAS. Veja mais.

De forma resumida, para gerar valor com análises de dados (análise descritiva, preditiva, prescritiva e de cenarização) em negócios é preciso ter:

  • um objetivo definido, com meta de aumento ou redução atrelada a pelo menos um indicador, já considerando que já existem um trabalho de harmonização dos indicadores;
  • os diferentes tipos de análises suprem necessidades em níveis diferentes, como por exemplo: a cenarização serve para questões estratégicas ao passo que as análises descritivas e preditivas estão mais próximas da operação;
  • perguntas-chave: perguntas de negócio que, ao serem respondidas, vão auxiliar a atingir o objetivo;
  • levantamento de fontes de dados internas e externas que serão necessárias para o projeto de Analytics;
  • testes a serem realizados utilizando tanto análises descritivas, preditivas ou prescritivas, que serão ou não validados.

Por fim, mais importante do que os métodos de análise utilizados, ou o tipo de análise que será feita, é resolver os problemas de negócio e gerar valor!

Autores
Wlademir Ribeiro Prates
Cientista de dados na Aquarela. Doutor e mestre em Administração, especialista em econometria financeira, finanças comportamentais, métodos quantitativos e mercado de capitais.

Joni Hoppen
Fundador da Aquarela, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação, focado em processos de rápida prototipação de Big Data Analytics e cultura de dados.

Informações para referenciação: Gostou do material? Caso queira enriquecer sua pesquisa ou relatório (seja blog post ou artigo acadêmico), referencie nosso conteúdo como: Aquarela 2018 - Inteligência Artificial para negócios (www.aquare.la).