O que é ciência de dados (data science) e como aplicá-la nos negócios?

O que é ciência de dados (data science) e como aplicá-la nos negócios?

Neste artigo vamos mostrar o que é ciência de dados, uma área que tem chamado cada vez mais atenção no mundo corporativo e universitário. É crescente o número de empresas buscando por aplicações de data science para negócios, bem como o número de profissionais que estão migrando para a área de ciência de dados e ajudando a democratizar o uso e a aplicação da matemática e estatística.

Popularidade da área de ciência de dados

Em outubro de 2012 a Harvard Business Review publicou um artigo intitulado “Data Scientist: The Sexiest Job of the 21st Century”, o qual foi muito falado ao redor do mundo e ajudou a enfatizar a relevância da área de ciência de dados.

Se a área de data science ganhou espaço em boa parte por ser uma área “atraente” – que chama atenção pelos belos gráficos, análises feitas com algoritmos complexos e métodos modernos –, hoje em dia o campo de ciência de dados tem aumentado ainda mais o seu espaço pela possibilidade de gerar valor às organizações, entregando resultados de forma rápida e objetiva como solução de problemas complexos.

A seguir apresentamos um gráfico com dados extraídos do Google Trends, que mostra a evolução das buscas pelo termo “data science” no Brasil e no mundo, de outubro de 2012 até julho de 2018. O gráfico mostra a popularidade das buscas, sendo 100 o momento de maior popularidade, 50 média popularidade e 0 nenhuma popularidade.

Popularidade das buscas por data science

Popularidade das buscas por data science

O gráfico mostra que a popularidade da área de ciência de dados cresce cada vez mais, estando no seu auge. Vemos que no Brasil há um certo “delay” em relação às buscas gerais em todo o mundo. As quedas sazonais no mundo são mais marcantes em dezembro ao passo que no Brasil não há um padrão bem definido da demanda.

O que é ciência de dados?

Ciência de dados é um campo interdisciplinar de investigação de dados que resolve problemas reais de negócios, com o uso de método científico e técnicas avançadas de análise de dados, machine learning e inteligência artificial. Esta é uma área essencial para posicionar as organizações no cerne da Indústria 4.0.

Uma das características marcantes da área de ciência de dados é a conexão que ela cria entre o mundo acadêmico e o mundo de negócios. Na academia muito se aprende sobre o método científico e a estruturação de pesquisas e análises. No mundo dos negócios, por sua vez, há um forte apelo pela rápida resolução de problemas práticos nos diversos setores das organizações.

“A ciência de dados pode resolver problemas simples e complexos, não apenas complexos. Existem problemas simples que geram grandes impactos nas operações e até nas estratégias de longo prazo.” Joni Hoppen

Com aplicações de data science é possível unir estes dois mundos, resolvendo problemas simples e complexos de forma estruturada, gerando impactos nos negócios. Estes impactos vão depender do tipo de problema que está sendo resolvido, e o fluxo de dados podendo abranger desde o nível operacional da empresa até a descoberta de novas regras de negócio (insights) para mudar decisões estratégicas de longo prazo.

Em termos de “campos de conhecimento”, a área de ciência de dados é uma intersecção entre ciência da computação, engenharias, matemática e estatística com áreas de negócio, que envolve conhecimentos de economia e administração, de forma geral.

Aplicando data science para negócios

O profissional que irá executar “data science” no dia a dia é o cientista de dados, e para aplicar data science para negócios é necessário um envolvimento tanto de áreas mais técnicas, quanto de áreas mais de negocio. A separação dos profissionais técnicos dos analistas de negócio tem se mostrado um fator crítico de sucesso desta natureza de projeto.

Na parte mais técnica, os cientistas de dados se relacionam com setores como: business intelligence (BI) / inteligência de mercado; tecnologia de informação (TI); administração de banco de dados (DBA).

Já nas áreas de negócio, os cientistas de dados irão se relacionar com profissionais que possuem domínio do negócio a respeito de cada problema específico que busca-se resolver, em outras palavras, são os profissionais que entendem as regras do jogo e jogam diariamente. Por exemplo: se o cientista de dados irá resolver um problema de gestão de estoque, então profissionais da área de logística e até mesmo da contabilidade poderão ser alocados para fazer parte do projeto.  

Neste artigo elaboramos de forma resumida 14 áreas de aplicação de ciência de dados e as recomendações necessárias para começar a estruturar análises em cada área.

Etapas para desenvolver projetos de ciência de dados com sucesso nos negócios

Para aplicar projetos de ciência de dados em negócios, é fundamental cumprir algumas etapas, as quais são descritas a seguir.

Desenvolver projetos de ciência de dados envolve muito mais do que o conhecimento de linguagens de programação, como Python e R, ou de saber como aplicar algoritmos complexos de machine learning e inteligência artificial.

Para colocar em prática projetos envolvendo ciência de dados que obtenham sucesso e agreguem valor para as empresas, é preciso ter uma metodologia, para mapear o problema a ser resolvido e definir métricas de sucesso do projeto.

Conheça a DCIM, metodologia desenvolvida pela Aquarela para implementar a cultura de Data Analytics nas organizações.

De forma geral, as seguintes etapas precisam ser cumpridas:

1. Definição de problema e métrica de sucesso

O ponto inicial para aplicar ciência de dados nas organizações é identificar qual é a dor de negócio, e qual é o indicador que realça essa dor na prática. Alguns exemplos de problemas que a já auxiliamos no processo de definição do caminho para a solução são:

  • Logística: como reduzir a taxa de entregas não efetuadas? Como otimizar as rotas e as cargas enviadas?
  • Marketing digital e sistemas online: como reduzir a taxa de churn de clientes?
  • Manutenção industrial (Embraer): como melhorar a assertividade na troca de peças para resolver defeitos de equipamentos de alto custo?
  • Gestão de estoque: como reduzir o provisionamento contábil de estoques e otimizar o deslocamento do patrimônio.
  • Área comercial: Como aumentar o ticket médio das vendas com a recomendação de produtos? Como antecipar a compra de produtos que invariavelmente seriam comprados pelo cliente?
  • Saúde: Como reduzir em 50% a taxa de faltas nos agendamentos médico? (Leia mais aqui).
  • Marketing: Como inferir motivos de perda de market-share e gerar recomendações de ações por produto.
  • Cobrança: Como antecipar o contato com clientes com mais probabilidade de pagamento das dívidas?

Clique aqui e conheça mais sobre as soluções da Aquarela.

2. Definição do dataset analítico a ser utilizado

O dataset (conjunto de dados) a ser utilizado pelo cientista de dados, não é uma simples extração de uma enorme massa de dados diretamente do banco transacional pelas queries SQL. (Saiba mais sobre projetos analytics de alto nível aqui.)

O dataset analítico é construído a partir da definição do problema, e precisa conter todas as variáveis (colunas) necessárias para que o problema em questão possa ser respondido.

Este conjunto de dados normalmente é uma mescla de variadas bases de dados, tanto internas (da própria organização), quanto externas. Nas fontes de dados externas entram bases compradas de fornecedores específicos, ou até bases públicas, que têm o fim de enriquecer os dados e melhorar a assertividade dos modelos que serão aplicados.

Veja aqui em detalhes o que é e como construir um dataset analítico.

3. Transformação e higienização de dados

Umas das etapas que mais exige horas de trabalho em ciência de dados é a transformação e higienização de dados.

Este processo inclui pontos que envolvem técnicas estatísticas, como tratamento de dados faltantes e tratamento de outliers. Outros procedimentos também são realizados nesta etapa, como: “merge” ou concatenação de colunas, enriquecimento de dados com bases externas (dados de latitude e longitude, temperatura, macroeconômicos, entre outros) e diversas outras reestruturações necessárias para que os modelos de inteligência artificial consigam trazer a resposta desejada.

4. Mineração de dados e modelagem com inteligência artificial

Um dos pontos mais importantes no processo de gerar valor para as companhias na área de ciência de dados é o processo de modelagem. Nesta etapa diversos modelos (centenas ou milhares) são treinados com o uso de diversas técnicas de inteligência artificial.

O propósito de todas essas modelagens é encontrar as inter-relações entre as variáveis (colunas) com o uso de inteligência artificial, e gerar outputs como:

  • predições: probabilidade de ocorrência de um evento dado um conjunto de características (leia mais sobre análise preditiva);
  • previsões: projeções de como será o futuro de séries temporais;
  • análise de perfis: identificação de personas, categorização entre indivíduos similares dentro do conjunto de dados, o que permite encontrar também grupos de outliers, os quais possuem características muito diferentes dos demais;
  • criação de cenários: identificar grupos que impactam positiva ou negativamente em um target, uma variável a ser explicada.

Saiba mais sobre data mining (mineração de dados) em nosso artigo.

Ao final, os modelos escolhidos serão colocados em produção e monitorados pelos sistemas de acompanhamento, normalmente sistemas de BI ou mesmo planilhas de excel dependendo do nível de maturidade da organização. Veja aqui os 5 níveis de maturidade de dados da metodologia DCIM Aquarela.  

Veja também – Resultados da pesquisa sobre a qualidade dos dados empresariais no Brasil

5. Comunicação dos resultados obtidos em linguagem de negócio

A comunicação dos resultados dos projetos de ciência de dados deve ser feita em linguagem de negócios, com foco na objetividade e na agilidade, mostrando os KPI’s que foram impactados com o projeto e qual será o retorno financeiro obtido. Além disso, se recomenda apresentar a visão de futuro dos sistemas integrados, e uma lista com as oportunidades adjacentes, descobertas durante o processo (está última parte é a que consideramos mais disruptiva para os negócios).

Conclusão

Mostramos neste artigo o que é ciência de dados, uma área de grande interesse que está promovendo a democratização da matemática e estatística no mundo. Evidenciamos algumas características deste tipo de trabalho e apresentamos alguns exemplos de projetos que já realizamos em diversos setores.

Em nossa visão, a ciência de dados vai muito além das questões técnicas, pois aplicar ciência de dados na prática é saber o problema de negócio será atacado, descobrir quais dados estão disponíveis, quais indicadores existem ou precisam ser desenvolvidos. Além disso é necessário desempenhar um papel ponderador das avaliações qualitativos e quantitativos das tecnologias que serão utilizadas na resolução do problema, utilizando boa comunicação, sensibilidade técnica e de negócios. E, ao fim, ser capaz de colocar em produção as análises e partir para o monitoramento de desempenho.

Por fim, a área de ciência de dados é um dos principais motores que está moldando as organizações na era da informação, sendo capaz de gerar conhecimento em diferentes níveis do comportamento interno e até externo das organizações. Com o ganho em poder computacional, e também na capacidade de coleta e armazenamento de dados, há uma crescente demanda por profissionais fluentes nestes processos de análise, os cientistas de dados.

“Ciência de dados vai muito além dos algoritmos!”

A tendência para o futuro é que ciência de dados passe a ser cada vez mais relevante para os negócios, não apenas por ser uma área “sexy” – como tratada pelo artigo da HBR, citado anteriormente –, mas, principalmente, por gerar valor em análises que antes eram inviáveis (mesmo as mais simples) de serem realizadas.

Veja mais conteúdos relacionados em nosso blog:

Como estruturar projetos Analytics de alto nível –  Dados Transacionais versus dados Analíticos

Como estruturar projetos Analytics de alto nível – Dados Transacionais versus dados Analíticos

O interesse pela área de análise de dados é grande, e isso está levando diversos profissionais optar pela migração de carreira total ou parcial. As empresas, por sua vez,  necessitam estruturar constantemente seus projetos de analytics para enfrentar as mudanças trazidas pelas demandas de informação da Indústria 4.0Para ajudá-los neste processo, escrevemos este artigo baseado-se em diversas ocasiões em que trabalhamos na formação e treinamento de equipes de análise de dados. O objetivo aqui é apresentar as diferenças conceituais de sistemas transacionais (que geram dados transacionais) em relação aos sistemas analíticos (que geram dados analíticos).

“Tenho visto nas consultorias da Aquarela Advanced Analytics – VORTX que um dos maiores degraus que as empresas estão enfrentando na escalada dos níveis maturidade de dados é conseguir que todos os envolvidos (cientistas, analistas, diretores) saibam a diferença entre sistemas transacionais e sistemas analíticos. Há um grande problema de comunicação acontecendo nas empresas. Sem isso, os times não só trabalham em páginas diferentes, como também arrisco dizer, em livros diferentes.” (Joni Hoppen – Sócio Fundador da Aquarela)

Dados Transacionais

Quando realizamos uma transferência bancária, a transação do dinheiro da nossa conta para o estabelecimento gera um Dado Transicional ou Operacional.  Eles são caracterizados pela realização de transações com curta duração e pequeno volume de dados manipulados. O foco dos mesmos é “escrever” informações.

A transferência gera uma transação que tem um valor, uma origem, limite de tempo, etc. São sistemas que dão garantia de integridade, ordem temporal de cada uma das transações. Um dos principais requisitos dos sistemas transacionais é a performance, ou seja, é necessário que a transação ocorra no momento em que foi requerida. Também podemos imaginá-los como sistemas de controle em tempo real (sistemas on-online) ou quase real.

Abaixo apresentamos alguns exemplos destes sistemas:

  1. Sistemas bancários: cada transação, pagamento ou saque realizado gera um registro da ação que você fez de forma segura, e normalmente distribuída em diversos sistemas.
  2. Sistemas ERP: geralmente, empresas que realizam vendas de produtos e serviços mantém seus sistemas de gestão operando 24×7 a fim de receber e integrar as transações de compra, venda e estocagem dos seus produtos, até fazer a interligação dessas informações com o site de E-commerce.
  3. Na área de marketing digital podemos destacar o RD Station, ferramenta desenvolvida pela Resultados Digitais que utilizamos para gerir o marketing digital da nossa operação. Ele é uma ferramenta transacional, que também realiza funções analíticas, coletando em tempo real informações sobre acessos, conversões, e-mails e leads que interagem com nossos sites, formulários e redes sociais.

Dados Analíticos

Os dados analíticos são informações geradas a partir dos sistemas transacionais. Ou seja, é o conjunto das transações coletadas para fins de decisões administrativas pontuais ou até para definição de políticas de longo termo. Os dados analíticos são o principal insumo para o planejamento, respondendo perguntas como:

  • Quais são os produtos mais vendidos em uma determinada época?
  • Como é o comportamento dos clientes da região X em relação aos clientes da região Y?
  • Quais são os fatores que mais influenciam o aumento de vendas durante o inverno?

O trabalho sobre os dados analíticos acontece de modo off-line e engloba a análise dos dados transacionais agrupados de acordo com o tipo de pergunta feita pelos analistas de negócio. Os dados analíticos necessitam ser estruturados em datasets de análise. (O que são Datasets e como utilizá-los). A obtenção dos dados analíticos se dá de diversas formas, mas principalmente por extrações dos bancos de dados em arquivos no formato .CSV ou .XLSX.

Recomendação importante, não realize análises de dados em dados transacionais, sob pena de interrupção nos serviços on-line.

Nesse contexto de análise, incluímos o uso constante de algoritmos de Inteligência Artificial, estatística, matemática e modelos econométricos, dependendo do setor de negócio – (14 Setores para aplicação de Data Analytics) . Com estas ferramentas, conseguimos estruturar análises que possibilitem a geração de insights ou novos dados que são importantes para aumentar a eficiência do negócio.  O foco dos dados analíticos é a leitura e o estudo dos padrões acumulado nos sistemas transacionais. Uma lista dos tipos de análises foram descritos neste artigo sobre análise descritiva, prescritiva, e cenarização.

Exemplos de Sistemas Analíticos

  1. Sistemas de Business Intelligence (BI´s): são sistemas que podem ser utilizados para extrair os dados transacionais e gerar visualizações simples e intuitivas para gestão. Existem diversas opções no mercado e a sua utilização permite o acesso das empresas ao nível 3 de maturidade de analytics (DCIM).
  2. Google Analytics (GA): agrega diversas informações sobre o comportamento de vistas ao site da empresa, informando por exemplo o número de acessos, páginas visitadas, tempo de visita e diversas outros indicadores. Esta ferramenta é bastante importante para as equipe de marketing e vendas.
  3. Aquarela VORTX: esta é uma ferramenta de análise de dados que permite a inserção de datasets de diversos setores para detecção de outliers ( leia aqui o que são outliers e como tratá-los ), mensuração das forças de fatores em relação a determinados resultados, geração de ações preventivas em logística, cobrança, fraudes e manutenção de equipamentos.     

Sistemas Híbridos

O grande valor extraído dos dados analíticos ocorre quando há uma integração estruturada dos dados transacionais com os conhecimentos gerados pelas análise de dados. Este processo pode ocorrer de forma manual, descobrindo os padrões e ajustando o sistema transacional, ou de forma automática, na situação onde ele questiona a base analítica antes de apresentar uma resposta aos usuários. Alguns exemplos disso são:

  • Agendamentos médicos: no caso de um hospital, o sistema transacional de agendamento de consultas médicas recebe o pedido de um novo agendamento de consulta em tempo real e é capaz de questionar a base analítica em tempo real para inferir a probabilidade do paciente de faltar neste agendamento. Se, por exemplo, há uma alta probabilidade de falta na consulta (informado pelas ferramentas de Inteligência Artificial), a administração poderia aplicar uma regra para que ele(a) seja obrigado a fazer duas confirmações ou mesmo escolher a data com menor chances de falta antes da consulta ser agendada – mais informações neste link.
  • Netflix: Este é um exemplo clássico de um modelo de negócio disruptivo que une os dados transacionais da entrega de vídeos com alta qualidade em tempo real, associado a um conjunto de regras e heurísticas computacionais geradas pela Inteligência Artificial que garantem recomendações de alto nível de filmes de acordo com os perfis de usuários da ferramenta. Não ache estranho que todos os tipos de filmes que você mais gosta são os que estão na primeira página da sua televisão.

Na tabela abaixo, elencamos alguns exemplos práticos e como o tipo de informação (dado) é classificado:

Tipo de operação Tipo de dado (informação)
Transacional Analítico Híbrido
Transferência bancária X
Compra no site da loja X
Registros de compra do mês anterior salvos em planilha excel X
Sistema de agendamento de consultas médicas X
Dataset contendo todas as consultas médicas realizadas X
Modelo preditivo de faltas em agendamentos X
Sistema de agendamento de consultas médicas inteligente X
Modelo preditivo de recomendação de filmes X
Recomendação de filmes em tempo real aos usuários Netflix X

Projetos Analytics – Conclusão

Como vimos, é de grande importância que as pessoas envolvidas nas iniciativas de análise de dados estejam a par das diferenças conceituais envolvidas, e na própria infra-estrutura de informação montada para tal. O não entendimento desses conceitos pode provocar dificuldades de alinhamento, expectativas e frustrações entre os times que operam dados transacionais e/ou analíticos.

Ao final vemos que o grande objetivo, ou o caminho que todos buscam em analytics, é chegar a sistemas híbridos cada vez mais autônomos para atender seus clientes, como o extraordinário caso da Netflix, que indiscutivelmente se enquadra no nível 5 de maturidade de dados da metodologia DCIM. Para que as empresas e os profissionais tenham uma visão dos níveis de maturidade das empresas brasileiras em termos de analytics, sugerimos conferir esta pesquisa que realizamos:

Pesquisa sobre a qualidade dos dados empresariais no Brasil.

O futuro da área de analytics é a automação de comportamentos inteligentes, apoiados por Inteligência Artificial em todos os setores onde há informação, gerando um nível de otimização e personalização dos serviços em grande escala, sem paralelos na história.

Assista aqui um Webinar sobre os impactos da Inteligência Artificial nos negócios.

 

A cultura de dados nas empresas brasileiras: resultados e descobertas

A cultura de dados nas empresas brasileiras: resultados e descobertas

O mercado de análise de dados no Brasil já ultrapassou a marca de 1 bilhão de dólares ao fim de 2017 e continua crescendo a um ritmo de quase 20% ao ano, segundo os levantamentos da Frost & Sullivan. No caminho desse crescimento notamos em nossos programas de capacitação e consultorias que uma das maiores dificuldades das empresas é a falta de dados estruturados e limpos para análise, e a inexistência de uma cultura interna disseminada para o trabalho com dados, que inclui o uso cotidiano de métodos estatísticos ou mesmo simples visualizações para solução de problemas pontuais.

Extrair insights gerenciais e gerar vantagens competitivas a partir da análise de dados é, atualmente, uma questão de necessidade para empresas que desejam se posicionar no cerne da Indústria 4.0. Por isso, a alguns meses atrás, desenvolvemos uma pesquisa com diversas empresas brasileiras, de pequenos empreendimentos à grandes corporações, com o intuito de descobrir qual a qualidade dos dados dentro destas organizações.

Nesta pesquisa, levantamos as principais questões que mostrariam a visão macro do mercado nacional;

  • Qual o porte das empresas respondentes?
  • Qual o nível de maturidade em relação a cultura de dados?
  • Quais as principais barreiras para evoluir em relação a cultura de dados?
  • Qual o nivel de priorização das atividades de integração de dados?
  • Quais ferramentas de BI (Business Intelligence) mais utilizadas?
  • Quais as características e barreiras das soluções TOP 3

Após a coleta das respostas e análise das informações, criamos um relatório completo que faz um raio-X do mercado nacional sob a ótica da qualidade da cultura de dados nas empresas brasileiras.

CTA

Webinar: Impactos da Inteligência Artificial nos negócios

Webinar: Impactos da Inteligência Artificial nos negócios

Agentes de negócios de diversas áreas estão correndo para buscar soluções eficientes para melhorar e otimizar produtos e processos. Tecnologias utilizando Inteligência Artificial e Data Analytics – veja aqui o que é Data Analytics – estão entre as soluções mais buscadas, fazendo com que as empresas comecem planejar e reservar orçamento para isso.

Leia aqui sobre Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios.

Webinar: Painel Virtual Inteligência Artificial

No dia 13 de junho nosso CTO Joni Hoppen participou como especialista convidado, junto com Alexandre Del Rey (CogSign e Engrama), e André Saito (SGBC), de um painel virtual sobre Inteligência Artificial organizado pelo SBGC – Sociedade Brasileira de Gestão do Conhecimento.

Dentre os tópicos abordados, elencamos os principais pontos levantados durante o bate-papo:

  • O que já está acontecendo de interessante na área de I.A e analytics;
  • Quais são os principais Impactos da I.A na sociedade e na indústria;
  • Aplicações da I.A nas empresas;
  • Qual é o estado da arte na área de análise de dados?;
  • Características dos níveis de maturidade de dados;

Escrevemos aqui sobre a maturidade de dados empresariais no Brasil.

  • Discutir e informar sobre a Transformação Digital;
  • Exemplos de riscos do viés em dados;
  • Dicas para realização do mestrado na área de dados;
  • O papel ético do trabalho com dados.

Você pode conferir a conversa na íntegra no video abaixo:

Conclusões e recomendações

Entendemos que o assunto é bastante novo e cheio de desafios a serem superados, por isso elaboramos um E-book com os principais fundamentos para a implementação de uma cultura de dados dentro das empresas, baixe agora e descubra como alinhar seu negócio as melhores praticas da transformação digital baseada em dados.

No começo da conversa citamos alguns exemplos de casos que já utilizam I.A e Analytics, abaixo seguem links com mais alguns:

Para finalizar fica o nosso agradecimento à SBGC e ao André pelo convite para participar da conversa, ao Alexandre pela troca de conhecimento e experiência, e a todos vocês que nos assistiram.

 

Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios

Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios

A quantidade de dados gerados em um mercado altamente competitivo, fez com que as empresas se esforcem cada vez mais para oferecer produtos e serviços personalizados aos seus clientes.  Por isso, compreender o que é análise descritiva, prescritiva, preditiva e cenarização, bem como as diferenças entre estes termos, é um importante passo para os profissionais e empresas que desejam alcançar vantagens competitivas aplicando técnicas de Advanced Analytics.

Além disso, ao levarmos em conta o contexto empresarial da Indústria 4.0, para o qual estamos caminhando, gerar valor por meio de análises de dados descritivas, preditivas,  prescritivas e cenarização se torna imperativo.

O que é análise descritiva (exploratória)?

Análise descritiva ou exploratória de dados é uma forma de utilizar métricas e técnicas estatísticas simples ou avançadas para entender e explicar como os dados são, podendo ser:

  • univariada – investigação do comportamento de uma única variável (ou coluna);
  • bivariada – investigação de como duas variáveis se relacionam;
  • multivariada – investigação do comportamento de diversas variáveis, análise multi-colunar.

A análise descritiva é o processo mais básico para qualquer tipo de análise de dados, embora simples em diversas ocasiões é um processo que, quando aliado a uma metodologia consistente de Analytics pode responder importantes perguntas gerenciais de maneira quase imediata. Como por exemplo: Qual a flutuação das vendas ao longo do ano?

Análise descritiva univariada

Na análise descritiva univariada, é analisado o comportamento estatístico de apenas uma variável (ou coluna). Neste processo entram cálculos de média, mediana, moda, máximo, mínimo, desvio-padrão, variância, segregações de dados em percentis (quartis, decis, etc), entre outros.

Um dos gráficos mais comuns da análise descritiva univariada é o histograma e/ou gráfico de densidade. Veja um exemplo.

Exemplo de análise descritiva com histograma e gráfico de densidade

O histograma é um dos gráficos estatísticos mais simples, mas já é poderoso para fornecer insights nas análises. No exemplo a seguir é utilizado dados de comparecimento em agendamentos médicos na saúde pública da cidade de Vitória/ES. O histograma a seguir, por exemplo, já permite tirar conclusões como:

  • Os homens se preocupam muito menos em agendar consulta do que as mulheres;
  • Os homens vão mais ao médico quando são crianças e adolescentes, depois disso passam a ir ao médico mais próximo aos 50 anos, mas ainda com menos intensidade que quando eram crianças;
  • Mulheres também não vão muito ao médico pouco antes do 20 anos, mas depois frequentam as consultas com uma frequência muito superior aos homens.
Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)

O gráfico de densidade, por sua vez, é complementar ao histograma, mostrando a distribuição de uma única variável por vez, sem ser afetado pelo número de “bins” do histograma.

A principal diferença entre o histograma e o gráfico de densidade é que o histograma apresenta valores absolutos, enquanto o gráfico de densidade apresenta valores relativos à própria variável. Por ser um gráfico relativo, o eixo Y do gráfico de densidade possui uma interpretação que nem sempre é tão clara, mas ele viabiliza compreender onde estão as maiores e menores concentrações em cada variável.

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)

Se por um lado, o gráfico de densidade deixa mais evidentes as tendências de comportamento e descoberta de padrões, o histograma traz dados mais precisos no ponto de vista de tomada de decisão permitindo alterações no tamanho das barras conforme cada caso. Por exemplo: A partir do histograma, o gestor pode afirmar que mais de 3000 meninos com menos de 10 foram atendidos durante o período da análise, já no gráfico de densidade pode se dizer que houve uma intensidade maior de atendimentos de meninos até 10 anos durante o período em relação a todos os indivíduos do sexo masculino. Portanto, a escolha do tipo de gráfico fica a critério do analista e dos objetivos de negócio associados a decisão.

Análise descritiva bivariada

Na análise descritiva bivariada adicionam cálculos de investigação do relacionamento de  duas variáveis, como coeficientes de correlação e covariância, bem como a criação de indicadores percentuais, obtidos por meio da divisão de uma variável pela outra.

Também entram aqui as chamadas tabelas dinâmicas dos softwares de planilhas eletrônicas, como o Excel (curiosidade: na estatística estas tabelas são chamadas de tabelas de contingência).

Entre os gráficos mais comuns da análise descritiva bivariada está o diagrama de dispersão (scatter plot).

No diagrama de dispersão a seguir mostramos um exemplo do mercado de ações brasileiro, relacionando os retornos diários obtidos de ações de empresas listadas na Bolsa com o principal índice de mercado, o IBovespa (mais detalhes aqui).

Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA (Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)

Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA
(Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)

O que é análise preditiva?

Análise preditiva é a utilização de modelos estatísticos para apontar como serão os dados no futuro, ou como se comportam em condições diversas. Utiliza-se para tal modelos de machine learning e inteligência artificial, que vão desde modelos clássicos de regressão até modelos e algoritmos complexos que envolvem deep learning, métodos de redução de dimensionalidade, ensemble learning e swarm intelligence – conheça o VORTX. Atenção: Não há como fazer análises preditivas sem dados passados.

Diferença entre predição e previsão

Aqui vale um parênteses sobre a diferença entre predição e previsão. Entendemos a previsão como um subconjunto da predição. Enquanto a predição trata de dizer, de forma genérica, como um fato seria antes de sua ocorrência, a previsão parte do mesmo princípio, mas apenas aplica-se a fatos que estão vinculados ao tempo.

Exemplos de resultado de uma análise preditiva:

Por exemplo: um indivíduo de 30 anos, sexo masculino, solteiro, desempregado, possui uma probabilidade de atrasar o pagamento de uma fatura de 32%. Já uma senhora de 65 anos, viúva, aposentada, possui uma probabilidade de atrasar o pagamento de uma fatura de 4%. Ou seja, as alterações nas características alteram as probabilidades.

Segue figura de um exemplo de painel preditivo que trabalha justamente com a probabilidade de pagamento ou não de um indivíduo, dadas algumas circunstâncias.

Exemplo de painel preditivo

Exemplo de painel preditivo

A validação dos modelos preditivos são um tópico à parte, porém, em simples termos, é necessário que o modelo preditivo seja capaz de acertar pelo menos de 70% a 90% em das tentativas. Caso ele acerte menos de 50%, seria o mesmo que competir com a predição de cara ou coroa. Já se ele conseguir atingir 100% ou acima de 95%, pode ser que exista alguma variável no modelo comprometida.

Algumas limitações típicas de modelos preditivos são a dificuldade de fazer predições sobre categorias múltiplas ou invés de prever se o cliente vai pagar não. Digamos que os clientes podem: “Pagar à vista”, “Pagar a prazo”, “Pagar por cartão”, “Pagar por boleto”, “Não vai pagar”. As taxas de assertividade por categoria podem ser muito discrepantes. Para superar essa limitação é preciso construir algoritmos específicos para o problema além de efetuar transformações no dataset (O que são datasets e como utilizá-los? – https://www.aquare.la/datasets-o-que-sao-e-como-utiliza-los/) na fase de preparação dos dados.

Exemplos de análise preditiva com previsão:

Dada a oscilação histórica de indicadores da economia de um país, uma análise preditiva envolvendo previsão pode fazer uma inferência de como será a movimentação da taxa básica de juros do país ao longo dos próximos 6 meses. Ou seja, é a utilização de análise preditiva em séries temporais, como séries financeiras, econômicas, dados clima, dados de marketing digital, entre outros. É a previsão que viabiliza capturar efeitos temporais, como a sazonalidade, por exemplo.

A figura a seguir mostra um exemplo de previsão de série temporal sobre o indicador FipeZap, um índice de preços do mercado brasileiro de construção civil. O modelo utilizado neste exemplo utiliza as próprias variações do indicador para prever ele mesmo. Existe, porém, uma série de modelos bastante complexos envolvendo análises de séries temporais e demandam uma avaliação criteriosa caso a caso.

Exemplo de previsão (forecast) de série temporal

Exemplo de previsão (forecast) de série temporal

O que é análise prescritiva?

Análise prescritiva (de recomendação) é a utilização de ferramentas estatísticas (tanto de análise descritiva quanto preditiva), alinhadas à gestão de negócios, para gerar recomendações de ações a serem tomadas de forma automáticas ou semiautomáticas, com o fim de otimizar as estratégias adotadas pelas empresas e alcançar melhores resultados no menor espaço de tempo.

Enquanto a análise preditiva se limita a dizer como provavelmente será o futuro, a análise prescritiva fornece subsídios para tomar decisões que irão alterar o futuro. Em outras palavras, o que deve ser feito para que o futuro desejado se realize. Ou seja, no exemplo abaixo, quais são as recomendações de manutenção para que a troca das peças seja a melhor possível?

Exemplo de painel prescritivo de recomendações em manutenção industrial

Exemplo de painel prescritivo de recomendações em manutenção industrial

O que é análise de cenarização?

A análise de cenarização (descoberta de cenários de negócio) é uma análise multivariada que serve para descobrir as combinações sistêmicas de variáveis que levam a um determinado resultado.

A título de exemplo realizamos os seguintes testes:

Levando-se em consideração que um dos maiores problemas históricos do Brasil é a desigualdade social, medida pelo Coeficiente de Gini – que consiste em um número entre 0 e 1, sendo que 0 corresponde à completa igualdade (no caso do rendimento, por exemplo, toda a população recebe o mesmo salário) e 1 corresponde à completa desigualdade (onde uma pessoa recebe todo o rendimento e as demais nada recebem). Fonte.

Assim:

  • Quais das variáveis (fatores) têm a maior influência na variação do índice de desigualdade?
  • Quais são as características mais marcantes dos cenários de desigualdade social baixa e alta?

Utilizamos um dataset com 188 países e  64 indicadores macroeconômicos, entre os quais encontram-se  PIB, taxa de eletrificação da população, índice de desenvolvimento humano e outros. Chegamos aos seguintes resultados a partir do cenarizador Aquarela VORTX.

As variáveis com mais influência, ordenadas de forma decrescente, são:

variáveis com mais influência, ordenadas de forma decrescente

variáveis com mais influência, ordenadas de forma decrescente

Visualização multivariada dos cenários de baixa desigualdade social da Islândia.

Visualização multivariada dos cenários de baixa desigualdade social da Islândia.

No cenário Islandês temos uma baixa população carcerária em relação à população total em baixo investimento externo em relação ao PIB e uma escolaridade alta.

População carcerária média, escolaridade baixa e, muito capital privado. e alto fluxo de alunos no ensino superior.

Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos

Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos

Apesar do Brasil ser um dos países mais desiguais do mundo ele se encontra em um cenário intermediário quando consideramos os 65 indicadores. Em diversas outras análises que já realizamos o mesmo dataset é possível afirmar que a média Brasileira é muito próxima a média mundial. E que o padrão internacional de países extremamente desenvolvidos e igualitários são situações de outliers ou se agrupados, se tornam cenários pequenos.

Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.

Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.

Como gerar valor ao negócio com análise de dados?

Qualquer tipo de análise de dados somente fará sentido se for possível extrair ações e medir o impacto das ações tomadas. Para isso, nem mesmo os melhores e mais complexos modelos de machine learning são suficientes se não houver um alinhamento de negócio.

Por isso a Aquarela desenvolveu a DCIM (Data Culture Introduction Methodology), uma metodologia de desenvolvimento de projetos de Analytics, inspirada nos modelos de business CANVAS. Veja mais.

De forma resumida, para gerar valor com análises de dados (análise descritiva, preditiva, prescritiva e de cenarização) em negócios é preciso ter:

  • um objetivo definido, com meta de aumento ou redução atrelada a pelo menos um indicador, já considerando que já existem um trabalho de harmonização dos indicadores;
  • os diferentes tipos de análises suprem necessidades em níveis diferentes, como por exemplo: a cenarização serve para questões estratégicas ao passo que as análises descritivas e preditivas estão mais próximas da operação;
  • perguntas-chave: perguntas de negócio que, ao serem respondidas, vão auxiliar a atingir o objetivo;
  • levantamento de fontes de dados internas e externas que serão necessárias para o projeto de Analytics;
  • testes a serem realizados utilizando tanto análises descritivas, preditivas ou prescritivas, que serão ou não validados.

Por fim, mais importante do que os métodos de análise utilizados, ou o tipo de análise que será feita, é resolver os problemas de negócio e gerar valor!