Outliers, o que são e como tratá-los em uma análise de dados?

Outliers, o que são e como tratá-los em uma análise de dados?

Os outliers são dados que se diferenciam drasticamente de todos os outros, são pontos fora da curva. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.

Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:

  1. os outliers podem viesar negativamente todo o resultado de uma análise;
  2. o comportamento dos outliers pode ser justamente o que está sendo procurado.

Os outliers possuem diversos outros nomes, como: dados discrepantes, pontos fora da curva, observações fora do comum, anomalias, valores atípicos, entre outros.

A seguir elencamos algumas situações comuns em que os outliers surgem na análise de dados e apontamos sugestões de como lidar com eles em cada caso.

Como identificar quais são os dados outliers?

Encontrar os outliers utilizando tabelas

A forma mais simples de encontrar dados outliers é olhar diretamente para a tabela ou planilha de dados – o dataset, como chamam os cientistas de dados.

O caso da tabela a seguir exemplifica claramente um erro de digitação, ou seja, de input dos dados. O campo da idade do indivíduo Antônio Silveira certamente não representa a idade de 470 anos. Olhando para a tabela é possível identificar o outlier, mas fica difícil afirmar qual seria a idade correta. Existem várias possibilidades que podem se referir a idade certa, como: 47, 70 ou ainda 40 anos.

Em uma pequena amostra a tarefa de encontrar outliers com o uso de tabelas pode ser fácil. Porém, quando a quantidade de observações passa para a casa dos milhares ou milhões fica impossível de encontrar quais são os dados que destoam do geral. Essa tarefa fica ainda mais difícil quando muitas variáveis (as colunas da planilha) são envolvidas. Para isso existem outros métodos.

Encontrar os outliers utilizando gráficos

Uma das melhores formas de identificar dados outliers é utilizando gráficos. Ao plotar um gráfico o analista consegue claramente perceber que existe algo diferente. Veja a seguir alguns cases que exemplificam a visualização de outliers com gráficos.

Case: outliers no sistema de saúde brasileiro

Em um estudo já publicado em nosso blog analisamos os fatores que levam as pessoas a não comparecem em consultas agendadas no sistema público de saúde da cidade de Vitória/ES.

No dataset, diversos padrões foram encontrados, como por exemplo: crianças praticamente não faltam às consultas; e mulheres comparecem muito mais às consultas do que os homens.

Porém, um caso curioso foi o de uma senhora “outlier”, que com 79 anos agendou uma consulta com 365 dias de antecedência e de fato compareceu à consulta. Este é um caso, por exemplo, de um dado outlier que merece ser estudado, pois o comportamento dessa senhora pode trazer informações relevantes de medidas que podem ser adotadas para aumentar a taxa de assiduidade nos agendamentos. Veja o caso no gráfico a seguir.

Case: outliers no mercado financeiro brasileiro

No dia 17 de maio de 2017 as ações da Petrobrás caíram 15,8% e o índice da bolsa (IBOVESPA) teve uma queda de 8,8% em um único dia. A maioria das ações da bolsa brasileira viram seu preço despencar neste dia. Essa forte variação negativa teve como principal motivação a delação de Joesley Batista, um dos eventos políticos mais impactantes que aconteceram no primeiro semestre de 2017.

Esse caso representa um outlier para o analista que, por exemplo, deseja saber qual foi a média de retornos diários das ações da Petrobrás nos últimos 180 dias. Certamente o dia da delação de Joesley afetou fortemente a média para baixo.

Ao analisar o gráfico a seguir, mesmo diante de diversas observações, fica fácil identificar o ponto que destoa dos demais.

O dado do exemplo acima pode ser chamado de outlier, mas se levado ao pé da letra, não pode necessariamente ser considerado um “ponto fora da curva”. A “curva” no gráfico acima, apesar de contra-intuitivo, é representada pela linha reta que corta os pontos. Ainda pelo gráfico acima é possível perceber que apesar de diferente dos demais, o dado não está exatamente fora da curva. Um modelo preditivo poderia facilmente inferir, com alta precisão, que uma queda de cerca de 9% no índice da Bolsa representaria uma queda de cerca de 15% no preço das ações da Petrobrás.

Em outro caso, ainda com dados do mercado financeiro de ações brasileiro, a ação da empresa Magazine Luiza teve valorização de 30,8% em um dia em que o índice da Bolsa subiu apenas 0,7%. Esse dado, além de ser um ponto atípico, distante dos demais, representa também um ponto fora da curva. Veja o gráfico:

Este é um caso de outlier que pode prejudicar não apenas cálculos de estatística descritiva, como média e mediana, por exemplo, mas afeta também a calibração de modelos preditivos.

Encontrar os outliers utilizando métodos estatísticos

Uma maneira mais complexa, porém bastante precisa, de encontrar outliers em uma análise de dados é encontrar a distribuição estatística que mais se aproxima à distribuição dos dados e utilizar métodos estatísticos para detectar os pontos discrepantes.

O exemplo a seguir representa o histograma da conhecida métrica dos motoristas “quilômetros por litro”. O dataset utilizado para este exemplo é um conjunto de dados público bastante explorado em testes estatísticos pelos cientistas de dados. O dataset é composto por dados extraídos da “Motor Trend US magazine” de 1974 e compreende diversos aspectos acerca da performance de 32 modelos de automóveis da época. Mais detalhes neste link.

O histograma é uma das principais e mais simples ferramentas gráficas para o analista de dados utilizar na compreensão do comportamento dos dados que está analisando.

No histograma abaixo a linha azul representa como seria a distribuição normal (gaussiana) baseada na média, desvio-padrão e tamanho da amostra, e está contraposta com o histograma em barras. As linhas verticais vermelhas representam as unidades de desvio-padrão. Percebe-se que os carros com performance “outlier” para a época conseguiam fazer uma média maior que 14 quilômetros por litro, o que corresponde à mais de 2 desvios padrões em relação à média.

Pela distribuição normal, os dados que estão a menos de duas vezes do desvio-padrão correspondem a 95% de todos os dados; os outliers representam, nesta análise, 5%.

Conclusões: o que fazer com os outliers?

Vimos ao longo deste artigo que é imprescindível dar atenção aos outliers, pois eles podem viesar toda a análise de dados. Porém, além de identificar, o que é preciso fazer para tratar os pontos fora da curva?

Existem diversas saídas, algumas delas são:

  • excluir as observações discrepantes da amostra de dados: quando o dado discrepante é fruto de um erro de input dos dados, então ele precisa ser removido da amostra;
  • realizar uma análise separada apenas com os outliers: esta abordagem é útil quando se quer investigar casos extremos, como alunos que só tiram notas boas, empresas que apresentam lucro mesmo em tempos de crise, casos de fraudes, entre outros.
  • utilizar métodos de clusterização para encontrar uma aproximação que corrige e dá um novo valor aos dados outliers: em casos de erros no input dos dados, ao invés de excluir e perder uma linha inteira de registros devido a uma única observação outlier, uma solução é utilizar algoritmos de clusterização que encontram o comportamento das observações mais próximas ao dado outlier e fazem inferência de qual seria o melhor valor aproximado.

Por fim, a principal conclusão sobre os outliers pode ser resumida da seguinte forma: um dado outlier pode ser o que mais atrapalha sua análise, mas também pode ser exatamente aquilo que você está procurando.

Semanalmente postamos conteúdos relacionados a análise de dados, indústria 4.0, Big data e Advanced Analytics, cadastre-se em nossa newsletter e fique por dentro.

4 métricas fundamentais para qualidade de dados em analytics.

4 métricas fundamentais para qualidade de dados em analytics.

Qualidade de dados tem sido um dos temas mais abordados nos projetos de estruturação em data analytics, sendo um dos principais indicadores do nível de maturidade das organizações. Nossa percepção ao longo dos últimos 10 anos atuando em diferentes setores, é que a Qualidade de Dados é sem dúvida um dos principais fatores ligados ao sucesso ou fracasso dos projetos. 

Embora a baixa qualidade dos dados afete negativamente o Analytics,  destacamos que o contrário – possuir dados de alta qualidade – não é garantia de impactos positivos, pois sucesso de um projeto ainda depende de uma estratégia de negócio adequada, alinhada a uma metodologia de trabalho. Neste artigo, sugerimos algumas métricas para avaliar seus próprios dados e priorizar suas análises.

Mas antes de começarmos, vale deixar um tópico claro:

O que é o índice de qualidade de dados.

O Índice de Qualidade de Dados (IQD) é a composição de diversas métricas (indicadores), que como o nome sugere, busca mensurar a qualidade dos dados analisados. O IQD deve ser empregado na priorização de decisões sobre a utilização de determinados conjuntos de dados (datasets) em projetos de análises de dados. 

Quando bem ajustado pode informar, de forma assertiva, quais dados são mais ou menos adequados para análise e uso de inteligência artificial.

Completude 

A completude é definida como o percentual de registros ou campos preenchidos. 

Ex. Se 100 pessoas recebem um formulário e apenas 40 respondem completamente (completude de registro). Temos 40% de preenchimento. 

Se destes 40 respondentes, 20 não preencheram alguma resposta temos 50% de completude do preenchimento do respectivo campo.

Case Aquarela: Já fizemos uso da Inteligência Artificial para ajudar o Governo do Estado de São Paulo (e seus 645 municípios) a melhorar a completude dos registros de óbito e nascimento nos sistemas DataSus Sim/SINASC.

No mapa abaixo, estão pontuados 397 municípios com mais de 30 nascimentos ocorridos durante um ano, junto ao Índice de Completude dividido em faixas:

  • Verde – alto completude
  • Amarelo – Média completude
  • Vermelho – Baixa completude

O  IQD em conjunto com outros indicadores possibilitou a criação de um Sistema de Recomendação capaz de apontar quais Municípios, Profissionais de Saúde e partes do formulário tinham mais ou menos lacunas, o que resultou em novas e adequadas estratégias de treinamento, redução de custos e claro, aumento da performance do setor público.

Acurácia / Veracidade – Erro de observação

A acurácia e a veracidade avaliam o quão próximo ou distante está a informação da realidade. Ex. A temperatura de todos os pacientes está em 39 graus, será que todos podem estar com febre ao mesmo tempo? Será que é verdade?

Existem diversas formas de verificação, tais como; mudanças na técnica de amostragem (O que é amostragem), substituição dos sensores térmicos, validação da metodologia de captura, transferência de escalas e até uma boa revisão do dicionário de dados, para verificar se as unidades de medidas estão de acordo. 

Já tivemos um caso onde a mensuração estava informada como metros cúbicos, porém na evolução das análises esse indicador apresentou resultados muito incoerentes. Com mais algumas horas de investigação e diversas interações com os especialistas, descobrimos que aqueles números, na verdade, estavam falando de caixas e não metros cúbicos. Um bom analista deve ser desconfiado sempre. 

Consistência

A consistência de um conjunto de dados está associada com vários aspectos, tais como: 

  • Frequência dos preenchimentos;
  • Integração dos dados entre vários bancos de dados;
  • Mudanças nas fórmulas de cálculo ao longo de uma série;
  • Duplicidades ou falta de registros;
  • Presença de outliers (o que são outliers e como tratá los?).

O trabalho de verificação pode ser inicialmente manual, com uso intensivo de visualizações de dados e técnicas estatísticas como verificação de máximas, mínimas, médias, distribuições e assim por diante. 

Para a consistência de dados, menos é mais, por isso sugerimos uma boa discussão entre as equipes de TI e negócios sobre a arquitetura dos bancos de dados durante conformação de datasets analíticos

Em um projeto de pricing para educação, economizamos milhares de horas despendidas com as incoerências entre códigos antigos, novos e não informados. Pequenos ajustes que impactam grandes mudanças trazendo melhores resultados. 

Validade

A validade está ligada ao formato dos dados esperados com os dados informados, mais ou menos um cara crachá que busca garantir que os dados estejam válidos em relação aos modelos adotados. Segue alguns exemplos de dados inválidos frequentes: 

  • Ponto e Vírgula nas casas decimais no padrão Brasileiro (1.345,20) e no padrão americano (1,345.00). 
  • Datas em diferentes formatos “12/janeiro/2020”, “12-01-2020”.
  • Codificação da tabela de acentos (encoding padrão UTF8, Latin-1 e outros tantos) incompatibilidades geram acentos estranhos  (este tópico merece um artigo específico) 

Já realizamos a organização de validade em bilhões de registros se contarmos todos os projetos que já atuamos, como principal recomendação, sempre busque garantir a validade dos dados na origem, se ele for capturado inválido é muito mais trabalhoso.

Conclusões

Neste artigo apresentamos 4 indicadores/métricas de qualidade de dados com exemplos práticos de cases já vivenciados. O conjunto das métricas pode ser utilizado para criar um índice de qualidade de dados, por setor ou departamento da empresa, sendo muito útil na evolução da maturidade de analytics nestes ambientes. 

Vale notar que algoritmos de inteligência artificial não se restringem somente a análises preditivas e prescritivas. Eles podem auxiliar na melhoria dos indicadores, detecção outliers e automação de processos de higienização de dados brutos, por exemplo.  

Vemos que sistemas e práticas de manutenção de métricas são ainda pouco cultivadas, mas devem ganhar força e forma com o movimento e intensificação da digitalização da economia e crescimento da área de data analytics nas empresas. Isso certamente poderá auxiliar na garantia da qualidade da informação dos processos de negócio existentes.  

Trabalhamos com grandes corporações e sempre buscamos utilizar técnicas de tecnologias de analytics de forma prudente, seguindo os conceitos aqui abordados. Estamos a disposição para dúvidas ou sugestões sobre o tema.

 

Como implementar precificação dinâmica com sucesso.

Como implementar precificação dinâmica com sucesso.

Já não é mais novidade que sistemas de precificação dinâmica – e inteligente – têm roubado a cena em muitos segmentos do mercado e da indústria, começando pelo e-commerce (que já nasceu digital). Podemos afirmar com elevado grau de confiança, assim como é discutido pela Forbes, que no futuro, as estratégias de precificação vão incorporar cada vez mais o poder computacional de automação e inteligência, possibilitando assim a flutuação adequada de preços de acordo com as condições de mercado.

O conceito por trás de todo sistema de smart-pricing é um dos mais elementares dentro das ciências econômicas: 

“quando oferta e demanda estão em equilíbrio é quando se obtém a maior eficiência”. 

Ou seja, falar em tornar o preço dinâmico de acordo com as condições de mercado é falar em buscar a equivalência entre oferta e demanda e, por consequência, gerar a eficiência que se traduz em maximização de lucros. 

Segundo Louis da Forbes, em tempos difíceis, como na pandemia do COVID-19, ser eficiente significa sobreviver e minimizar os impactos negativos sobre os negócios, e é por isso que a precificação dinâmica ganha ainda mais importância.

Na Aquarela, desenvolvemos uma metodologia ágil de projetos de analyticsa DCIM -, que garante eficiência e rapidez aos nossos clientes, inclusive em projetos de precificação dinâmica. 

Nas seções a seguir, mostraremos como conseguimos ter implementações bem-sucedidas de precificação dinâmica.

Desenhando uma estratégia de precificação

Sem dúvida alguma, a base para o sucesso de um projeto de precificação dinâmica é o completo e correto mapeamento dos processos da estratégia de precificação adotada pela empresa, começando na produção, passando pela distribuição e terminando na venda final, considerando também as características de cada produto ou serviço a ser precificado. Cada etapa da cadeia produtiva terá seu peso sobre o preço final.

Com a total compreensão desses processos, é aberta a possibilidade de automatizá-los. O preço pode variar conforme a hora, dia da semana ou qualquer outra unidade de tempo. Ou então, de acordo com a região de comercialização, com a quantidade de estoque ou com as condições de concorrência e mercado. 

Todos os fatores de custo e oportunidade podem ser considerados em um sistema automatizado de precificação dinâmica, singularmente ou em conjunto, desde que os processos estejam bem definidos e mapeados, de modo que tornem evidentes as regras de negócio.

E se não houver uma estratégia consolidada de precificação ou os processos não estão bem definidos? Nestes casos, a equipe de analytics contará com a ajuda dos especialistas de pricing e revenue management para estudar o estado da arte das estratégias de precificação do setor em questão, assim podendo, em conjunto, estabelecerem as estratégias mais adequadas para a empresa e/ou melhor estruturar os processos já existentes.

Dados

Atualmente, já não é mais possível discordar da frase “data is the new oil!”. A coleta de dados de preços, fechamento de contratos ou qualquer outro tipo de efetivação de vendas é de extrema importância para os times de analytics.

O que chamamos de maturidade de dados não é somente a coleta, mas também um pipeline tecnológico que garanta o armazenamento adequado  sem perda de informação. Ainda mais maturidade a empresa tem se já consegue extrair as próprias análises dos dados. Quanto maior a maturidade, mais rapidamente e de forma mais eficiente é possível extrair a inteligência, como mostrado na figura a seguir:

No contexto de precificação dinâmica, a inteligência pode ser entendida como a extração de regras e insights que não são explícitos para as equipes de pricing. Pela nossa experiência, esse olhar do cientista de dados é extremamente agregativo na construção destes sistemas dinâmicos de precificação.

Caso não exista uma maturidade de dados suficiente para viabilizar o projeto, como proceder?

Para este problema, podemos oferecer um projeto estruturante, que tem como objetivo ajudar empresas a construírem uma sólida cultura de dados. Este curto projeto é dividido em duas partes:

  • na criação do pipeline de coleta e armazenamento de dados; e
  • na definição da ontologia de preços e harmonização de indicadores.

Esta última, se encarrega de garantir que o dado coletado e armazenado viabilize a extração de informação, conhecimento, insights e, por fim, a inteligência, ou seja, garante que o dado tenha, de fato, valor para os planos futuros da empresa. Um pouco deste processo está descrito neste artigo – Dos dados à inovação.

Tecnologia

De nada adianta todo o trabalho dos tópicos anteriores ser realizado se não há tecnologia já existente na empresa que consiga dar conta de atualizar os preços na periodicidade desejada. Por exemplo, de nada adianta existir uma ferramenta que consegue tornar os preços dinâmicos em tempo real se as alterações de preço são feitas manualmente.

Quando a dinamicidade acontece em tempo real, é necessário maior robustez no stack tecnológico das empresas envolvidas. Por isso, o levantamento dos requisitos de sistemas e integrações deve ser feito, para que exista uma estimativa de tempo de implementação, com um cronograma coerente antes do início do projeto.

Precificação dinâmica e inteligente

Neste ponto, já temos um sistema de precificação dinâmica quase completo: temos um sistema operacional que consegue provocar variações de preços de acordo com as condições que foram previamente estabelecidas por regras de negócios, sejam elas extraídas dos especialistas de pricing ou de insights dos dados. O que falta?

O que pode passar despercebido, é que a dinamicidade dos preços pode ficar comprometida, travada, pelas próprias regras de negócio que embasaram o sistema. O trade-off é claro: elevado grau de controle versus dinamicidade dos preços. Além disso, as regras normalmente não conseguem ser suficientemente genéricas a ponto de conseguirem definir o preço ideal para todas as situações possíveis.

Neste cenário é que entram as aplicações de Inteligência Artificial e Machine Learning, que aparecem como o elemento capaz de aprender, com extensas bases de dados, os padrões mais bem sucedidos do passado, e assim conseguir definir o preço ideal para cada situação. Ou então, com uma abordagem de modelagem diferente e um tanto quanto mais complexa, é possível fazer com que a inteligência artificial consiga definir preços a partir de outros fatores, sem que os padrões do passado sejam a base principal.

A vantagem de um sistema de precificação dinâmica orientado por uma inteligência artificial é que ele consegue ser mais versátil. No entanto, isso implica que as equipes de pricing abram mão do controle sobre a definição de preço, o que pode ser algo não tão desejável.

A solução para o impasse pode ser um sistema híbrido. Um sistema de precificação que tenha elementos gerados por uma inteligência artificial e complementados pelo conhecimento de negócio de especialistas, é o que chamamos de inteligência expandida. Do ponto de vista gerencial, essa é uma opção bastante atrativa, pois consegue equilibrar certa versatilidade e entregar um certo grau de controle no processo de definição de preços.

Avaliação de resultados

Por fim, mas não menos importante, é necessária uma metodologia consolidada que consiga provar a eficácia de um sistema dinâmico de preços versus o sistema tradicional. Para tanto, é bastante comum e eficiente utilizar a metodologia de diferenças das diferenças, que admite um grupo de controle (tradicional) e um grupo de testes (dinâmico) e permite comprovar, estatisticamente, a eficácia ou não da nova abordagem de precificação.

Case

Como exemplo, trouxemos um case utilizando a plataforma Vortx no segmento da educação privada, onde existia um complexo sistema de precificação não automatizado, com extensas regras de negócio para definir a mensalidade/bolsa de estudo ideal para cada aluno.

Com a estruturação, mapeamos os processos e adicionamos fatores como a distância do aluno até a escola, a renda do responsável, a escola que o aluno estudou anteriormente, entre outros 200 variáveis disponíveis no dataset enriquecido da Aquarela. Também adicionamos tratamentos automatizados de outliers (o que são outliers?) para não deixar passar situações que fogem da normalidade.

Partindo disso, todo o processo foi estudado e revisado por cientistas de dados em conjunto com uma equipe de pricing / revenue, removendo e/ou reformulando as regras de precificação existentes. Como resultado, fomos capazes de:

  • Propor insights e regras que agregaram ainda mais robustez ao processo existente;
  • Gerar um aumento de 5% no faturamento total de negociações; e
  • Criar uma maior transparência no processo decisório da alocação de bolsas de estudos.

Utilizando modelagem estatística avançada, fomos capazes de propor indicadores, utilizados como base para a precificação da mensalidade do aluno, a partir de machine learning. Assim, este sistema híbrido foi concluído e colocado em operação dentro de 4 meses.

Conclusão

Os métodos e tecnologias para precificação dinâmica estão chegando ao mercado, incluíndo setores mais tradicionais. Vimos nos primeiros cinco tópicos as etapas que consideramos fundamentais em projetos de precificação dinâmica.

A decisão de digitalizar e dinamizar a escolha dos preços dos produtos/serviços, sabemos, não é simples. Anteriormente escrevemos alguns aspectos importantes neste artigo Escolhendo fornecedores de inteligência artificial e data analytics.

Com nossa metodologia ágil e seguindo o que foi colocado acima, conseguimos entregar uma solução de precificação dinâmica rápida e eficaz em uma área tradicional como a da educação.

Como escolher o melhor fornecedor de Data Analytics e Inteligência Artificial?

Como escolher o melhor fornecedor de Data Analytics e Inteligência Artificial?

Escolher um fornecedor de inteligência artificial para projetos de analytics, precificação dinâmica, previsão de demanda é, sem dúvida, um processo que deve estar na mesa de todo gestor da indústria em transformação digital. Se você estiver considerando agilizar o processo, uma saída e a contratação de empresas especializadas no assunto.

Uma implementação bem-sucedida de analytics é, em grande parte, um resultado de uma parceria bem equilibrada entre as equipes internas da operação com as equipes prestadoras do serviço de analytics, portanto, essa é uma decisão importante.

Avaliando parceiros e fornecedores de inteligencia artificial e analytics com base em competências e escala

Primeiro, você deve avaliar suas opções com base nas competências dos membros da equipe do parceiro de analytics. Abaixo trazemos alguns para critérios:

  • Pegada global consistente com as necessidades da sua organização.
  • Competências individuais dos membros da equipe e forma de trabalho.
  • Experiência com a sua indústria, em oposição, as ofertas padrão de mercado.
  • Experiência no segmento de seu negócio.
  • Fit cultural com sua organização.
  • Maturidade comercial das soluções como a plataforma de analytics.
  • Referência no mercado e capacidade de escalar times.
  • Capacidade de geração de insights externos. 

Seja desenvolvendo um time interno de analytics ou contratando externamente, o fato é que você provavelmente gastará bastante dinheiro e tempo com o parceiro de analytics e inteligência artificial, por isso é importante que eles tragam as competências certas para o negócio ou processo do seu departamento.

Considere todas as opções da oferta de analytics.

Temos visto muitas organizações limitarem suas opções à Capgemini, EY, Deloitte, Accenture e outros grandes consultorias ou simplesmente desenvolvendo times internos de analytics. Porém:

Mas há muitas outras boas opções no mercado, incluindo o nacional, e por isso vale estar atento ao rápido crescimento dessas opções. Principalmente dentro dos principais polos tecnológicos do país, como: Florianópolis, Recife, Campinas e outros.

Ajuste as expectativas e evite frustrações analíticas

Já vimos, em diversas ocasiões, a criação frustrada de times de analytics totalmente internos, sejam estes para a configuração de data-lakes, governança de dados, machine learning ou integração de sistemas. 

O panorama da adoção de I.A é parecido, pelo menos por hora, com o tempo onde as empresas desenvolviam seus próprios ERPs internos nos departamentos de processamento de dados. Hoje das 4000 maiores contas de tecnologia do Brasil, apenas 4.2% mantém o desenvolvimento do ERP interno, destes o que predominam são  bancos e governos, o que faz total sentido do ponto de vista de estratégia e core business. 

Investigamos um pouco mais estas histórias e vimos que existem, pelo menos, quatro fatores por trás dos resultados: 

  • A Cultura não data-driven e segmentação vertical impedem o fluxo necessário(velocidade e quantidade) de ideias e dados que tornam o analytics valioso (guia de introdução a cultura de dados).
  • Gestão de projetos modelo waterfall, como é feito para construção de artefatos físicos ou sistemas de ERPs, não são adequados para analytics. (Business Canvas Analytics).
  • Dificuldade de contratação de profissionais com o conhecimento de analytics na área de negócio da empresa junto com a falta de programas de onboarding adequados aos desafios. (O profissional de Data Science na visão da Aquarela)
  • Desafios técnicos e imprevistos acontecem aos montes, e é necessário ter profissionais resilientes e acostumados a essas capoeiras cognitivas, já que datasets da vida real nunca estão prontos e são tão calibrados como aqueles dos exemplos de machine learning dos passageiros do titanic. Normalmente têm outliers (O que são outliers?), estão amarrados a processos de negócio complexos e cheios de regras como no exemplo da precificação dinâmica das passagens do metrô de londres.

Embora não exista uma resposta única para como implantar analytics e processos robustos de governança e inteligência artificial, lembre-se de que você é o responsável pelo relacionamento com essas equipes, e pelo relacionamento entre os sistemas de produção e de analytics.

Entenda os pontos fortes dos parceiros de analytics – mas também reconheça suas fraquezas

É difícil encontrar no mercado recursos com profundidade e qualidades funcionais e técnicas, principalmente se o perfil do seu negócio é industrial, envolvendo conhecimentos de processos raros, como por exemplo o processo físico químico para criação de pastilhas de freio. 

Mas, como toda organização, esses parceiros de analytics também podem ter pontos fracos, como por exemplo:

  • Falta de prontidão na implementação do analytics (metodologia, plataforma), para garantir que você tenha uma solução implementada rápido. 
  • Falta de estratégia de migração, mapeamento de dados e ontologias
  • Sem garantia de transferência de conhecimento e documentação.
  • Falta de experiências práticas na indústria.
  • Dificuldade em absorver o contexto do negócio do cliente

Portanto, conhecer bem os métodos e processos do parceiro é essencial, estes são os pilares da execução de um bom projeto de Analytics e I.A – Metodologia e processos de trabalho, busque entender sobre o background dele, pergunte sobre suas experiências com outros clientes de grande porte, busque entender como este parceiro resolveu desafios complexos em outros negócios, mesmo que estes não tenham ligação direta com o seu desafio. 

Data Ethics

Ética no tratamento de dados, lógico que que não podemos deixar de pontuar esse tema. Não é de agora que os dados estão se tornando o centro das atenções da gestão, e ainda mais com a Lei Geral de Proteção de Dados (LGPD) entrando em vigor no Brasil.  

Fique atento! Veja a forma como os seus dados serão tratados, transferidos e guardados pelo parceiro, e se o nome dele está limpo na praça.

Bons parceiros são aqueles que, além de conhecer bem a tecnologia, possuem diretrizes para lidar com a informação do seu negócio, como por exemplo:

  • Tem processos de segurança bem claros e definidos
  • Utilizam criptografia de ponta a ponta
  • Acompanham as atualizações de seus softwares
  • Respeitam NDAs (Non-disclosure Agreements) – NDAs não devem ser simplesmente de praxe quando se fala em dados. 
  • Todos os canais de comunicação estão alinhados e segmentados por níveis de segurança. 
  • São bem vistos pela comunidade de análise de dados.

Concluíndo

Escolher seu parceiro Analytics é uma das maiores decisões que você fará para a transformação digital da sua organização. 

Independente de qual parceiro você escolher para a sua empresa, é importante que você monte uma equipe de consultoria externa de analytics que faça sentido para sua organização, que tenha uma lastro tecnológico e que suporte a demanda da sua indústria. 


Fique atento às novas publicações seguindo nosso Linkedin e assinando nossa newsletter

A distribuição normal em Data Analytics

A distribuição normal em Data Analytics

Encontrar a normalidade e as anormalidades (outliers) nos processo de negócio, tais como vendas, compras, cadeias de distribuição e precificação dinâmica é tarefa fundamental na ciência de dados.

Neste artigo, explicamos e mostramos como a estatística aborda a descoberta da normalidade. Também vamos mostrar algumas distribuições normais associadas aos negócios, dentro de estratégias de data analytics, visando ajudar os leitores a converterem suas análises em resultados tangíveis.

O que é a distribuição normal ou curva normal?

A distribuição Normal também é conhecida como distribuição Gaussiana, em homenagem ao “príncipe da matemática”, o alemão Johann Carl Friedrich Gauss, que contribuiu para diversas áreas da ciência.

Sua utilização da distribuição normal vai além da determinação da probabilidade entre valores numa distribuição, ela também é recorrentemente utilizada como indicativo de qualidade de modelos estatísticos, como o Método dos Mínimos Quadrados, por exemplo. Caso a distribuição de erros do modelo apresente distribuição não normal, supõe-se então que o modelo está viesado, ou seja, não confiável.

Exemplos de Distribuição Normal estão presentes em nosso cotidiano, seja na distribuição de peso de recém nascidos, notas de acadêmicos, Quociente Intelectual (QI), tamanho de sapatos e velocidade de veículos em uma rota, isso para citar alguns dos mais comuns. 

A distribuição normal na visão matemática

Podemos defini-la como uma distribuição de probabilidade contínua com esperança matemática (μ) e desvio padrão (σ). A função densidade de uma distribuição Normal segue a seguinte equação:

Sendo assim, poderíamos dizer que X~N(μ, σ2). Ou seja, uma variável qualquer X segue uma distribuição Normal com média (μ) e variância (σ2). Além disso, uma distribuição normal deve possuir média, mediana e moda iguais, ser simétrica e leptocúrtica.

Distribuição normal de forma didática

Mal começamos o artigo e já estamos com uma baita fórmula cheia de letras gregas na cabeça. Mas calma. Seremos mais didáticos daqui em diante e, falando nisso, sabiam que o conceito de distribuição normal pode ser demonstrado fisicamente? Dá uma olhada nesse gif:

As bolinhas caem aleatoriamente entre os pinos até formar a distribuição normal.

Contudo, há algo que as pessoas costumam confundir com frequência e devemos deixar claro aqui:

Distribuição Normal e Normal padrão, apesar de serem bastante semelhantes, não são exatamente a mesma coisa. Então:

  • Distribuição normal pode possuir qualquer valor como média e desvio padrão. Contudo, o desvio padrão não pode assumir valores negativos.
  • Distribuição normal padrão sempre terá média igual a zero (0) e desvio padrão igual a um (1). Costuma ser bastante utilizada para facilitar cálculos de probabilidade.

Por que algumas distribuições não são normais?

  • Outliers: Valores muito altos ou muito baixos podem distorcer a curva, a média é especialmente sensível aos extremos. Sugerimos remover os outliers e verificar como ficou a distribuição. Temos um artigo que aborda mais aprofundadamente o que são outliers e como tratá-los
  • Distribuições misturadas: Podem haver casos onde duas ou mais distribuições podem ser combinadas em seus dados. Se desenharmos um gráfico de distribuição com esses dois grupos, podem aparecer duas curvas misturadas, e quando são muitos grupos fica até difícil visualizar o que está acontecendo, e a análise pode demandar o uso de filtros complexos. 
  • Poucos dados: Dados insuficientes podem fazer com que uma distribuição normal pareça completamente deformada. Por exemplo, os resultados da idade dos pacientes de um hospital são distribuídos normalmente. Mas se você escolher três deles aleatoriamente, não obterá uma distribuição normal. Se você estiver em dúvida se possui um tamanho de amostra suficiente para ter resultados robustos, confira esse outro artigo no qual disponibilizamos uma calculadora de amostragem – O que é amostragem e como fazer o cálculo amostral?  
  • Coleta incorreta dos dados: Se em um dataset (o que são datasets) existe uma coluna na qual é esperada uma curva normal, e esta fica deformada, verifique se não há filtros aplicados, ou se a coleta está sendo feita de forma adequada. 
  • Distribuição não normal: Por vezes, a distribuição pode simplesmente ser de outra natureza. A quantidade de vezes que a face de um dado se repete em jogadas seguidas, por exemplo, se comportaria de maneira uniforme. Ou seja, suas faces se repetiriam um número de vezes virtualmente igual. Classificaríamos sua distribuição, então, como uniforme.

Tratamentos

Contudo, bem sabemos que nem tudo se mostra normal nessa terra. Muitas vezes a variável deverá passar por algum tipo de tratamento para ser considerada normal, outras vezes nem mesmo com os tratamentos mais robustos isso será possível. 

Frequentemente encontramos em nossas análises variáveis que se distribuem de maneira logarítmica, por exemplo. Apenas ao observar essa característica já nos damos conta do tratamento mais adequado para este tipo de caso, a aplicação de logaritmo (de base 10). Dessa maneira, teríamos então uma distribuição log-normal. Confira o exemplo abaixo:

Cálculo de probabilidade na prática

Digamos que uma máquina que preenche água em garrafas plásticas de uma determinada fábrica encha as garrafinhas em média 300 ml. Após verificar a distribuição da quantidade de água preenchida por essa máquina, percebe-se que a mesma preenche as garrafinhas com um desvio padrão de 6 ml. Logo:

Qual a probabilidade desta máquina preencher uma garrafinha menos que 295 ml?

Bom, na academia, recorrentemente utilizamos a tabela de distribuição normal padrão para calcularmos algo nesse sentido. Calcularíamos o valor Z e procuraríamos na tabela para determinar a probabilidade de evento como este acontecer. Entretanto, considerando que esse método é apenas utilizado para facilitar o cálculo e o mesmo pode ser estimado através da densidade abaixo da curva, podemos fazer uso da calculadora que desenvolvemos. Veja e tente você mesmo:

Se você chegou a um valor de aproximadamente 20%, parabens! Você acertou!
Fique a vontade para utilizá-la em outros exercícios. Temos certeza que ela pode lhe ser útil em diversos outros experimentos.

Distribuições na Aquarela 

Na Aquarela, utilizamos diariamente a ideia de distribuição, seja para validar a qualidade do dado, da captura do dado ou mesmo entender a natureza dos fenômenos que estamos estudando. Contudo, as demandas que atendemos nos diversos setores industriais de serviço exigem muito mais do que isso para criar predições, prescrições e cenarização de negócio. 

Ao atuar diretamente com analytics na indústria, necessitamos criar e aplicar algoritmos de inteligência artificial para descobrir múltiplas combinações probabilísticas de diversas distribuições que, por sua vez, gerarão recomendações tais como:

  • preço dinâmico;
  • horário de melhor atendimento;
  • níveis de risco de entrega de produtos;
  • riscos de falhas em equipamentos em produção. 

Conclusões e recomendações

Entender o conceito da distribuição normal e seu papel no processo da análise de probabilidades é muito importante. Nesse sentido, com a transformação digital que está em curso, cada dia mais, existirão dados disponíveis para análises. 

Neste artigo vimos:

  • O que é uma distribuição normal e como diferenciar ela das demais;
  • Por que algumas curvas ou distribuições não são normais;
  • Como o conceito de distribuição pode ser demonstrado de forma física; 
  • Como descrevemos a distribuição de probabilidade Normal e como calcular a probabilidade entre intervalos de valores;
  • Demonstramos como proceder tratamentos logarítmicos para transformar a distribuição.

Concluímos que, o conhecimento da distribuição de probabilidade é fundamental para a condução de procedimentos estatísticos. A partir daí, podemos calcular parâmetros, estimar intervalos de confiança e investigar hipóteses. A distribuição mais relevante dentre as possíveis, sem dúvidas, é distribuição normal, tendo enorme importância para a validade de diversos modelos estatísticos aplicados à economia e negócios. 

Fique atento às futuras publicações assinando nossa newletter!

Onde erramos?

Graças ao olhar atento da comunidade, encontramos alguns erros na primeira versão do artigo e abaixo está o esclarecimento:

01 – Onde dizíamos:

Distribuição normal é “assimétrica”, o correto é “simétrica”.

02 – Onde dizíamos:

Distribuição normal pode possuir qualquer valor como média e desvio padrão.

Adicionamos a seguinte informação para evitar a ambiguidade no sentido de que o desvio padrão poderia assumir valores negativos. A continuação ficou assim:

Contudo, o desvio padrão não pode assumir valores negativos.