O que é amostragem e como fazer o cálculo amostral

O que é amostragem e como fazer o cálculo amostral

A amostragem ronda o nosso cotidiano mesmo sem percebermos. Pois fazemos generalizações, criamos hipóteses e mensuramos diversas coisas em nossas vidas; desde interpretar se o clima do dia está mais quente/frio que o normal, até imaginar se um certo candidato está assumindo a ponta na opinião da população.

Acompanhe este artigo e entenda o que é amostragem e como fazer o cálculo amostral.

O que é população estatística e sua importância no contexto de amostragem?

População estatística é o conjunto de itens, pessoas ou elementos de forma geral que contém todas as informações disponíveis para fazer um determinado tipo de inferência.

A compreensão do conceito de população é muito importante na definição do cálculo amostral.

Citando o exemplo de eleições, qual é a melhor maneira de identificarmos como está a intenção de votos em algum candidato?

Uma resposta genérica seria dizer: basta conversarmos com a população votante inteira. Mas, pensando apenas em alguns segundos, chegaremos a conclusão que esta não deve ser uma tarefa lá muito fácil.

Então, como podemos tirar conclusões e assunções sobre algum tema de forma científica, com uma metodologia coerente e que traga resultados próximos do que realmente representa a população como um todo? É aí que a amostragem entra em jogo.

Atenção para não confundir amostragem com recorte de dados – Neste artigo falamos mais sobre esta questão.

O que é amostragem?

Amostragem é um processo que segue técnicas de escolher membros de uma população de forma que seja possível realizar inferências sobre toda a população. Ou seja, a amostragem permite concluir sobre o todo analisando apenas partes.

Buscando a racionalização de recursos, podemos gerar uma amostra que consiga representar o nosso conjunto de interesse. Para isso, temos de pensar em algumas questões importantes. Pois, o conceito de amostragem parte do princípio que queremos estudar características de indivíduos e populações.

Se tratando de uma amostra que busca representar uma população inteira, inerentemente teremos desvios da realidade, erros de medida e outras imperfeições; isto muito por conta do acaso.

Ao tentarmos estimar o hábito de se exercitar entre os brasileiros, por exemplo, a nossa amostra poderá sofrer desvios caso tenhamos selecionado mais idosos que jovens, mais crianças do que adultos, de uma certa região para outra, e assim por diante. Logo, podemos entrar em alguns conceitos importantes:

Principais conceitos

  • Margem de erro – É a diferença entre a média encontrada na amostra para a média da população.
    Dentro do cálculo de amostragem, a margem de erro entra como um dos parâmetros a serem inseridos. Logo, podemos perceber uma relação inversamente proporcional entre a margem de erro e o tamanho da amostra: quanto menor for a margem de erro máxima desejada, maior terá de ser a amostra.
  • Aleatoriedade – Para termos os resultados mais próximos da verdadeira população, a seleção da nossa amostra deve ser totalmente aleatória. Porém, como garantir uma perfeita aleatoriedade?
    Talvez seja um assunto para um outro momento. Porém, o que podemos imaginar é que, quanto menos presa a nossa amostra for a um determinado grupo ou categoria, melhor a nossa amostra representará a população como um todo.
  • População – População, em termos estatísticos, nada mais é do que a totalidade dos fatores que queremos analisar. Seja o total de pessoas que moram na região do nosso interesse, seja o total de organismos que vivem em determinado ecossistema.
  • Grau de confiança – O termo confiança, dentro das técnicas de amostragem, significa o quanto estamos dispostos a abrir mão de “certeza” para termos uma amostra mais eficiente.
    Podemos pensar em confiança como um intervalo de probabilidades, onde, quanto maior for o grau de confiança estabelecido, maior será o intervalo de resultados possíveis dentro de uma amostra. Assim, Delimitamos esse intervalo em desvios padrões, ou seja, o quanto a nossa amostra poderá se desviar da verdadeira média da população, com um determinado grau de confiança.

Como se calcula o tamanho da sua amostra?

Tendo visto todos esses conceitos, podemos estimar uma amostra eficiente para mensurarmos o estudo do nosso interesse.  Deste modo, a equação abaixo mostra a forma manual de se calcular o tamanho da amostra:

equação calculo amostral
equação cálculo amostral

sendo;

z = grau de confiança em desvios padrões

e = margem de erro escolhida

N = tamanho da população

p = Na calculadora, ela é uma constante igual a 0,5

Calculadora de amostragem

Para facilitarmos esse processo, desenvolvemos uma calculadora, onde basta você adicionar os parâmetros citados que você obterá um tamanho de amostra para a sua pesquisa.

Exercício de fixação

De maneira bem prática, responda às seguintes questões:

  1. Qual seria o tamanho da amostra para uma pesquisa dos alunos de uma turma de 30 pessoas?
  2. Qual o tamanho da amostra para uma pesquisa na sua cidade?
  3. Quão grande é o tamanho da amostra para uma pesquisa no Brasil?

Obs. Veja como se comporta o crescimento da amostra quando os valores da população aumentam.

O papel da amostragem em Advanced Analytics

As técnicas de amostragem vêm se tornando cada vez mais importantes no mundo da ciência de dados (o que é a ciência de dados e Data Analytics?). Pois, buscamos conhecer o comportamento e características de um certo conjunto de pessoas, objetos, entre outras coisas.

Muitas das técnicas de Machine Learning utilizam amostras, que seriam pedaços de um determinado dataset para “treinar” a máquina, que será alimentada com diversas amostras ao longo do tempo, verificando o quanto a máquina consegue ajustar os padrões obtidos em dados reais, da população.

Processar todos os dados do banco de dados para fazer uma análise é o mesmo que retirar todo o sangue do indivíduo para fazer o teste de sangue. -Joni Hoppen, 2018

Na indústria 4.0

No contexto da indústria 4.0, garantir a obtenção de uma amostra representativa é fundamental para se obter bons resultados com uso da Inteligência Artificial e da Inteligência Coletiva, tanto na qualidade do aprendizado quanto na viabilidade do projeto ou produto.

Algoritmos de Inteligência Artificial geralmente consomem muito processamento. Como resultado, muitos iniciantes acabam por gastar muito dinheiro em processamento na nuvem e igualmente muito tempo, por processarem muitas vezes toda a população em seus experimentos, ou ainda recortes que injetam viés no aprendizado.

Assim, dosar o quão significativa é uma amostra vis-à-viz as taxas de acurácia do modelo é instrumental na obtenção de resultados com melhor custo benefício.

Conclusões

Técnicas de amostragem que antes eram utilizadas apenas entre cientistas em laboratórios, podem agora ser utilizadas para resolver problemas complexos dentro das empresas e instituições.

Por meio do uso de estatística e IA, se torna possível criam novos negócios, produtos e serviços, gerando maior valor para nossa sociedade. Logo, o correto entendimento das bases conceituais estatísticas são fundamentais.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

O que é data mining (mineração de dados)?

O que é data mining (mineração de dados)?

Data mining, ou mineração de dados, é a prática de examinar dados que já foram coletados – utilizando diversos tipos de algoritmos, normalmente de forma automática –, a fim de gerar novas informações e encontrar padrões. Veja em mais detalhes neste artigo o que é data mining, e como a mineração de dados se coloca diante de temas mais recentes como o Advanced Analytics e a Indústria 4.0.

Na prática, como funciona a mineração de dados?

Considerando que minerar dados é um processo de transformar dados em informações úteis (dados mais valiosos a partir de dados complexos).

Para atingir esse objetivo, alguns passos são realizados, como: encontrar padrões, associações e anomalias gerais nos dados.

Em data mining não importa a forma como os dados foram coletados, se via banco de dados, web scraping, API`s, etc.

Data mining, seu surgimento, e a economia da informação

O advento do data mining surgiu com a emersão da economia da informação, que por sua vez representa a informação sendo utilizada como mercadoria e como bem de produção.

Economia da informação é um termo que teve como uma das suas primeiras aparições no mundo científico em 1986, com Bruce Greenwald e o Nobel de economia Joseph Stiglitz.

Neste contexto, os acadêmicos argumentam que as pessoas não possuem acesso a todas informações disponíveis, o que torna os mercados imperfeitos.

Esse foi, na época, um argumento distante da premissa econômica até então dominante que afirmava que a mesma informação era acessível a todos. Sendo assim, a informação passou a ser vista como um diferencial, como uma forma de extrair insights para melhorar as decisões gerenciais no âmbito corporativo.

Na economia da informação praticamente todas as transações e operações realizadas por pessoas e empresas no dia a dia geram algum tipo de dados. Data mining entra neste contexto com a aplicação de equações matemáticas e métodos estatísticos, que vão desde o uso de uma regressão logística, até redes neurais, deep learning, análise de clustering(agrupamentos) e classificações automáticas.

Uma das primeiras soluções focadas em data mining, para fins de exemplificação, foi o software WekaO Weka, criado em 1993 e mantido até os dias atuais, é uma rica coleção de algoritmos de machine learning e data mining.

O propósito do software em sua concepção foi permitir que o usuário não precisasse conhecer linguagens de programação para fazer o pré-processamento dos dados (organizá-los) e assim aplicar diversos algoritmos prontos em seus próprios dados.

Data mining na Indústria 4.0

Mais do que a economia da informação, hoje vivemos em uma transição econômica como um todo para a indústria 4.0.

A Indústria 4.0 caracteriza-se por serviços concebidos e produzidos de forma descentralizada, com forte apoio de Advanced Analytics, Inteligência Artificial (a máquina com capacidade de aprender) e Inteligência Coletiva (as pessoas, coletivamente, cooperando para que as máquinas aprendam). Esse processo teve seu início com o boom da internet no começo dos anos 2000.

Leia mais sobre Indústria 4.0.

Na Indústria 4.0 os smartphones, por exemplo, permitem tanto a Inteligência Artificial quanto a Inteligência Coletiva fazerem parte das decisões do dia a dia das pessoas.

Com isso, uma imensidão de dados é gerada, cada vez em maior quantidade.

Nesse contexto, a mineração de dados é a base para uma integração com métodos mais avançados, que envolvem desde as ferramentas mais básicas – como regressões e árvores de decisão – até modelagens mais complexas com elevado nível de otimização de análise, utilizando também métodos de aprendizagem de máquina, big data, entre outros.

Nestes casos o propósito costuma ser análises preditivas e prescritivas, que conduzem os indivíduos a tomarem suas decisões de forma mais rápida, automatizada e otimizada.

Como aplicar data mining em um ambiente de negócio?

Na mineração de dados, o que gera valor de fato é o conjunto de ações que são tomadas a partir dos processamentos dos dados. Para isso, é preciso saber onde aplicar as técnicas e quais ferramentas de mineração são mais adequadas para cada caso, dando vida a um novo perfil de profissionais chamada Cientista de Dados

Então, onde se aplica data mining? Sempre que existirem processos definidos, têm-se dados. Usa-se a mineração de dados no momento em que as alternativas iniciais de análise foram esgotadas, como análises a “olho nú”, com planilhas de dinâmicas ou ainda com o uso de estatística descritiva, entre outros.

Veja a seguir uma lista de exemplos práticos da aplicação da mineração de dados em ambientes de negócio, que conduzem a melhorias das decisões gerenciais e estratégicas:

1. Dados gerados internamente nas organizações

Dados transacionais ou extraídos de sistemas em geral da organização podem ser tratados e minerados.

São exemplos: dados de CRM, ERP, softwares de marketing digital, plataformas de monitoramento de websites (como o Google Analytics), e-commerce, supply-chain, dados de logística, entre outras inúmeras áreas de negócios.

2. Dados sociais

Dados que estão sempre crescendo e descrevem pessoas: quem são, onde estão, que serviços e produtos estão usando. Usar esses dados para fins de negócios é a maneira como a economia da informação funciona e um dos grandes motores no advento da indústria 4.0.

3. Área da saúde

A mineração de dados possui diversas aplicações na área da saúde. Como um exemplo das possibilidades de aplicação, a Aquarela, juntamente com a Prefeitura de Vitória/ES, minerou e analisou dados de faltas em agendamentos médicos.

Após as análises foram tomadas decisões estratégicas que reduziram as faltas em agendamentos de cerca de 30% para aproximadamente 15%. A economia gerada aos cofres públicos é milionária. Veja o case em detalhes.

4. Obras públicas

Com a tendência de transparência pública no Brasil, cada vez mais dados públicos têm sido disponibilizados gratuitamente via web. Isso viabiliza a realização de análises que podem levar à população um poder extra de monitoramento de como o dinheiro público tem sido utilizado.

Como case de exemplo, a SEFAZ/SC e a Aquarela Advanced Analytics, utilizaram técnicas avançadas de análise de dados para a descoberta de padrões de obras públicas do estado de Santa Catarina, tornando-as acessíveis à população, em complemento ao portal da transparência do governo. Veja neste post os resultados das análises.

5. Capital de risco em empresas de base tecnológica

Diante de uma grande diversidade de startups surgindo e também de fundos de investimento em venture capital e capital de risco, técnicas de data mining podem auxiliar a encontrar as melhores startups para dados fundos de investimentos, ou também dar uma visão às startups de quais fundos de investimentos são mais propensos a se tornarem investidores.

Em mais um case, a Aquarela analisou as características de startups unicórnios (com valor de mercado superior a U$ 1 bi.), cruzando os dados com seus respectivos fundos investidores.

Entre as perguntas-chave estava identificar padrões e clusters nas empresas unicórnios e comparar as variáveis das empresas com as rodadas de investimentos que receberam de fundos de capital de risco.

Conclusões

Mineração de dados é um processo cujo fim é gerar informações a partir de dados, em que são utilizadas diversas ferramentas e métodos. Ou seja, não há “receita de bolo” para trabalhar com data mining.

Cada caso é único, demandando profissionais com grande capacidade criativa para definição dos modelos.

Data mining é um termo já antigo, levando em conta o grande dinamismo do mundo da tecnologia. Com o passar do tempo também surgiram diversos outros termos que podem gerar confusões. Para isso veja o artigo em que tratamos sobre as diferenças entre BI, data mining e big data.

Por fim, a forma de extrair informações estratégicas a partir dos dados representa o que é data mining. Mas, de forma mais ampla surge o Advanced Analytics, em que a mineração de dados é parte de um processo que envolve desde o desenvolvimento da cultura de Analytics nas empresas, até a construção de análises e sistemas preditivos e prescritivos com uso de IA.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

13 dicas para tornar suas tabelas Excel MUITO mais apresentáveis

13 dicas para tornar suas tabelas Excel MUITO mais apresentáveis


A área de da ciência de dados está ligada a um processo intenso de comunicação, como já escrevemos neste post, sobre o perfil do cientista de dados na visão da Aquarela.

Portanto, saber comunicar informações importantes (e, em muitos casos, bastante abstratas) de modo direto e atrativo é uma das habilidades que os melhores cientistas de dados exercitam diariamente. 

O objetivo deste artigo é mostrar que; a forma como você apresenta uma tabela Excel, por mais simples que seja, pode impactar diretamente o seu público (seja ele seu chefe, cliente, equipe, etc). Portanto, visualização de dados é muito mais do que apenas a visualização de gráficos.

Menos é Muito Mais

Por muito tempo, o senso estético e a análise de dados caminharam afastados. Porém, com a democratização do acesso à informação e o crescente interesse do mercado por analytics, o “sex appeal” da visualização de dados foi colocado em cheque por diversas vertentes de trabalho, como por exemplo o jornalismo de dados.

Neste caminho, hoje temos uma realidade onde os dados legíveis são mais importantes do que apenas dados. Ler informação nem sempre significa entendimento, porque a compreensão do leitor sempre depende da forma de comunicação utilizada.

Aqui é importante salientar que:

“Visualização de dados não é apenas a geração de gráficos e painéis (dashboards), é algo que abrange também todas as interfaces visíveis dos dados aos diversos tipos de usuários. Alguns visualizam dados em modo texto, por exemplo, e são muito eficientes.” – Joni Hoppen, 2017

Visualmente falando, em muitos casos, menos significa mais. Comunicação significa tornar algum conhecimento comum.

Demonstração no Excel: Dados ou informação?

Nas figuras a seguir apresentamos duas imagens da mesma tabela (conjunto de dados) para demonstrar o contraste entre o design das duas. A primeira é um tipo bastante comum de planilha do Excel, criada sem uma estratégia coerente, e a segunda é resultado da aplicação das 13 dicas que citamos aqui.

tipo genérico de tabela que não foi feita com conceitos de design de dados em mente.
Resultado da aplicação de conceitos de design de dados sobre a tabela

Fica uma pergunta ao leitor: Qual das imagens apresenta mais dados e qual apresenta mais informação?

Níveis de informação e maturidade

Uma empresa com alto nível de maturidade em data analytics apresenta visualizações de dados em diferentes níveis de granularidade de acordo com cada perfil, garantindo que decisões aconteçam no tempo certo pelas pessoas certas dentro de um fluxo coerente de trabalho.

“Uma informação bem comunicada reduz a ansiedade” – Richard Saul Wurman, 1989

Para ajudar nesse processo de melhorar a qualidade de análise de dados, disponibilizamos alguns materiais de apoio, como nosso E-book sobre introdução a cultura de data analytics, aonde mostramos como você pode quebrar as barreiras no processo de adoção de uma cultura de dados. Baixe agora e descubra como fazer parte da revolução do analytics!

Alguns exemplos:

  • Técnicos de operação: Os técnicos que estão atendendo fisicamente os clientes nos diversos bairros da cidade precisam apenas das informações do agendamento e que estas caibam na tela do celular.
  • Especialistas de Infraestrutura: Os analistas de bancos de dados precisam de acesso em modo texto aos bancos de dados e a forma como são concatenados às tabelas em texto é muito importante para entender a estrutura das tabelas de forma não sumarizada (dados brutos).
  • Gestor: Os gestores necessitam de relatórios de alto nível e já sumarizados (the Big Picture) com as informações mais relevantes e que possam ser consumidas no menor tempo.

Mais informações sobre níveis de informação neste artigo: Dos Dados à Inovação

Como fazer na prática?

Legal, quero melhorar minha comunicação de dados, mas tenho tenho zero conhecimento de design. Não sei a diferença de CMKY e RGB, muito menos usar o photoshop, como posso melhorar a minha visualização de dados?

Calma! Agora vem a parte legal!

Inspirado no autor Joey Cherdarchuk, fizemos uma versão brasileira (Herbert Richers) com algumas melhorias, baseadas em nossa experiência como instrutores de Data Analytics na Aquarela, para que você possa utilizar rapidamente estas dicas e apresentar os resultados de suas análises de forma muito mais profissional e impactante. Basta seguir alguns destes 13 passos a seguir:

Notem que o fundamental aqui é a utilização dos conceitos de design aplicado a uma tabela, e não necessariamente das funcionalidades da ferramenta, pois ferramentas como o Excel, o Google Sheet ou o LibreOffice sem uma estratégia são apenas ferramentas.

Nesta linha o autor Joey Cherdarchuk vai mais além dizendo que os dados são melhores apresentados quando ficam pelados:

“Data looks better naked” – Joey Cherdarchuk, 2013

Para te ajudar a entender melhor como essa “mágica” visual aconteceu, disponibilizamos para download a tabela do exemplo, assim você possa replicar as ideias em suas próximas interações com o excel, clique na imagem abaixo e faça o download!

Gostou?

Para mais informações, recomendamos um estudo da teoria Gestalt, que traz a ideia de incorporação dos espaços vazios como elementos do desenho, uma teoria tão interessante (ponto de vista do Joni) que pode ser aplicada no planejamento pessoal, organização da casa, processos de urbanização e etc.

Recomendamos também o livro Information Anxiety, do autor Richard Saul Wurman, um dos criados dos famosos TED talks. Nesse livro ele transmite um apanhado geral do que fazer quando a informação não te diz o que você precisa saber.

Outros temas analíticos que vão ao encontro da visualização de dados são:

  • Design de Indicadores;
  • Design de Informação;
  • Visualização de dados;
  • Técnicas de apresentação.

Esperamos que essas informações sejam úteis no seu dia a dia e que possam de fato gerar mudanças na sua estratégia de trabalho com dados e que isso gere de decisões de melhor qualidade, pois vivemos num país que precisa urgente de melhores decisões em todos os níveis.

Continuem atentos às novas publicações, fiquem à vontade para comentar abaixo e não esqueçam de compartilhar essas informações com seus amigos pois:

“A cultura de Data Analytics só cresce quando compartilhada.” – Joni Hoppen, 2017

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Outliers, o que são e como tratá-los em uma análise de dados?

Outliers, o que são e como tratá-los em uma análise de dados?

Os outliers são dados que se diferenciam drasticamente de todos os outros. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.

Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:

  1. os outliers podem viesar negativamente todo o resultado de uma análise;
  2. o comportamento dos outliers pode ser justamente o que está sendo procurado.

Os outliers presentes em datasets  (o que são datasets) possuem diversos outros nomes, como:

  • dados discrepantes;
  • pontos fora da curva; (o que é curva normal?)
  • observações fora do comum;
  • anomalias;
  • valores atípicos;
  • entre outros.

A seguir, elencamos algumas situações comuns em que os outliers surgem na análise de dados e apontamos sugestões de como lidar com eles em cada caso.

Como identificar quais são os dados outliers?

Existem diversas formas de encontrar outliers, aqui citamos algumas delas.

Encontrar os outliers utilizando tabelas

A forma mais simples de encontrar dados outliers é olhar diretamente para a tabela ou planilha de dados – o dataset como chamam os cientistas de dados.

O caso da tabela a seguir exemplifica claramente um erro de digitação, ou seja, de input dos dados. Logo, o campo da idade do indivíduo “Antônio Silveira” certamente não representa a idade de 470 anos.

Olhando para a tabela é possível identificar o outlier, mas fica difícil afirmar qual seria a idade correta. Existem várias possibilidades que podem se referir a idade certa, como: 47, 70 ou ainda 40 anos.

Em uma pequena amostra, a tarefa de encontrar outliers com o uso de tabelas pode ser fácil. Porém, quando a quantidade de observações (linhas) passa para a casa dos milhares ou milhões fica impossível de encontrar quais são os dados que destoam do geral.

Portanto, a tarefa de identificar anomalias pode se tornar difícil, principalmente quando mais variáveis (mais as colunas) são envolvidas. Para isso existem outros métodos.

Encontrar os outliers utilizando gráficos

Uma das melhores formas de identificar dados outliers é utilizando gráficos. Pois, ao plotar um gráfico o analista consegue claramente perceber que existe algo diferente.

Veja a seguir alguns cases que exemplificam a visualização de outliers com gráficos.

Case: outliers no sistema de saúde brasileiro

Em um estudo já publicado em nosso blog analisamos os fatores que levam as pessoas a não comparecem em consultas agendadas no sistema público de saúde da cidade de Vitória/ES.

No dataset, diversos padrões foram encontrados, como por exemplo: crianças praticamente não faltam às consultas; e mulheres comparecem muito mais às consultas do que os homens.

Porém, um caso curioso foi o de uma senhora “outlier”, que com 79 anos agendou uma consulta com 365 dias de antecedência e de fato compareceu à consulta.

Este é um caso, por exemplo, de um dado outlier que merece ser estudado, pois o comportamento dessa senhora pode trazer informações relevantes de medidas que podem ser adotadas para aumentar a taxa de assiduidade nos agendamentos.

Veja o caso no gráfico a seguir.

Identificação de um outlier com agendamento médico superior a 360 dias e com positivo para o comparecimento.
Agendamentos médicos na cidade de Vitória-ES

Case: outliers no mercado financeiro brasileiro

No dia 17 de maio de 2017 as ações da Petrobrás caíram 15,8% e o índice da bolsa (IBOVESPA) teve uma queda de 8,8% em um único dia. Neste caso, a maioria das ações da bolsa brasileira viram seu preço despencar neste dia.

Essa forte variação negativa teve como principal motivação a delação de Joesley Batista, um dos eventos políticos mais impactantes que aconteceram no primeiro semestre de 2017.

Esse caso representa um outlier para o analista que, por exemplo, deseja saber qual foi a média de retornos diários das ações da Petrobrás nos últimos 180 dias. Certamente o dia da delação de Joesley afetou fortemente a média para baixo.

Ao analisar o gráfico a seguir, mesmo diante de diversas observações, fica fácil identificar o ponto que destoa dos demais.

Posição das ações da PETR4

O dado do exemplo acima pode ser chamado de outlier, mas se levado ao pé da letra, não pode necessariamente ser considerado um “ponto fora da curva”. Portanto, a “curva” no gráfico acima, apesar de contra-intuitivo, é representada pela linha reta que corta os pontos.

Ainda pelo gráfico acima é possível perceber que apesar de diferente dos demais, o dado não está exatamente fora da curva. Neste sentido, um modelo preditivo poderia facilmente inferir, com alta precisão, que uma queda de cerca de 9% no índice da Bolsa representaria uma queda de cerca de 15% no preço das ações da Petrobrás.

Em outro caso, ainda com dados do mercado financeiro de ações brasileiro, a ação da empresa Magazine Luiza teve valorização de 30,8% em um dia em que o índice da Bolsa subiu apenas 0,7%.

Em suma, esse dado, além de ser um ponto atípico, distante dos demais, representa também um ponto fora da curva. Veja o gráfico:

Informações das ações MGLU3

Este é um caso de outlier que pode prejudicar não apenas cálculos de estatística descritiva, como média e mediana, por exemplo, mas afeta também a calibração de modelos preditivos.

Encontrar os outliers utilizando métodos estatísticos

Uma maneira mais complexa, porém bastante precisa, de encontrar outliers em uma análise de dados é encontrar a distribuição estatística que mais se aproxima à distribuição dos dados e utilizar métodos estatísticos para detectar os pontos discrepantes.

O exemplo a seguir representa o histograma da conhecida métrica dos motoristas “quilômetros por litro”.

O dataset utilizado para este exemplo é um conjunto de dados público bastante explorado em testes estatísticos por cientistas de dados e estudantes.

O dataset é composto por dados extraídos da “Motor Trend US magazine” de 1974 e compreende diversos aspectos acerca da performance de 32 modelos de automóveis da época. Mais detalhes neste link.

O histograma é uma das principais e mais simples ferramentas gráficas para o analista de dados utilizar na compreensão do comportamento dos dados que está analisando.

No histograma abaixo a linha azul representa como seria a distribuição normal (gaussiana) baseada na média, desvio-padrão e tamanho da amostra, e está contraposta com o histograma em barras.

As linhas verticais vermelhas representam as unidades de desvio-padrão. Percebe-se que os carros com performance “outlier” para a época conseguiam fazer uma média maior que 14 quilômetros por litro, o que corresponde à mais de 2 desvios padrões em relação à média.

Distribuição normal do consumo por litros

Pela distribuição normal, os dados que estão a menos de duas vezes do desvio-padrão correspondem a 95% de todos os dados; os outliers representam, nesta análise 5%.

Outliers em processo de agrupamentos (clustering)

Neste vídeo em inglês (com legendas) apresentamos a identificação de outliers de modo visual a lúdica com bandeira a partir do processo de agrupamentos (clustering). Mais informações sobre clustering neste artigo específico sobre o tema.

Conclusões: o que fazer com os outliers?

Vimos ao longo deste artigo que é imprescindível dar atenção aos outliers, pois eles podem viesar toda a análise de dados. Porém, além de identificar, o que é preciso fazer para tratar os pontos fora da curva?

Existem diversas saídas, algumas delas são:

  • excluir as observações discrepantes da amostra de dados: quando o dado discrepante é fruto de um erro de input dos dados, então ele precisa ser removido da amostra;
  • realizar uma análise separada apenas com os outliers: esta abordagem é útil quando se quer investigar casos extremos, como alunos que só tiram notas boas, empresas que apresentam lucro mesmo em tempos de crise, casos de fraudes, entre outros.
  • utilizar métodos de clusterização para encontrar uma aproximação que corrige e dá um novo valor aos dados outliers: em casos de erros no input dos dados, ao invés de excluir e perder uma linha inteira de registros devido a uma única observação outlier, uma solução é utilizar algoritmos de clusterização que encontram o comportamento das observações mais próximas ao dado outlier e fazem inferência de qual seria o melhor valor aproximado.

Por fim, a principal conclusão sobre os outliers pode ser resumida da seguinte forma:

um dado outlier pode ser o que mais atrapalha sua análise, mas também pode ser exatamente aquilo que você está procurando.

Ainda, estratégias de tratamento de outliers podem ter um impacto direto em negócios reduzindo custos de manutenção de equipamentos industriais com análises preditivas e prescritivas – Ler mais (Vortx Manutenção 4.0).

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Natureza dos Dados e estruturação para Data Science

Natureza dos Dados e estruturação para Data Science

Em nossa jornada pelo Brasil como empreendedores de Advanced Analytics e Inteligência Artificial, notamos que uma das principais dificuldades dos clientes é a estruturação de projetos de data analytics e compreensão da informação (natureza dos dados) pelos times envolvidos.

Estruturar = Compartilhar informações

A estruturação de projetos de data analytics depende, obrigatoriamente, de um sólido e compartilhado conhecimento entre as equipes sobre as características dos dados que serão analisados, seja em qualquer setor ( veja alguns exemplos: Setores para Aplicar Análise Dados e Dados Necessários). Sem isso, há uma grande probabilidade de que a informação fique fragmentada em bancos de dados dispersos (chamamos de BANDO de dados), confusos e com baixo valor estratégico.

Portanto, acreditamos que:

Conceitos simplificados sobre a natureza dos dados tornam as ferramentas de análise mais fáceis, integráveis e tangíveis para os perfis não técnicos.

Na figura abaixo está um esquema do entendimento da Aquarela sobre a genética de dados, a gênesis ou o gênesis (como o primeiro livro da bíblia). Para chegarmos ao consenso deste modelo houve muita discussão, muita incoerência e muitas ideias. Porém, esse processo foi muito importante, pois embasa todos os outros processos dos projetos que desenvolvemos, sejam de análise de dados e estatística até a construção das ferramentas de IA para análise.

Natureza dos dados

Natureza de dados estruturados – Aquarela 2018

A natureza dos dados

Para completar (e explicar) a informação acima, segue um trecho de uma apresentação de nosso Diretor de Expansão Digital, Joni Hoppen, transmitida via Facebook pelo pessoal da Wegov no dia 5 de maio de 2017 em Florianópolis:

palestra Natureza de dados

No final do vídeo foi comentando sobre um problema típico nos escritórios: o sequestro do trabalho ou de processo de decisão pelo “Menino do Excel”. Aqui no sul chamamos tradicionalmente de “Piá do Excel ou “Guri do Excel”, escrevemos sobre ele no artigo Os dramas da implementação da cultura de Data Analytics – confira aqui.

Quem nunca foi sequestrado e teve que ficar esperando ele (Menino do Excel) aparecer para dar uma mão com uma fórmula mágica? Isso é um tema da área de gestão do conhecimento e será abordado futuramente.

Esperamos que estas informações, embora bastante introdutórias, possam ser úteis para todos aqueles que buscam desafiar seus conhecimentos sobre a realidade do mundo a partir de análises de dados. Caso você já está com o desafio de implementar um projeto de Data Analytics, elaboramos um infográfico com 5 passos para um projeto de sucesso, aqui.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor