O que é amostragem e como fazer o cálculo amostral

O que é amostragem e como fazer o cálculo amostral

A amostragem ronda o nosso cotidiano mesmo sem percebermos. Pois fazemos generalizações, criamos hipóteses e mensuramos diversas coisas em nossas vidas; desde interpretar se o clima do dia está mais quente/frio que o normal, até imaginar se um certo candidato está assumindo a ponta na opinião da população.

Acompanhe este artigo e entenda o que é amostragem e como fazer o cálculo amostral.

O que é população estatística e sua importância no contexto de amostragem?

População estatística é o conjunto de itens, pessoas ou elementos de forma geral que contém todas as informações disponíveis para fazer um determinado tipo de inferência.

A compreensão do conceito de população é muito importante na definição do cálculo amostral.

Citando o exemplo de eleições, qual é a melhor maneira de identificarmos como está a intenção de votos em algum candidato?

Uma resposta genérica seria dizer: basta conversarmos com a população votante inteira. Mas, pensando apenas em alguns segundos, chegaremos a conclusão que esta não deve ser uma tarefa lá muito fácil.

Então, como podemos tirar conclusões e assunções sobre algum tema de forma científica, com uma metodologia coerente e que traga resultados próximos do que realmente representa a população como um todo? É aí que a amostragem entra em jogo.

Atenção para não confundir amostragem com recorte de dados – Neste artigo falamos mais sobre esta questão.

O que é amostragem?

Amostragem é um processo que segue técnicas de escolher membros de uma população de forma que seja possível realizar inferências sobre toda a população. Ou seja, a amostragem permite concluir sobre o todo analisando apenas partes.

Buscando a racionalização de recursos, podemos gerar uma amostra que consiga representar o nosso conjunto de interesse. Para isso, temos de pensar em algumas questões importantes. Pois, o conceito de amostragem parte do princípio que queremos estudar características de indivíduos e populações.

Se tratando de uma amostra que busca representar uma população inteira, inerentemente teremos desvios da realidade, erros de medida e outras imperfeições; isto muito por conta do acaso.

Ao tentarmos estimar o hábito de se exercitar entre os brasileiros, por exemplo, a nossa amostra poderá sofrer desvios caso tenhamos selecionado mais idosos que jovens, mais crianças do que adultos, de uma certa região para outra, e assim por diante. Logo, podemos entrar em alguns conceitos importantes:

Principais conceitos

  • Margem de erro – É a diferença entre a média encontrada na amostra para a média da população.
    Dentro do cálculo de amostragem, a margem de erro entra como um dos parâmetros a serem inseridos. Logo, podemos perceber uma relação inversamente proporcional entre a margem de erro e o tamanho da amostra: quanto menor for a margem de erro máxima desejada, maior terá de ser a amostra.
  • Aleatoriedade – Para termos os resultados mais próximos da verdadeira população, a seleção da nossa amostra deve ser totalmente aleatória. Porém, como garantir uma perfeita aleatoriedade?
    Talvez seja um assunto para um outro momento. Porém, o que podemos imaginar é que, quanto menos presa a nossa amostra for a um determinado grupo ou categoria, melhor a nossa amostra representará a população como um todo.
  • População – População, em termos estatísticos, nada mais é do que a totalidade dos fatores que queremos analisar. Seja o total de pessoas que moram na região do nosso interesse, seja o total de organismos que vivem em determinado ecossistema.
  • Grau de confiança – O termo confiança, dentro das técnicas de amostragem, significa o quanto estamos dispostos a abrir mão de “certeza” para termos uma amostra mais eficiente.
    Podemos pensar em confiança como um intervalo de probabilidades, onde, quanto maior for o grau de confiança estabelecido, maior será o intervalo de resultados possíveis dentro de uma amostra. Assim, Delimitamos esse intervalo em desvios padrões, ou seja, o quanto a nossa amostra poderá se desviar da verdadeira média da população, com um determinado grau de confiança.

Como se calcula o tamanho da sua amostra?

Tendo visto todos esses conceitos, podemos estimar uma amostra eficiente para mensurarmos o estudo do nosso interesse.  Deste modo, a equação abaixo mostra a forma manual de se calcular o tamanho da amostra:

equação calculo amostral
equação cálculo amostral

sendo;

z = grau de confiança em desvios padrões

e = margem de erro escolhida

N = tamanho da população

p = Na calculadora, ela é uma constante igual a 0,5

Calculadora de amostragem

Para facilitarmos esse processo, desenvolvemos uma calculadora, onde basta você adicionar os parâmetros citados que você obterá um tamanho de amostra para a sua pesquisa.

Exercício de fixação

De maneira bem prática, responda às seguintes questões:

  1. Qual seria o tamanho da amostra para uma pesquisa dos alunos de uma turma de 30 pessoas?
  2. Qual o tamanho da amostra para uma pesquisa na sua cidade?
  3. Quão grande é o tamanho da amostra para uma pesquisa no Brasil?

Obs. Veja como se comporta o crescimento da amostra quando os valores da população aumentam.

O papel da amostragem em Advanced Analytics

As técnicas de amostragem vêm se tornando cada vez mais importantes no mundo da ciência de dados (o que é a ciência de dados e Data Analytics?). Pois, buscamos conhecer o comportamento e características de um certo conjunto de pessoas, objetos, entre outras coisas.

Muitas das técnicas de Machine Learning utilizam amostras, que seriam pedaços de um determinado dataset para “treinar” a máquina, que será alimentada com diversas amostras ao longo do tempo, verificando o quanto a máquina consegue ajustar os padrões obtidos em dados reais, da população.

Processar todos os dados do banco de dados para fazer uma análise é o mesmo que retirar todo o sangue do indivíduo para fazer o teste de sangue. -Joni Hoppen, 2018

Na indústria 4.0

No contexto da indústria 4.0, garantir a obtenção de uma amostra representativa é fundamental para se obter bons resultados com uso da Inteligência Artificial e da Inteligência Coletiva, tanto na qualidade do aprendizado quanto na viabilidade do projeto ou produto.

Algoritmos de Inteligência Artificial geralmente consomem muito processamento. Como resultado, muitos iniciantes acabam por gastar muito dinheiro em processamento na nuvem e igualmente muito tempo, por processarem muitas vezes toda a população em seus experimentos, ou ainda recortes que injetam viés no aprendizado.

Assim, dosar o quão significativa é uma amostra vis-à-viz as taxas de acurácia do modelo é instrumental na obtenção de resultados com melhor custo benefício.

Conclusões

Técnicas de amostragem que antes eram utilizadas apenas entre cientistas em laboratórios, podem agora ser utilizadas para resolver problemas complexos dentro das empresas e instituições.

Por meio do uso de estatística e IA, se torna possível criam novos negócios, produtos e serviços, gerando maior valor para nossa sociedade. Logo, o correto entendimento das bases conceituais estatísticas são fundamentais.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

13 dicas para tornar suas tabelas Excel MUITO mais apresentáveis

13 dicas para tornar suas tabelas Excel MUITO mais apresentáveis


A área de da ciência de dados está ligada a um processo intenso de comunicação, como já escrevemos neste post, sobre o perfil do cientista de dados na visão da Aquarela.

Portanto, saber comunicar informações importantes (e, em muitos casos, bastante abstratas) de modo direto e atrativo é uma das habilidades que os melhores cientistas de dados exercitam diariamente. 

O objetivo deste artigo é mostrar que; a forma como você apresenta uma tabela Excel, por mais simples que seja, pode impactar diretamente o seu público (seja ele seu chefe, cliente, equipe, etc). Portanto, visualização de dados é muito mais do que apenas a visualização de gráficos.

Menos é Muito Mais

Por muito tempo, o senso estético e a análise de dados caminharam afastados. Porém, com a democratização do acesso à informação e o crescente interesse do mercado por analytics, o “sex appeal” da visualização de dados foi colocado em cheque por diversas vertentes de trabalho, como por exemplo o jornalismo de dados.

Neste caminho, hoje temos uma realidade onde os dados legíveis são mais importantes do que apenas dados. Ler informação nem sempre significa entendimento, porque a compreensão do leitor sempre depende da forma de comunicação utilizada.

Aqui é importante salientar que:

“Visualização de dados não é apenas a geração de gráficos e painéis (dashboards), é algo que abrange também todas as interfaces visíveis dos dados aos diversos tipos de usuários. Alguns visualizam dados em modo texto, por exemplo, e são muito eficientes.” – Joni Hoppen, 2017

Visualmente falando, em muitos casos, menos significa mais. Comunicação significa tornar algum conhecimento comum.

Demonstração no Excel: Dados ou informação?

Nas figuras a seguir apresentamos duas imagens da mesma tabela (conjunto de dados) para demonstrar o contraste entre o design das duas. A primeira é um tipo bastante comum de planilha do Excel, criada sem uma estratégia coerente, e a segunda é resultado da aplicação das 13 dicas que citamos aqui.

tipo genérico de tabela que não foi feita com conceitos de design de dados em mente.
Resultado da aplicação de conceitos de design de dados sobre a tabela

Fica uma pergunta ao leitor: Qual das imagens apresenta mais dados e qual apresenta mais informação?

Níveis de informação e maturidade

Uma empresa com alto nível de maturidade em data analytics apresenta visualizações de dados em diferentes níveis de granularidade de acordo com cada perfil, garantindo que decisões aconteçam no tempo certo pelas pessoas certas dentro de um fluxo coerente de trabalho.

“Uma informação bem comunicada reduz a ansiedade” – Richard Saul Wurman, 1989

Para ajudar nesse processo de melhorar a qualidade de análise de dados, disponibilizamos alguns materiais de apoio, como nosso E-book sobre introdução a cultura de data analytics, aonde mostramos como você pode quebrar as barreiras no processo de adoção de uma cultura de dados. Baixe agora e descubra como fazer parte da revolução do analytics!

Alguns exemplos:

  • Técnicos de operação: Os técnicos que estão atendendo fisicamente os clientes nos diversos bairros da cidade precisam apenas das informações do agendamento e que estas caibam na tela do celular.
  • Especialistas de Infraestrutura: Os analistas de bancos de dados precisam de acesso em modo texto aos bancos de dados e a forma como são concatenados às tabelas em texto é muito importante para entender a estrutura das tabelas de forma não sumarizada (dados brutos).
  • Gestor: Os gestores necessitam de relatórios de alto nível e já sumarizados (the Big Picture) com as informações mais relevantes e que possam ser consumidas no menor tempo.

Mais informações sobre níveis de informação neste artigo: Dos Dados à Inovação

Como fazer na prática?

Legal, quero melhorar minha comunicação de dados, mas tenho tenho zero conhecimento de design. Não sei a diferença de CMKY e RGB, muito menos usar o photoshop, como posso melhorar a minha visualização de dados?

Calma! Agora vem a parte legal!

Inspirado no autor Joey Cherdarchuk, fizemos uma versão brasileira (Herbert Richers) com algumas melhorias, baseadas em nossa experiência como instrutores de Data Analytics na Aquarela, para que você possa utilizar rapidamente estas dicas e apresentar os resultados de suas análises de forma muito mais profissional e impactante. Basta seguir alguns destes 13 passos a seguir:

Notem que o fundamental aqui é a utilização dos conceitos de design aplicado a uma tabela, e não necessariamente das funcionalidades da ferramenta, pois ferramentas como o Excel, o Google Sheet ou o LibreOffice sem uma estratégia são apenas ferramentas.

Nesta linha o autor Joey Cherdarchuk vai mais além dizendo que os dados são melhores apresentados quando ficam pelados:

“Data looks better naked” – Joey Cherdarchuk, 2013

Para te ajudar a entender melhor como essa “mágica” visual aconteceu, disponibilizamos para download a tabela do exemplo, assim você possa replicar as ideias em suas próximas interações com o excel, clique na imagem abaixo e faça o download!

Gostou?

Para mais informações, recomendamos um estudo da teoria Gestalt, que traz a ideia de incorporação dos espaços vazios como elementos do desenho, uma teoria tão interessante (ponto de vista do Joni) que pode ser aplicada no planejamento pessoal, organização da casa, processos de urbanização e etc.

Recomendamos também o livro Information Anxiety, do autor Richard Saul Wurman, um dos criados dos famosos TED talks. Nesse livro ele transmite um apanhado geral do que fazer quando a informação não te diz o que você precisa saber.

Outros temas analíticos que vão ao encontro da visualização de dados são:

  • Design de Indicadores;
  • Design de Informação;
  • Visualização de dados;
  • Técnicas de apresentação.

Esperamos que essas informações sejam úteis no seu dia a dia e que possam de fato gerar mudanças na sua estratégia de trabalho com dados e que isso gere de decisões de melhor qualidade, pois vivemos num país que precisa urgente de melhores decisões em todos os níveis.

Continuem atentos às novas publicações, fiquem à vontade para comentar abaixo e não esqueçam de compartilhar essas informações com seus amigos pois:

“A cultura de Data Analytics só cresce quando compartilhada.” – Joni Hoppen, 2017

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Outliers, o que são e como tratá-los em uma análise de dados?

Outliers, o que são e como tratá-los em uma análise de dados?

Os outliers são dados que se diferenciam drasticamente de todos os outros. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.

Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:

  1. os outliers podem viesar negativamente todo o resultado de uma análise;
  2. o comportamento dos outliers pode ser justamente o que está sendo procurado.

Os outliers presentes em datasets  (o que são datasets) possuem diversos outros nomes, como:

  • dados discrepantes;
  • pontos fora da curva; (o que é curva normal?)
  • observações fora do comum;
  • anomalias;
  • valores atípicos;
  • entre outros.

A seguir, elencamos algumas situações comuns em que os outliers surgem na análise de dados e apontamos sugestões de como lidar com eles em cada caso.

Como identificar quais são os dados outliers?

Existem diversas formas de encontrar outliers, aqui citamos algumas delas.

Encontrar os outliers utilizando tabelas

A forma mais simples de encontrar dados outliers é olhar diretamente para a tabela ou planilha de dados – o dataset como chamam os cientistas de dados.

O caso da tabela a seguir exemplifica claramente um erro de digitação, ou seja, de input dos dados. Logo, o campo da idade do indivíduo “Antônio Silveira” certamente não representa a idade de 470 anos.

Olhando para a tabela é possível identificar o outlier, mas fica difícil afirmar qual seria a idade correta. Existem várias possibilidades que podem se referir a idade certa, como: 47, 70 ou ainda 40 anos.

Em uma pequena amostra, a tarefa de encontrar outliers com o uso de tabelas pode ser fácil. Porém, quando a quantidade de observações (linhas) passa para a casa dos milhares ou milhões fica impossível de encontrar quais são os dados que destoam do geral.

Portanto, a tarefa de identificar anomalias pode se tornar difícil, principalmente quando mais variáveis (mais as colunas) são envolvidas. Para isso existem outros métodos.

Encontrar os outliers utilizando gráficos

Uma das melhores formas de identificar dados outliers é utilizando gráficos. Pois, ao plotar um gráfico o analista consegue claramente perceber que existe algo diferente.

Veja a seguir alguns cases que exemplificam a visualização de outliers com gráficos.

Case: outliers no sistema de saúde brasileiro

Em um estudo já publicado em nosso blog analisamos os fatores que levam as pessoas a não comparecem em consultas agendadas no sistema público de saúde da cidade de Vitória/ES.

No dataset, diversos padrões foram encontrados, como por exemplo: crianças praticamente não faltam às consultas; e mulheres comparecem muito mais às consultas do que os homens.

Porém, um caso curioso foi o de uma senhora “outlier”, que com 79 anos agendou uma consulta com 365 dias de antecedência e de fato compareceu à consulta.

Este é um caso, por exemplo, de um dado outlier que merece ser estudado, pois o comportamento dessa senhora pode trazer informações relevantes de medidas que podem ser adotadas para aumentar a taxa de assiduidade nos agendamentos.

Veja o caso no gráfico a seguir.

Identificação de um outlier com agendamento médico superior a 360 dias e com positivo para o comparecimento.
Agendamentos médicos na cidade de Vitória-ES

Case: outliers no mercado financeiro brasileiro

No dia 17 de maio de 2017 as ações da Petrobrás caíram 15,8% e o índice da bolsa (IBOVESPA) teve uma queda de 8,8% em um único dia. Neste caso, a maioria das ações da bolsa brasileira viram seu preço despencar neste dia.

Essa forte variação negativa teve como principal motivação a delação de Joesley Batista, um dos eventos políticos mais impactantes que aconteceram no primeiro semestre de 2017.

Esse caso representa um outlier para o analista que, por exemplo, deseja saber qual foi a média de retornos diários das ações da Petrobrás nos últimos 180 dias. Certamente o dia da delação de Joesley afetou fortemente a média para baixo.

Ao analisar o gráfico a seguir, mesmo diante de diversas observações, fica fácil identificar o ponto que destoa dos demais.

Posição das ações da PETR4

O dado do exemplo acima pode ser chamado de outlier, mas se levado ao pé da letra, não pode necessariamente ser considerado um “ponto fora da curva”. Portanto, a “curva” no gráfico acima, apesar de contra-intuitivo, é representada pela linha reta que corta os pontos.

Ainda pelo gráfico acima é possível perceber que apesar de diferente dos demais, o dado não está exatamente fora da curva. Neste sentido, um modelo preditivo poderia facilmente inferir, com alta precisão, que uma queda de cerca de 9% no índice da Bolsa representaria uma queda de cerca de 15% no preço das ações da Petrobrás.

Em outro caso, ainda com dados do mercado financeiro de ações brasileiro, a ação da empresa Magazine Luiza teve valorização de 30,8% em um dia em que o índice da Bolsa subiu apenas 0,7%.

Em suma, esse dado, além de ser um ponto atípico, distante dos demais, representa também um ponto fora da curva. Veja o gráfico:

Informações das ações MGLU3

Este é um caso de outlier que pode prejudicar não apenas cálculos de estatística descritiva, como média e mediana, por exemplo, mas afeta também a calibração de modelos preditivos.

Encontrar os outliers utilizando métodos estatísticos

Uma maneira mais complexa, porém bastante precisa, de encontrar outliers em uma análise de dados é encontrar a distribuição estatística que mais se aproxima à distribuição dos dados e utilizar métodos estatísticos para detectar os pontos discrepantes.

O exemplo a seguir representa o histograma da conhecida métrica dos motoristas “quilômetros por litro”.

O dataset utilizado para este exemplo é um conjunto de dados público bastante explorado em testes estatísticos por cientistas de dados e estudantes.

O dataset é composto por dados extraídos da “Motor Trend US magazine” de 1974 e compreende diversos aspectos acerca da performance de 32 modelos de automóveis da época. Mais detalhes neste link.

O histograma é uma das principais e mais simples ferramentas gráficas para o analista de dados utilizar na compreensão do comportamento dos dados que está analisando.

No histograma abaixo a linha azul representa como seria a distribuição normal (gaussiana) baseada na média, desvio-padrão e tamanho da amostra, e está contraposta com o histograma em barras.

As linhas verticais vermelhas representam as unidades de desvio-padrão. Percebe-se que os carros com performance “outlier” para a época conseguiam fazer uma média maior que 14 quilômetros por litro, o que corresponde à mais de 2 desvios padrões em relação à média.

Distribuição normal do consumo por litros

Pela distribuição normal, os dados que estão a menos de duas vezes do desvio-padrão correspondem a 95% de todos os dados; os outliers representam, nesta análise 5%.

Outliers em processo de agrupamentos (clustering)

Neste vídeo em inglês (com legendas) apresentamos a identificação de outliers de modo visual a lúdica com bandeira a partir do processo de agrupamentos (clustering). Mais informações sobre clustering neste artigo específico sobre o tema.

Conclusões: o que fazer com os outliers?

Vimos ao longo deste artigo que é imprescindível dar atenção aos outliers, pois eles podem viesar toda a análise de dados. Porém, além de identificar, o que é preciso fazer para tratar os pontos fora da curva?

Existem diversas saídas, algumas delas são:

  • excluir as observações discrepantes da amostra de dados: quando o dado discrepante é fruto de um erro de input dos dados, então ele precisa ser removido da amostra;
  • realizar uma análise separada apenas com os outliers: esta abordagem é útil quando se quer investigar casos extremos, como alunos que só tiram notas boas, empresas que apresentam lucro mesmo em tempos de crise, casos de fraudes, entre outros.
  • utilizar métodos de clusterização para encontrar uma aproximação que corrige e dá um novo valor aos dados outliers: em casos de erros no input dos dados, ao invés de excluir e perder uma linha inteira de registros devido a uma única observação outlier, uma solução é utilizar algoritmos de clusterização que encontram o comportamento das observações mais próximas ao dado outlier e fazem inferência de qual seria o melhor valor aproximado.

Por fim, a principal conclusão sobre os outliers pode ser resumida da seguinte forma:

um dado outlier pode ser o que mais atrapalha sua análise, mas também pode ser exatamente aquilo que você está procurando.

Ainda, estratégias de tratamento de outliers podem ter um impacto direto em negócios reduzindo custos de manutenção de equipamentos industriais com análises preditivas e prescritivas – Ler mais (Vortx Manutenção 4.0).

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Natureza dos Dados e estruturação para Data Science

Natureza dos Dados e estruturação para Data Science

Em nossa jornada pelo Brasil como empreendedores de Advanced Analytics e Inteligência Artificial, notamos que uma das principais dificuldades dos clientes é a estruturação de projetos de data analytics e compreensão da informação (natureza dos dados) pelos times envolvidos.

Estruturar = Compartilhar informações

A estruturação de projetos de data analytics depende, obrigatoriamente, de um sólido e compartilhado conhecimento entre as equipes sobre as características dos dados que serão analisados, seja em qualquer setor ( veja alguns exemplos: Setores para Aplicar Análise Dados e Dados Necessários). Sem isso, há uma grande probabilidade de que a informação fique fragmentada em bancos de dados dispersos (chamamos de BANDO de dados), confusos e com baixo valor estratégico.

Portanto, acreditamos que:

Conceitos simplificados sobre a natureza dos dados tornam as ferramentas de análise mais fáceis, integráveis e tangíveis para os perfis não técnicos.

Na figura abaixo está um esquema do entendimento da Aquarela sobre a genética de dados, a gênesis ou o gênesis (como o primeiro livro da bíblia). Para chegarmos ao consenso deste modelo houve muita discussão, muita incoerência e muitas ideias. Porém, esse processo foi muito importante, pois embasa todos os outros processos dos projetos que desenvolvemos, sejam de análise de dados e estatística até a construção das ferramentas de IA para análise.

Natureza dos dados

Natureza de dados estruturados – Aquarela 2018

A natureza dos dados

Para completar (e explicar) a informação acima, segue um trecho de uma apresentação de nosso Diretor de Expansão Digital, Joni Hoppen, transmitida via Facebook pelo pessoal da Wegov no dia 5 de maio de 2017 em Florianópolis:

palestra Natureza de dados

No final do vídeo foi comentando sobre um problema típico nos escritórios: o sequestro do trabalho ou de processo de decisão pelo “Menino do Excel”. Aqui no sul chamamos tradicionalmente de “Piá do Excel ou “Guri do Excel”, escrevemos sobre ele no artigo Os dramas da implementação da cultura de Data Analytics – confira aqui.

Quem nunca foi sequestrado e teve que ficar esperando ele (Menino do Excel) aparecer para dar uma mão com uma fórmula mágica? Isso é um tema da área de gestão do conhecimento e será abordado futuramente.

Esperamos que estas informações, embora bastante introdutórias, possam ser úteis para todos aqueles que buscam desafiar seus conhecimentos sobre a realidade do mundo a partir de análises de dados. Caso você já está com o desafio de implementar um projeto de Data Analytics, elaboramos um infográfico com 5 passos para um projeto de sucesso, aqui.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor

Como a estratégia de clusterização em Big Data otimiza negócios?

Como a estratégia de clusterização em Big Data otimiza negócios?

O conceito de clusterização, também chamado de clustering, agrupamentos, por análise de grupos é um tema recorrente na área de aprendizado de máquina e inteligência artificial, por isso criamos um vídeo tutorial que, em síntese, demonstra um problema de forma visual, um caso real e algumas conclusões.

Descrição do vídeo em português

Para facilitar a absorção do conceito, utilizamos um exemplo bastante visual. Assim, imagine que você tem em uma fábrica têxtil e quer produzir o maior número de bandeiras de todo os países conhecidos, algo em torno de 200 tipos com cores e formatos diferentes.

Interessa saber quais quais os padrões de cores e formatos para otimizar e organizar a linha de produção? Essa é a ideia, reduzir custos e tempo, mantendo qualidade e volume.

Figura 1. Representação dos dados brutos, sem detecção de padrões.

Um bom algoritmo de agrupamento deve ser capaz de identificar padrões nos dados como nós humanos conseguimos identificar visualmente bandeiras com características comuns, por terem os mesmos padrões, como são as bandeiras da Itália, Irlanda e México, no exemplo abaixo.

Podem existir padrões de cores, forma, figuras, etc. Um fator que diferencia algoritmos de clusterização para os de classificação é que estes não tem a informação do padrão junto com os dados, ou seja, ele deve descobrir automaticamente.

Figura 2 – Cluster zero (0) composto pelas bandeiras Itália, Irlanda e México.

Neste contexto, tão importante quanto identificar os grupos com indivíduos semelhantes são as identificações dos indivíduos que não se assemelham com nenhum outro. Os chamados outliers, que são as exceções, elementos únicos que não compartilham características com outros elementos.

Figura 3 – Cluster seis (6) composto pela bandeira do Nepal. Uma exceção.

Por fim, em um resultado final de clusterização, temos um número de 8 grupos formados pelas bandeiras que apresentam características semelhantes e indivíduos isolados, por serem ouliers.

Figura 4 – Clusters formados ao final do processamento.

Um dos fatores mais importantes de processamento de grupos é número de grupos onde os elementos serão alocados. Em muitos casos, temos observado resultados diferentes quando aplicamos os mesmos dados, nas mesmas condições de processamento e parametrização, em diferentes algoritmos.

sso é muito importante. Veja o que poderia ser o resultado de uma clusterização imprecisa.

bandeiras4

Figura 5: Clusters resultantes de um agrupamento impreciso.

A questão prática é:

Você investiria o seu dinheiro nisso?

Provavelmente não, e resolver esse problema é o desafio dos cientistas de dados. Na prática, já aplicamos em diversos segmentos, em um deles identificamos padrões da características dos pacientes que mais faltam às consultas médicas, gerando custos e ingerência em consultórios, clínicas e hospitais.

O resultado foi um surpreendente grupo com 50% dos dados analisados, o que merece realmente uma política específica para redução dos custos e impactos de operação.

O que pensariam os clientes que ficaram sem horário para consulta? Como não dar razão aos diretores financeiros destas organizações?

 Outras possíveis aplicações estão no post “14 setores para aplicação de Big Data e dados necessários para as análises”. no blog da Aquarela.

Conclusões

  • Nossa visão é muito poderosa para classificação de imagens como no caso das bandeiras.
  • É humanamente impossível fazer análises e correlações lógicas dos números de um grande banco de dados, para isso foram criados os algoritmos de clusterização.
  • A acurácia (exatidão) dos resultados de clusterização são fundamentais para a tomada de decisão de investimentos.
  • Diversos setores podem se beneficiar dessa abordagem de gestão.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores