De modo geral, os gestores estão sempre limitados por 3 fatores: Tempo, Custo e Qualidade. O objetivo aqui é mostrar como reduzir o tempo e o custo sem a perda significativa da qualidade. A diferença conceitual de amostragem de dados e de recorte de dados é fundamento e é um dos temas que sempre entra nas discussões dos projetos de análise de dados. Este assunto está relacionado ao tamanho da planilha (dataset) necessária para o processo de descoberta de padrões. Acreditem ou não, mas normalmente é difícil convencer algumas pessoas dos times de análise sobre a eficácia do uso das técnicas de amostragem de dados.

Neste artigo vamos demonstrar de uma forma bastante dinâmica como os padrões acontecem e se repetem dentro dos conjuntos de dados, mas para observá-los em diversos tamanhos de amostra é preciso estar atento a alguns detalhes em relação às técnicas de amostragem utilizadas.

Para quem este artigo é recomendado?

Este artigo deve ser lido por profissionais com as seguintes dores:

  • Pessoas em treinamento na área de análise de dados;
  • Têm muitos dados para analisar;
  • A infraestrutura é bastante complexa;
  • O custo de computação e de tempo são fatores que impactam na pressão arterial;
  • Não estão fazendo processos de mineração para captura de anomalias em dados;
  • Processos demorados de análise não estão trazendo nada além do óbvio.

Motivos para fazer a amostragem de dados

Dentre um grande número de motivos para gerar amostragens dos dados, abaixo apresentamos alguns que consideramos chaves:

  • Descobrir padrões de comportamento dos negócios o mais rápido possível;
  • Viabilizar a visualização dos dados visualização de dados com a infraestrutura existente (desenhar gráficos estatísticos pode ficar pesado a partir de 10 mil registros);
  • Permitir a elaboração e execução quase ilimitada de consultas exploratórias nos dados, com respostas ainda no mesmo dia;
  • Reduzir a necessidade (agonia) de comprar equipamentos caríssimos de processamento;
  • Simplificar a complexidade do ambiente de processamento.

Não confundir amostragem com recortes de dados

Os recortes de dados são filtros que simplificam o tamanho da base e ajudam no alinhamento dos objetivos da pesquisa, neste caso poderíamos filtrar os gráficos por bairro, por hospital ou mesmo por gênero, porém isso não é uma amostragem. Quando se aplica um filtro você altera a forma do conjunto de dados, já quando se faz uma amostragem de dados você está gerando uma miniatura do conjunto total, e é isso que geralmente é necessário para descobrir padrões.

Para não esquecer desse conceito, elaboramos uma demonstração de uma imagem da Ponte Hercílio Luz, aqui de Florianópolis. Na foto temos: ela na sua totalidade, uma amostragem (ou seja, uma miniatura da foto) e abaixo está um recorte. Neste caso, tanto o recorte quanto a amostragem ficaram menores que a foto original, ambas do mesmo tamanho mas a diferença é grande no objetivo. Vale notar que no recorte o principal, que era a ponte, foi perdido.

 

“Aquilo que não se repete possivelmente não é um padrão e possivelmente não faz parte do DNA dos dados”.

 

Demonstração do uso de técnicas de amostragem de dados

Para efeitos de demonstração do uso adequado de técnicas de amostragem, utilizamos uma base das consultas médicas na cidade de Vitória – ES, a qual já foi apresentada no artigo “Redução de faltas em agendamentos médicos com inteligência computacional: caso de Vitória-ES.”. Utilizando a plataforma VORTX, selecionamos uma base de 1 milhão de registros, selecionamos as colunas (idade e gênero) e recortamos valores de forma aleatória nos tamanhos 5 mil, 10 mil, 25 mil, 50 mil e 100 mil consultas, para que seja possível a formação do padrão em todas as quantidades.

Observe a imagem a seguir e procure enxergar os padrões comuns em qualquer uma das amostras feitas:

 

Padrões encontrados a partir de qualquer uma das amostragens

  • Nascem mais meninos do que meninas;
  • Nos primeiros anos de vida os meninos apresentam mais consultas médicas do que as meninas;
  • Após a puberdade as meninas, agora moças, começam a se consultar muito mais do que os rapazes, estes por sua vez sua vez entram no que chamamos de vale da imortalidade, retornando ao hospital somente anos depois;
  • Depois de idosos o comportamento de consultas se torna bastante parecido entre os gêneros;
  • Poucas pessoas se consultam após os 100 anos.

Conhecer profundamente os processos que geram os dados é algo fundamental para políticas públicas mais alinhadas aos perfis da população, pois ajuda a reconhecer se a amostragem é significativa ou não. Isso fica bem claro no comportamento da visita aos postos de saúde em função do gênero.

Conclusões e recomendações

Sabemos da enorme demanda por análise de dados no país e no mundo.  Também sabemos que existem conceitos sobre a natureza da informação que são difíceis de se assimilar. Mas isso é o que nos motiva a escrever!

O trabalho de definição dos recortes e das técnicas de amostragens faz parte da arte da Ciência de Dados. Podemos ver esse trabalho como arte, pois é algo que se ganha competência com a prática e pelo qual se cria gosto pelo processo. A utilização de ferramentas de boa qualidade também ajuda no processo, assim como um músico se beneficia de um bom instrumento ou um pintor de boas tintas. Durante esse processo, é muito importante se atentar para possíveis vieses na análise, uma palavra mal colocada por alguém envolvido pode, voluntária ou involuntariamente, ofuscar o real padrão dos dados que estão sendo coletados.  Por isso é muito importante ter bem claro a distinção entre estratégia de aleatorização dos dados e processo de recorte.

A inteligência artificial dos algoritmos pode reconhecer padrões, assim como as pessoas também reconhecem, como por exemplo a distância entre linhas e figuras em uma imagem ou o ritmo de uma música.Logo, se o processo de amostragem e de recortes não for bem elaborado, as chances de descobertas de insights de negócios caem exponencialmente, com ou sem inteligência artificial.  Assim como escutar uma orquestra tocando um pedaço de uma música sem todos instrumentos provavelmente não transmite a mesma qualidades da obra original.

Existem diversas técnicas de amostragem de dados no mundo estatístico. Aqui nos limitamos em gerar reflexões sobre suas importâncias e suas diferenças em relação aos recortes de dados, algo que notamos ser bastante confuso aos novos analistas.

  • Não é necessário processar todos os elementos do mundo para validar se uma hipótese é verdadeira ou não. Fuja desta ideia.
  • Os dados de Vitória são tão numerosos que podem gerar insights relativos à saúde pública do Brasil. Se compararmos o número de visitas aos postos de saúde em Vitória a sua experiência com postos de saúde, clínicas e hospitais ao longo de sua vida, os padrões serão semelhantes?
  • Os vendedores de infraestrutura vão sugerir que você processe tudo (este é um padrão). Isso se aplica muito bem para sistemas transacionais, mas não é o caso para  sistemas analíticos.

Então é isso pessoal, esperamos que essas dicas sejam valiosas no seu dia-a-dia. Caso quiser acompanhar nosso conteúdo exclusivo, assine nossa Newsletter aqui.

Forte abraço de toda a equipe da Aquarela Advanced Analytics!