A amostragem ronda o nosso cotidiano mesmo sem percebermos. Fazemos generalizações, criamos hipóteses e mensuramos diversas coisas em nossas vidas; desde interpretar se o clima do dia está mais quente/frio que o normal, até imaginar se um certo candidato está assumindo a ponta na opinião da população. Acompanhe este artigo e entenda o que é amostragem e como fazer o cálculo amostral.

O que é população estatística e sua importância no contexto de amostragem

População estatística é o conjunto de itens, pessoas ou elementos de forma geral que contém todas as informações disponíveis para fazer um determinado tipo de inferência.

A compreensão do conceito de população é muito importante na definição do cálculo amostral. Citando o exemplo de eleições, qual é a melhor maneira de identificarmos como está a intenção de votos em algum candidato? Uma resposta genérica seria dizer: basta conversarmos com a população votante inteira. Mas, pensando apenas em alguns segundos, chegaremos a conclusão que esta não deve ser uma tarefa lá muito fácil.

Então, como podemos tirar conclusões e assunções sobre algum tema de forma científica, com uma metodologia coerente e que traga resultados próximos do que realmente representa a população como um todo? É aí que a amostragem entra em jogo.

Atenção para não confundir amostragem com recorte de dados – Neste artigo falamos mais sobre esta questão.

O que é amostragem?

Amostragem é um processo que segue técnicas de escolher membros de uma população de forma que seja possível realizar inferências sobre toda a população; ou seja, a amostragem permite concluir sobre o todo analisando apenas partes.

O conceito de amostragem parte do princípio que queremos estudar características de indivíduos e populações. Buscando a racionalização de recursos, podemos gerar uma amostra que consiga representar o nosso conjunto de interesse. Para isso, temos de pensar em algumas questões importantes.

Se tratando de uma amostra que busca representar uma população inteira, inerentemente teremos desvios da realidade, erros de medida e outras imperfeições; isto muito por conta do acaso. Ao tentarmos estimar o hábito de se exercitar entre os brasileiros, por exemplo, a nossa amostra poderá sofrer desvios caso tenhamos selecionado mais idosos que jovens, mais crianças do que adultos, de uma certa região para outra, e assim por diante. Logo, podemos entrar em alguns conceitos importantes:

Principais conceitos

  • Margem de erro – É a diferença entre a média encontrada na amostra para a média da população. Dentro do cálculo de amostragem, a margem de erro entra como um dos parâmetros a serem inseridos. Podemos perceber uma relação inversamente proporcional entre a margem de erro e o tamanho da amostra: quanto menor for a margem de erro máxima desejada, maior terá de ser a amostra.
  • Aleatoriedade – Para termos os resultados mais próximos da verdadeira população, a seleção da nossa amostra deve ser totalmente aleatória. Como garantir uma perfeita aleatoriedade? Talvez seja um assunto para um outro momento. Porém, o que podemos imaginar é que, quanto menos presa a nossa amostra for a um determinado grupo ou categoria, melhor a nossa amostra representará a população como um todo.
  • População – Comentamos algumas vezes sobre população no post. População, em termos estatísticos, nada mais é do que a totalidade dos fatores que queremos analisar. Seja o total de pessoas que moram na região do nosso interesse, seja o total de organismos que vivem em determinado ecossistema.
  • Grau de confiança – O termo confiança, dentro das técnicas de amostragem, significa o quanto estamos dispostos a abrir mão de “certeza” para termos uma amostra mais eficiente. Podemos pensar em confiança como um intervalo de probabilidades, onde, quanto maior for o grau de confiança estabelecido, maior será o intervalo de resultados possíveis dentro de uma amostra. Delimitamos esse intervalo em desvios padrões, ou seja, o quanto a nossa amostra poderá se desviar da verdadeira média da população, com um determinado grau de confiança

Como se calcula o tamanho da sua amostra?

Tendo visto todos esses conceitos, podemos estimar uma amostra eficiente para mensurarmos o estudo do nosso interesse.  A equação abaixo mostra a forma manual de se calcular o tamanho da amostra:

equação calculo amostral

equação calculo amostral

sendo;

z = grau de confiança em desvios padrões;

e = margem de erro escolhida;

N = tamanho da população.

p = Na calculadora, ela é uma constante igual a 0,5

Calculadora de amostragem

Para facilitarmos esse processo, desenvolvemos uma calculadora, onde basta você adicionar os parâmetros citados que você obterá um tamanho de amostra para a sua pesquisa.

Exercício de fixação

De maneira bem prática, responda às seguintes questões:

  1. Qual seria o tamanho da amostra para uma pesquisa dos alunos de uma turma de 30 pessoas?
  2. Qual seria a o tamanho da amostra para uma pesquisa na sua cidade?
  3. Qual seria o tamanho da amostra para uma pesquisa no Brasil?

Obs. Veja como se comporta o crescimento da amostra quando os valores da população aumentam.

O papel da amostragem em Advanced Analytics

As técnicas de amostragem vêm se tornando cada vez mais importantes no mundo da ciência de dados (o que é a ciência de dados e Data Analytics?), já que buscamos conhecer o comportamento e características de um certo conjunto de pessoas, objetos, entre outras coisas. Muitas das técnicas de Machine Learning utilizam amostras, que seriam pedaços de um determinado dataset para “treinar” a máquina, que será alimentada com diversas amostras ao longo do tempo, verificando o quanto a máquina consegue ajustar os padrões obtidos em dados reais, da população.

Processar todos os dados do banco de dados para fazer uma análise é o mesmo que retirar todo o sangue do indivíduo para fazer o teste de sangue. -Joni Hoppen, 2018

No contexto da indústria 4.0, garantir a obtenção de uma amostra representativa é fundamental para se obter bons resultados com uso da Inteligência Artificial e da Inteligência Coletiva, tanto na qualidade do aprendizado quanto na viabilidade do projeto ou produto.

Algoritmos de Inteligência Artificial geralmente consomem muito processamento, e muitos iniciantes acabam por gastar muito dinheiro em processamento na nuvem e igualmente muito tempo, por processarem muitas vezes toda a população em seus experimentos, ou ainda recortes que injetam viés no aprendizado.

Assim, dosar o quão significativa é uma amostra vis-à-viz as taxas de acurácia do modelo é instrumental na obtenção de resultados com melhor custo benefício, voltaremos a esse tema em posts futuros.

Técnicas de amostragem que antes eram utilizadas apenas entre cientistas em laboratórios, podem agora ser utilizadas para resolver problemas complexos dentro das empresas e instituições. As quais, por meio do uso de estatística e IA, criam novos negócios, produtos e serviços, gerando maior valor para nossa sociedade.

Autores
Gabriel Dias
Cientista de dados na Aquarela. Graduando em Ciências Econômicas, presidente do Clube de Finanças da UDESC/ESAG. Interessado nas áreas de análise de dados, estatística, econometria, machine learning e IA.

Marcos Santos
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.

Wlademir Ribeiro Prates
Cientista de dados na Aquarela. Doutor e mestre em Administração, especialista em econometria financeira, finanças comportamentais, métodos quantitativos e mercado de capitais.

Joni Hoppen
Fundador da Aquarela, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação, focado em processos de rápida prototipação de Big Data Analytics e cultura de dados.

Informações para referenciação: Gostou do material? Caso queira enriquecer sua pesquisa ou relatório (seja blog post ou artigo acadêmico), referencie nosso conteúdo como: Aquarela 2018 - Inteligência Artificial para negócios (www.aquare.la).