Aquarela

Aquarela Analytics branco

O que é amostragem e como fazer o cálculo amostral

A amostragem ronda o nosso cotidiano mesmo sem percebermos. Pois fazemos generalizações, criamos hipóteses e mensuramos diversas coisas em nossas vidas; desde interpretar se o clima do dia está mais quente/frio que o normal, até imaginar se um certo candidato está assumindo a ponta na opinião da população.

Acompanhe este artigo e entenda o que é amostragem e como fazer o cálculo amostral.

O que é população estatística e sua importância no contexto de amostragem?

População estatística é o conjunto de itens, pessoas ou elementos de forma geral que contém todas as informações disponíveis para fazer um determinado tipo de inferência.

A compreensão do conceito de população é muito importante na definição do cálculo amostral.

Citando o exemplo de eleições, qual é a melhor maneira de identificarmos como está a intenção de votos em algum candidato?

Uma resposta genérica seria dizer: basta conversarmos com a população votante inteira. Mas, pensando apenas em alguns segundos, chegaremos a conclusão que esta não deve ser uma tarefa lá muito fácil.

Então, como podemos tirar conclusões e assunções sobre algum tema de forma científica, com uma metodologia coerente e que traga resultados próximos do que realmente representa a população como um todo? É aí que a amostragem entra em jogo.

Atenção para não confundir amostragem com recorte de dados – Neste artigo falamos mais sobre esta questão.

O que é amostragem?

Amostragem é um processo que segue técnicas de escolher membros de uma população de forma que seja possível realizar inferências sobre toda a população. Ou seja, a amostragem permite concluir sobre o todo analisando apenas partes.

Buscando a racionalização de recursos, podemos gerar uma amostra que consiga representar o nosso conjunto de interesse. Para isso, temos de pensar em algumas questões importantes. Pois, o conceito de amostragem parte do princípio que queremos estudar características de indivíduos e populações.

Se tratando de uma amostra que busca representar uma população inteira, inerentemente teremos desvios da realidade, erros de medida e outras imperfeições; isto muito por conta do acaso.

Ao tentarmos estimar o hábito de se exercitar entre os brasileiros, por exemplo, a nossa amostra poderá sofrer desvios caso tenhamos selecionado mais idosos que jovens, mais crianças do que adultos, de uma certa região para outra, e assim por diante. Logo, podemos entrar em alguns conceitos importantes:

Principais conceitos

  • Margem de erro – É a diferença entre a média encontrada na amostra para a média da população.
    Dentro do cálculo de amostragem, a margem de erro entra como um dos parâmetros a serem inseridos. Logo, podemos perceber uma relação inversamente proporcional entre a margem de erro e o tamanho da amostra: quanto menor for a margem de erro máxima desejada, maior terá de ser a amostra.
  • Aleatoriedade – Para termos os resultados mais próximos da verdadeira população, a seleção da nossa amostra deve ser totalmente aleatória. Porém, como garantir uma perfeita aleatoriedade?
    Talvez seja um assunto para um outro momento. Porém, o que podemos imaginar é que, quanto menos presa a nossa amostra for a um determinado grupo ou categoria, melhor a nossa amostra representará a população como um todo.
  • População – População, em termos estatísticos, nada mais é do que a totalidade dos fatores que queremos analisar. Seja o total de pessoas que moram na região do nosso interesse, seja o total de organismos que vivem em determinado ecossistema.
  • Grau de confiança – O termo confiança, dentro das técnicas de amostragem, significa o quanto estamos dispostos a abrir mão de “certeza” para termos uma amostra mais eficiente.
    Podemos pensar em confiança como um intervalo de probabilidades, onde, quanto maior for o grau de confiança estabelecido, maior será o intervalo de resultados possíveis dentro de uma amostra. Assim, Delimitamos esse intervalo em desvios padrões, ou seja, o quanto a nossa amostra poderá se desviar da verdadeira média da população, com um determinado grau de confiança.

Como se calcula o tamanho da sua amostra?

Tendo visto todos esses conceitos, podemos estimar uma amostra eficiente para mensurarmos o estudo do nosso interesse.  Deste modo, a equação abaixo mostra a forma manual de se calcular o tamanho da amostra:

equação calculo amostral
equação cálculo amostral

sendo;

z = grau de confiança em desvios padrões

e = margem de erro escolhida

N = tamanho da população

p = Na calculadora, ela é uma constante igual a 0,5

Calculadora de amostragem

Para facilitarmos esse processo, desenvolvemos uma calculadora, onde basta você adicionar os parâmetros citados que você obterá um tamanho de amostra para a sua pesquisa.

Exercício de fixação

De maneira bem prática, responda às seguintes questões:

  1. Qual seria o tamanho da amostra para uma pesquisa dos alunos de uma turma de 30 pessoas?
  2. Qual o tamanho da amostra para uma pesquisa na sua cidade?
  3. Quão grande é o tamanho da amostra para uma pesquisa no Brasil?

Obs. Veja como se comporta o crescimento da amostra quando os valores da população aumentam.

O papel da amostragem em Advanced Analytics

As técnicas de amostragem vêm se tornando cada vez mais importantes no mundo da ciência de dados (o que é a ciência de dados e Data Analytics?). Pois, buscamos conhecer o comportamento e características de um certo conjunto de pessoas, objetos, entre outras coisas.

Muitas das técnicas de Machine Learning utilizam amostras, que seriam pedaços de um determinado dataset para “treinar” a máquina, que será alimentada com diversas amostras ao longo do tempo, verificando o quanto a máquina consegue ajustar os padrões obtidos em dados reais, da população.

Processar todos os dados do banco de dados para fazer uma análise é o mesmo que retirar todo o sangue do indivíduo para fazer o teste de sangue. -Joni Hoppen, 2018

Na indústria 4.0

No contexto da indústria 4.0, garantir a obtenção de uma amostra representativa é fundamental para se obter bons resultados com uso da Inteligência Artificial e da Inteligência Coletiva, tanto na qualidade do aprendizado quanto na viabilidade do projeto ou produto.

Algoritmos de Inteligência Artificial geralmente consomem muito processamento. Como resultado, muitos iniciantes acabam por gastar muito dinheiro em processamento na nuvem e igualmente muito tempo, por processarem muitas vezes toda a população em seus experimentos, ou ainda recortes que injetam viés no aprendizado.

Assim, dosar o quão significativa é uma amostra vis-à-viz as taxas de acurácia do modelo é instrumental na obtenção de resultados com melhor custo benefício.

Conclusões

Técnicas de amostragem que antes eram utilizadas apenas entre cientistas em laboratórios, podem agora ser utilizadas para resolver problemas complexos dentro das empresas e instituições.

Por meio do uso de estatística e IA, se torna possível criam novos negócios, produtos e serviços, gerando maior valor para nossa sociedade. Logo, o correto entendimento das bases conceituais estatísticas são fundamentais.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial corporativa na indústria e em grandes empresas. Por meio da plataforma Vorteris, da metodologia DCM e o Canvas Analítico (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania, Mercedes-Benz, Grupo Randon (automotivo), SolarBR Coca-Cola (varejo alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Auren, SPIC Brasil (energia), Telefônica Vivo (telecomunicações), dentre outros.

Acompanhe os novos conteúdos da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

8 Comments

  1. Leonardo Maffei disse:

    onde posso encontrar a dedução da fórmula usada? Encontrei-a em outro site também, e uma midificação onde no lugar de N-1 era apenas N, e não sei qual a fundamentação teórica disso, nem fui capaz de encontrar tal explicação.

  2. Edmilson Domingues disse:

    Olá pessoal.
    Sei que o questionamento foge um pouco do tema, mas uma das perguntas que me faço, em estatística, é quanto aos critérios para utilização do Desvio-padrão em detrimento do Desvio Médio Absoluto e vice-versa. Vocês fazem esta distinção na prática ? Em que casos ?

    • Guilherme Viegas disse:

      Oi, Edmilson.
      Legal seu questionamento.
      Aqui na Aquarela já usamos essas duas medidas, embora o Desvio Padrão seja muito mais utilizado. Ambos o Desvio Padrão e o Desvio Médio Absoluto são medidas de variabilidade, mas o Desvio Padrão possui algumas propriedades que o tornam extremamente útil em modelos estocásticos para a criação de Intervalos de Confiança (Sugerimos pesquisar sobre Teorema Central do Limite, vai te clarear nesse caminho). Já o Desvio Médio Absoluto não possui as mesmas propriedades, servindo apenas como medida de variabilidade mesmo, podendo ser utilizado para se estimar o grau de acerto/erro de um modelo, por exemplo.
      Esperamos ter ajudado. Qualquer coisa posta aí nos comentários.
      Abraço e bons estudos 🙂

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Send this to a friend