Como os modelos estatísticos se aplicam no Machine Learning

Como os modelos estatísticos se aplicam no Machine Learning

Alguns avanços tecnológicos integram a nossa rotina de uma maneira tão silenciosa e sutil que muitas vezes não identificamos e muito menos somos capazes de entender a lógica envolvida neles. Esse é o caso do Machine Learning (aprendizagem de máquinas), que utiliza meios estatísticos para tornar possível a execução de tarefas de forma otimizada e com o mínimo de interação humana possível.

Por meio de modelos estatísticos, os algoritmos são capazes de aprender a partir de diversas bases de dados e do acúmulo de experiência, possibilitando assim que esses padrões tornem-se um aprendizado que possa automatizar ou prever futuras ações sem a necessidade de serem reprogramadas para tal tarefa. Desse modo, possibilitam tomadas de decisões mais precisas e inteligentes.

Mas como isso acontece? É por conta da matemática envolvida nos processos de aprendizagem dessas máquinas, ou seja, da estatística, que nada mais é do que o ramo da matemática que trata da coleta, da análise, da interpretação e da apresentação de massas de dados numéricos.

A matemática envolvida no machine learning

Para tornar possível toda otimização que vemos atualmente no Machine Learning, utilizam-se diversas técnicas estatísticas como base. Dentre elas, estão: 

  • Teste de hipóteses: É uma metodologia estatística que auxilia na tomada de decisões que permite rejeitar ou não uma hipótese estatística. Isso permite fazer testes por meio de uma amostra para termos evidências suficientes de determinada informação. A maioria das pessoas já ouviu falar dos termos falso positivo e falso negativo, que vêm dos tipos de erros identificáveis a partir do teste de hipóteses. São eles: o erro do tipo I (Falso positivo), que rejeita a hipótese quando ela é positiva; e o erro do tipo II (Falso negativo), que acontece quando ele não rejeita a hipótese quando na verdade ela é falsa. 
  • Distribuições probabilísticas: Esse mecanismo analisa o comportamento aleatório dos dados e identifica padrões dentro dessa aleatoriedade a fim de entender a natureza dessas informações. Uma das aplicações simples de distribuição probabilística seria, por exemplo, em um e-commerce. Por meio das análises periódicas de comportamento dos dados de compra dos clientes ao longo de um tempo determinado, seria possível calcular a probabilidade do fluxo de compras nos meses subsequentes. Esse método também pode ser aplicado na previsão do preço do dólar ou da gasolina, por exemplo.
  • Modelagem estatística: esse método relaciona variáveis aleatórias em forma de equações matemáticas a fim de entender qual a relação entre elas. Um exemplo é a regressão linear simples, que mostra como o comportamento de uma variável tem relação com o resultado de outra.
  • Intervalo de confiança: Por meio de uma amostra da população, utiliza-se o intervalo de confiança para estimar a confiabilidade da estimativa de um parâmetro de interesse. Ele é muito usado em pesquisas, onde é calculado para descrever o quão confiável são os dados daquele estudo.

O papel da estatística: aprendizados supervisionados e não supervisionados

Dentre as diversas técnicas estatísticas, é possível estabelecer dois tipos de aprendizado: o supervisionado e o não supervisionado. No aprendizado supervisionado, nós sabemos quais são nossas variáveis dependentes e independentes. Assim, assim, os dados utilizados para o treinamento do modelo já contêm a resposta que desejamos. Já no aprendizado não supervisionado, a ideia é achar uma informação mais relevante dos dados que temos. Dessa maneira, o algoritmo se baseia em estruturas de similaridade, funcionando muito bem em dados transacionais.

Dependendo do modelo de aprendizado e do seu objetivo, o algoritmo de Machine Learning também será diferente. Confira alguns exemplos:

  • Aprendizado Supervisionado: Árvores de Classificação, Support Vector Machine (SVM), classificação (Regressão Logística, KNN-K vizinhos mais próximos), regressão (Regressão Linear, Splines, Árvores de Regressão, Redes Neurais);
  • Aprendizado Não Supervisionado: redução de dimensionalidade (Análise de Componentes Principais, Escalonamento Multidimensional), análise de agrupamento (K-médias, Métodos Hierárquicos), regras de associação, sistemas de recomendação.

Além disso, existem subcategorias dentro desses aprendizados que definem qual é o tipo de problema que você deseja lidar, sendo de regressão ou de classificação. Os modelos para problemas de regressão tentam prever valores numéricos específicos, podendo ser o preço de um produto ou a altura de uma pessoa. No problema de classificação, o modelo tenta identificar a classe que mais se adequa dentro das que já existem. Por exemplo, identificar o humor de um usuário por meio de comentários. 

As diferentes aplicações dos modelos de machine learning

Com o avanço tecnológico, lidamos com esse tipo de inteligência nas formas mais habituais do nosso cotidiano e muitas vezes isso passa despercebido. Alguns exemplos mais comuns são:

  • resultados de pesquisa nos buscadores;
  • filtragem de spams;
  • sistema de recomendações (filmes, livros, músicas, conexões em redes sociais, etc);
  • reconhecimento de voz e facial;
  • automação residencial;
  • previsão de falhas em equipamentos;
  • análise de sentimentos baseada em textos;
  • pontuação de crédito;
  • predições da Bolsa de Valores.

Leia também: Onde grandes empresas utilizam Inteligência Artificial.

Dentre esses exemplos mais conhecidos e que estão presentes na realidade de diversas pessoas, podemos citar os sistemas de recomendações para ilustrar melhor o funcionamento da estatística dentro desse modelo de machine learning. 

Quando entramos pela primeira vez em algum sistema de streaming, como: Netflix, Disney Plus, o aplicativo começa imediatamente a coletar dados de acordo com a nossa interação com a ferramenta. Por meio da análise e modelagem desses dados, utilizando as técnicas estatísticas citadas anteriormente, o mecanismo os lê de forma inteligente a fim de oferecer ao usuário recomendações de filmes e séries que farão sentido para o seu gosto pessoal. A partir disso, esse indivíduo é inserido em um grupo de similaridade para que as mesmas recomendações sejam feitas para outras pessoas que se assemelham com as características daquele perfil. 

Esse tipo de personalização na entrega, que só é possível por conta da matemática por trás do aprendizado de máquinas, melhora a experiência do usuário, deixando, assim, o aplicativo em evidência quando se trata de competitividade de mercado e também se adequa ao consumidor atual, que busca cada vez mais esse tipo de troca mais pessoal com as ferramentas do seu dia a dia. 

Conclusões – Machine Learning

É perceptível que machine learning nada mais é do que pura estatística e, por isso, é preciso muito estudo e análise de dados para garantir o seu avanço e eficiência. Muito do que vemos atualmente era visto como impossível há alguns anos, mas a lógica matemática permite cada vez mais que as tecnologias cresçam e facilitem a vida dos seus usuários.   

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros.

Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor

Send this to a friend