O conceito de clusterização, também chamado de clustering, agrupamentos, por análise de grupos é um tema recorrente na área de aprendizado de máquina e inteligência artificial, por isso criamos um vídeo tutorial que, em síntese, demonstra um problema de forma visual, um caso real e algumas conclusões.

Descrição do vídeo em português

Para facilitar a absorção do conceito, utilizamos um exemplo bastante visual. Assim, imagine que você tem em uma fábrica têxtil e quer produzir o maior número de bandeiras de todo os países conhecidos, algo em torno de 200 tipos com cores e formatos diferentes.

Interessa saber quais quais os padrões de cores e formatos para otimizar e organizar a linha de produção? Essa é a ideia, reduzir custos e tempo, mantendo qualidade e volume.

Figura 1. Representação dos dados brutos, sem detecção de padrões.

Um bom algoritmo de agrupamento deve ser capaz de identificar padrões nos dados como nós humanos conseguimos identificar visualmente bandeiras com características comuns, por terem os mesmos padrões, como são as bandeiras da Itália, Irlanda e México, no exemplo abaixo.

Podem existir padrões de cores, forma, figuras, etc. Um fator que diferencia algoritmos de clusterização para os de classificação é que estes não tem a informação do padrão junto com os dados, ou seja, ele deve descobrir automaticamente.

Figura 2 – Cluster zero (0) composto pelas bandeiras Itália, Irlanda e México.

Neste contexto, tão importante quanto identificar os grupos com indivíduos semelhantes são as identificações dos indivíduos que não se assemelham com nenhum outro. Os chamados outliers, que são as exceções, elementos únicos que não compartilham características com outros elementos.

Figura 3 – Cluster seis (6) composto pela bandeira do Nepal. Uma exceção.

Por fim, em um resultado final de clusterização, temos um número de 8 grupos formados pelas bandeiras que apresentam características semelhantes e indivíduos isolados, por serem ouliers.

Figura 4 – Clusters formados ao final do processamento.

Um dos fatores mais importantes de processamento de grupos é número de grupos onde os elementos serão alocados. Em muitos casos, temos observado resultados diferentes quando aplicamos os mesmos dados, nas mesmas condições de processamento e parametrização, em diferentes algoritmos.

sso é muito importante. Veja o que poderia ser o resultado de uma clusterização imprecisa.

bandeiras4

Figura 5: Clusters resultantes de um agrupamento impreciso.

A questão prática é:

Você investiria o seu dinheiro nisso?

Provavelmente não, e resolver esse problema é o desafio dos cientistas de dados. Na prática, já aplicamos em diversos segmentos, em um deles identificamos padrões da características dos pacientes que mais faltam às consultas médicas, gerando custos e ingerência em consultórios, clínicas e hospitais.

O resultado foi um surpreendente grupo com 50% dos dados analisados, o que merece realmente uma política específica para redução dos custos e impactos de operação.

O que pensariam os clientes que ficaram sem horário para consulta? Como não dar razão aos diretores financeiros destas organizações?

 Outras possíveis aplicações estão no post “14 setores para aplicação de Big Data e dados necessários para as análises”. no blog da Aquarela.

Conclusões

  • Nossa visão é muito poderosa para classificação de imagens como no caso das bandeiras.
  • É humanamente impossível fazer análises e correlações lógicas dos números de um grande banco de dados, para isso foram criados os algoritmos de clusterização.
  • A acurácia (exatidão) dos resultados de clusterização são fundamentais para a tomada de decisão de investimentos.
  • Diversos setores podem se beneficiar dessa abordagem de gestão.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Share via
Send this to a friend