O que o VORTX diz sobre o quadro de medalhas olímpicas?

O que o VORTX diz sobre o quadro de medalhas olímpicas?

Olá pessoal,

Aproveitando o clima de olimpíadas no Brasil, resolvi fazer uma análise de agrupamentos com o VORTX sobre os dados consolidados das medalhas distribuídas em Londres. Bom, então vamos lá!

O que significam as medalhas?

Em todo projeto de análise de dados, a primeira etapa é sempre saber o que as coisas significam na realidade. Logo, do ponto de vista do esporte, cada medalha significa muita coisa, vejamos alguns exemplos:

  • Reconhecimento pelo esforço e disciplina pessoal;
  • Resultado da organização e investimento dos países em cada modalidade (disciplina regional);
  • Marcos históricos;
  • Ranking de qualidade e etc.

Bom, esses foram apenas alguns exemplos de muita coisa atrelada ao evento. Para um analista de dados, o quadro de medalhas pode significar:

Um índice composto de centenas de sub-indicadores sociais apresentado na forma de ranking quantitativo dos países.

Os dados utilizados

Coletei o quadro de medalhas olímpicas distribuídas em Londres disponível na Wikipedia, não levando em consideração países com “0” medalhas. Para a análise, cada linha é um país.

  • Primeira coluna, nome do país;
  • Segunda coluna, número de medalhas de ouro;
  • Terceira coluna, número de medalhas de prata;
  • Quarta coluna, número de medalhas de bronze;
  • Removido a coluna total de medalhas.

Obs. Mas por que remover o total de medalhas por país? É simples, este é um indicador composto da soma de todas as medalhas e como queremos descobrir padrões que existem entre a distribuição de medalhas, precisamos deixar o modelo homogeneizado. Esse é um erro bastante comum nas práticas de processamento de dados que resulta em análises com baixa confiança, pois os algoritmos processam tudo, se entrar coisa errada, saí coisa errada. Usando uma metáfora, colocar os dados totais em uma análise é como se o cozinheiro jogasse a colher dentro da máquina de triturar, o resultado vai ser misturado e influenciado.

Perguntas, processamento e repostas

Vamos utilizar o Aquarela VORTX Big Data para descobrir o comportamento de distribuição das medalhas olímpicas.

  1. Quantos grupos de países parecidos em termos de desempenho existem, como são caracterizados e o quanto representam proporcionalmente?

No total formam 5 grupos distintos de países com a seguintes proporções:

As características do primeiro grupo são apresentadas em um gráfico de frequência, enquanto mais alto o gráfico, maior é o número de países com o valor do eixo X. Em uma breve interpretação, no grupo 1 são muito poucos os países 16 medalhas (ouro, prata ou bronze).

Abaixo está uma tabela de sumarização dos resultados com os demais grupos. Procure as diferenças nos resultados e pense em qual nome daria para cada grupo.

Eu diria que o grupo 1 é formado por países de baixa performance, e o grupo 3 de alta. Dar nome aos grupos é o trabalho do analista, o algoritmo já fez o mais complicado que é separar e organizar toda a coisa olhando para todos os fatores.

  1. Qual o grau de confiança do padrão encontrado?

Estes dados apresentem uma nitidez de 96,04% o que é muito alto e significa que os grupos estão de fato muito bem segmentados.

  1. Qual é um resultado típico ou comum nas olimpíadas?

Sendo o grupo 1 o maior grupo, que equivale a 91,76% dos países que receberam medalhas, é possível afirmar que tipicamente os países recebem até duas medalhas. Do contrário, não é típico um país receber mais de 20 medalhas.

  1. Quais países têm características mais distintas da maioria?

Comparando os resultados de distinção dos grupos gerados pelos VORTX, podemos afirmar que os grupos 3 e 4 são os grupos países mais diferentes ou diferenciados.

Grupo 1 – 83,28%
Grupo 2 – 79,31%
Grupo 3 – 100%
Grupo 4 – 100%
Grupo 5 – 84,73%

  1. É possível prever os resultados das olimpíadas do Rio 2016 com base do padrão dos grupos?

A identificação dos agrupamentos, dá o ponta pé inicial das análises, organizando e estruturando o raciocínio lógico, porém a assertividade dos modelos de predição dependem de vários fatores, dentre eles:

  • a quantidade de dados sendo analisados (neste caso são poucos), quanto mais dados, melhor.
  • mudanças estruturais no quadro de medalhas, como por exemplo adição ou remoção de novos esportes.
  • Influência política ou os casos de doping que afastaram diversos atletas.

Conclusões e Reflexões

Bom pessoal, os resultados fazem sentido para vocês? Vejam que exercício foi feito com dados relativamente simples de 3 colunas onde já é possível descobrir coisas interessantes. Agora, o que realmente importa em relação a utilização de algoritmos de agrupamento para resolver resultados práticos em outras áreas? Abaixo seguem algumas ideias:

  • Seria interessante saber quais os problemas típicos e o grau de homogeneidade das turmas escolares ou tratamentos hospitalares?
  • Seria estratégico descobrir quais alunos ou pacientes são muito diferentes do comum e demandam atendimento especial?
  • Seria interessante saber quais as características predominantes de equipamentos que mais quebram? Isso reduziria o custo de operação?
  • Quando temos 3 colunas como o caso das medalhas é fácil encontrar o padrão no olho, certo? E se forem 2 milhões de linhas e 20 colunas, como você encontraria o tipo de venda que traz o melhor retorno sobre investimento?
  • Quais são as características dos usuários que fraudam o seguro? Qual é o corte ideal de idade por região, gênero e escolaridade? E quanto esses grupos representam de prejuízo?

É isso pessoal. Obrigado pela atenção, vamos em frente! Que há muito dado para se processar e muita gestão para melhorar, um forte abraço a todos.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

Inteligência Artificial para segmentação de perfis: O Titanic

Inteligência Artificial para segmentação de perfis: O Titanic

Neste Post tocaremos no assunto mais polêmico referente ao naufrágio do Titanic: A porta flutuante tinha espaço suficiente para Jack e Rose? (rs) Brincadeiras a parte, aqui abordaremos como o uso de Inteligência Artificial pode ajudar a descobrir os perfis de sobreviventes da tragédia de 1912. Para isso, separamos um dataset com informações das pessoas que embarcaram no Titanic.

Apesar da grande tragédia da viagem, os dados disponibilizados são muito ricos em detalhes, e por isso são amplamente utilizados nas comunidades de inteligência artificial, aprendizado de máquina e mineração de dados, uma vez que podem ser processados (passando por segmentação) por diversos tipos de algoritmos.

 Na conclusão deixamos algumas ideias de como essa abordagem inovadora pode otimizar e alavancar negócios.

Sumário dos dados

Segundo a Enciclopédia Titânica, o número correto de passageiros foi 2.208, dos quais 1496 morreram e 712 sobreviveram. Dos dados que tivemos acesso, os números são os seguintes:

  • 1309 pessoas abordo, dos quais 500 sobreviveram (38%) e 809 (62%) morreram.
  • Média de idade estimada 29,88 anos.
  • 466 mulheres, das quais 127 morreram e 339 sobreviveram.
  • 843 homens, dos quais 682 morreram e 161 sobreviveram.
  • O preço médio da passagem foi de £53,65 libras para o feminino e £76.60 para masculino.

Para mais detalhes desses dados, sugirimos a consulta no Google pelo seguinte termo de busca : Titanic Dataset.

Fatores em análise

Infelizmente, 267 passageiros (20,39%) tiveram de ser excluídos da análise porque as idades não foram informadas. Além disso, dos 15 fatores apresentados no arquivo original, selecionamos apenas aqueles numéricos com pesos mais fortes calculados pelo VORTX. Normalmente classificamos fatores, variáveis ​​ou atributos de dados nas 3 seguintes categorias:

  • Protagonista – Fatores com forte influência positiva para gerar padrão de agrupamento com clareza (alto valor).
  • Antagonista – Fatores com ruído e/ou influência negativa aos padrões gerados pelo fator protagonista.
  • Coadjuvantes – Fatores que não desempenham um papel significativo na análise, mas podem enriquecer os resultados.

De acordo com o poder de influência, os protagonistas escolhidos para esta análise foram:

  • Idade do passageiro = 87,85%
  • Valor da passagem = 72,69%
  • Número de pais de crianças no navio = 71,69%
  • Número de irmãos ou cônjuges no navio = 72,42%

Nos primeiros processamentos do conjunto de dados, o fator “Gênero” que indica se o passageiro era homem ou mulher, tendiam a ter um papel antagonista à formação do grupo. Isso significa a ausência de um padrão para formar os grupos e o índice de nitidez dos dados cai de 30% para menos de 7%, justificando a remoção desse fator da análise.

Segmentação: Resultados com o VORTX

Após o processamento, o VORTX trouxe os seguintes indicadores, dos quais não são oferecidos por outros algoritmos de agrupamento, portanto, explicamos brevemente cada um deles:

  • Nitidez (Sharpness) = 33,64%. Ele mostra a visibilidade do padrão nos dados ou o quão confiante a máquina está sobre a formação dos grupos. Segundo a nossa escala de qualidade, uma nitidez acima de 20% já é útil para a tomada de decisão.
  • Descoberta automática de segmentos (grupos) = 8. Esta é uma função que torna todo o processo muito mais fácil para o analista de dados. Ao contrário de k-means e outros algoritmos conhecidos, VORTX encontra o número certo (ideal) de grupos automaticamente, reduzindo drasticamente os erros de segmentação que acontecem quando o analista informa um determinado número não condizente a realidade. Ex. Imagine que todos os elementos são amarelos e você manda segmentar em 5? O resultado será 5 grupos amarelos. Ao contrário também é possível, existem 5 grupos sendo um de cada cor e você manda o algoritmo separar todos em 3 grupos. Resultado, haverão elementos de cores diferentes dentro do mesmo grupo.
  • Distinção dos grupos = O quão único é um grupo em relação a todos os demais. Neste caso, o mais distinto é o número 5 com 51,48% (cor mais escura) em contra partida, o grupo menos distinto é o 1 com 8,58%. Isto significa que os elementos do grupo 5 tendem a ser mais homogêneos do que os outros grupos.

Tela do VORTX Big Data

Ao analisar os grupos, adicionando a coluna que indica a sobrevivência ou não do passageiro após o evento, foi possível gerar a taxa de sobrevivência de cada grupo e a tarifa média de bilhetes por grupo. Em uma visualização rápida e sumarizada, aqueles que têm as características do grupo 5 ou 7 têm mais chances de sobreviver ao naufrágio.

Indicadores gerados a partir da análise de grupo – Contagem de pessoas por grupo, taxa de sobrevivência, valor médio da passagem por grupo.

Nomeação de grupos

 Para operacionalizar uma estratégia de gestão em qualquer setor (saúde, indústria, varejo e etc) você precisa nomeá-los para estudar as características de cada grupo. Para isso, deve-se olhar para as características predominantes de cada grupo (persona).

Segue abaixo uma comparação visual, de apenas 4 grupos, com o fator “Idade”. Como este é um gráfico de frequência, quanto mais alto está a linha no gráfico maior é o número de passageiros com essa característica. Esses fatores podem ser facilmente estudados de forma interativa na VORTX DATASCOPE.

 Ainda, uma outra forma de entender as características do grupo é olhar diretamente  para os dados agrupados. Neste caso, eu tirei um screenshot dos dados do grupo 5, que tem os passageiros mais distintos e homogêneos do navio. A partir disso dá para dizer que esse grupo é dos jovens que viajam com toda a família de alta renda.

Conclusões e recomendações

O passageiro mais típico é uma pessoa jovem, com uma idade média de 21 anos e que pagou, em média, £26,35. Enquanto o passageiro outlierleia aqui o que são outliers e como tratá-los em uma análise de dados – é um indivíduo no grupo 8, que tinha 38 anos, pagou £ 7.775, estava viajando com ambos os pais e mais 4 irmãos.

Olhando para o caso (apenas mil registros) não é um número grande o suficiente para descobrir mais perfis. Contudo, se você tem milhões de transações e clientes a ferramenta poderá servir de instrumento chave para otimizar a gestão, reduzir custos e melhorar produtos para o seu público.

Agora, pense consigo com base no que você leu aqui:

  • Quem é o seu cliente mais típico?
  • Quais são as características de cada grupo de clientes?
  • Qual é o custo total ou receita por grupo?
  • Quais grupos representam 80% do seu custo ou receita?
  • Quais os grupos que você deseja abordar na sua estratégia, e quais não?
  • Quais são os fatores protagonistas, antagonistas que mais afetam a sua estratégia?
  • A persona (grupo) criado pelo VORTX coincide com a persona que você tem hoje? Agora é possível comparar e aperfeiçoar!

Esperamos que esse breve estudo seja interessante e útil para que você possa planejar suas grandes decisões (ou do seu negócio) utilizando inteligência computacional.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor