O que Sun Tzu ensina sobre Data Analytics Parte II

O que Sun Tzu ensina sobre Data Analytics Parte II

No post I, ver aqui, falamos sobre o quanto é importante o planejamento e se preparar para a nossa guerra contemporânea, que tem como objetivo a informação certa no menor prazo possível.

Nosso soldado data scientist  já tem consciência de ferramentas e possíveis estratégias para a batalha da análise de dados. Porém, o fato de ter apenas os métodos comprados e instalados na empresa nem sempre geram resultados, e por que isso acontece?

Disposição de Ferramentas

“7. Prever uma vitória que o homem comum pode prever não corresponde ao auge da habilidade.”

Sun Tzu falava da Disposição das Tropas, nós falamos da Disposição de Ferramentas. Descobrir o óbvio não agrega valor à empresa e é o principal ponto de atenção das equipes de analytics. A exceção a essa regra está nos casos onde análise tem o objetivo de testar um algoritmo ou abordagem e então saber se as ferramentas (metodologia + inteligência artificial) foram capazes de encontrar o que já se sabe e ir além.

Verificamos que a experiência dos analistas é um fator determinante no sucesso dos estudos de analytics. Isso se deve, principalmente, por prever erros estruturais nos fluxos de análise e a criatividade para desenvolver testes contra os algoritmos. Ainda, compará-los em diversas dimensões e eventualmente encontrar explicações esperadas de validação e no auge da habilidade, informações não previstas que geram oportunidades reais de melhoria.

Forças normais e extraordinárias

“5. Na batalha, valha-se da força normal para o combate e utilize a extraordinária para vencer.”

Existem forças normais que podemos usar para complementar as extraordinárias, é o exemplo das ferramentas livres e open source ou mesmo estratégias coerentes de indicadores (KPIs – Key Performance Indicators) já fazem uma diferença bastante grande no desempenho com impacto direto nos níveis de maturidade de analytics.

Agora dependendo do nível da competição, do timing e tamanho do mercado, utilizar ferramentas fechadas podem fazer a diferença do extraordinário, por isso, fique atendo a soluções fechadas disponibilizadas por APIs.

O preço da dúvida

“9. Na guerra, o perito age de maneira sutil e insubstancial, não deixa pistas; divinamente misterioso, é inaudível; torna-se, ele próprio, senhor do destino de seu inimigo.”

No mundo analytics, cases detalhados são raramente divulgados. Do que dá certo ou errado, cada um guarda para si, mais ou menos como no investimento em ações. Aparentemente, uma das formas mais plausíveis de se obter conhecimento real das tentativas e erros é pela incorporação e disseminação de processos de gestão do conhecimento e contratações estratégicas.   

Conclusão: Estratégias

“4. Na guerra, tanto a vantagem quanto o perigo são inerentes às manobras.”

Há uma expectativa bastante grande com relação a qualquer iniciativa de Data Analytics dentro das organizações e isto acontece independentemente do nível de maturidade de dados em que elas se encontram. O fato é que, para chegar a modelos preditivos realmente assertivos, o caminho é tortuoso e multidisciplinar. Por tanto, projetos com poucos recursos (horas de analistas, computadores parrudos, ferramentas de análise e capacitação) tendem a ter resultados coerentes com o investimento.  

Então é isso pessoal, espero que a analogia ajudou no entendimento e que gere valor no seu negócio. Um forte abraço de toda a equipe da Aquarela Advanced Analytics.

Gostou da leitura? Tem muito mais da onde veio este post, inscreva-se em nossa Newsletter e não perca nossos conteúdos!

Fiquem ligados em nossas redes sociais:

Facebook, Twitter, Linkedin

*SUN TZU. A Arte Da Guerra – por uma estratégia perfeita. São Paulo: Madras Editora, 2003.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Otimizando agendamentos médicos com Inteligência Artificial – Case Vitória-ES

Otimizando agendamentos médicos com Inteligência Artificial – Case Vitória-ES

Você tem alguma ideia de quanto dinheiro público é gasto com as faltas em agendamentos médicos?

Sabe quando a pessoa marca uma consulta em uma unidade de saúde pública e não aparece na data?

Pois é, essas faltas geram prejuízo aos cofres públicos (nosso dinheiro, nossos impostos), mas, otimizando o processo, podemos melhorar muito esses indicadores. 

O objetivo deste artigo é apresentar os principais aprendizados de uma intensa pesquisa que realizamos com aplicação de inteligência artificial. Para isso, utilizamos os dados de agendamentos fornecidos pela prefeitura de Vitória no Espírito Santo.

Otimizando a Saúde em Vitória-ES

O número de faltas em consultas médicas nas unidades de saúde da cidade de Vitória-ES alcançou 30,14% do total de consultas realizadas nos últimos 2 anos, um padrão muito semelhante às estatísticas nacionais. 

Apenas em Vitória, esse índice representa um prejuízo aproximado de R$ 19.5 milhões ao ano aos cofres públicos, já que cada falta tem um valor médio que varia entre R$ 76,00 e R$ 92,00,  considerando todos os custos operacionais do agendamento, incluindo o envio de SMS, as ligações de confirmação e os profissionais envolvidos. O valor chega a quase 2 milhões de reais de gasto ao mês, é muita coisa.

A capital do Espírito Santo tem 356 mil habitantes conforme a estimativa de população do Instituto Brasileiro de Geografia e Estatística (IBGE) (2015), é o centro da Região Metropolitana, que congrega mais seis municípios, totalizando uma população estimada em 1,9 milhões de habitantes.

Está localizada estrategicamente na Região Sudeste, próxima dos grandes centros urbanos do país. 

De acordo com o Índice de Desempenho do Sistema Único de Saúde (IDSUS) utilizado pelo Ministério da Saúde para avaliar a qualidade e o acesso ao sistema público de saúde em todos os municípios brasileiros, Vitória foi considerada a capital com melhor saúde pública do país.

Em levantamento realizado pela consultoria Urban Systems, em parceria com a revista Exame, que mapeou mais de 700 cidades com o objetivo de definir as que têm maior potencial de desenvolvimento do Brasil, a capital capixaba ocupa a primeira posição no segmento saúde.

Com a nota 4,4, Vitória ficou no topo do ranking de saúde das cidades inteligentes. O sistema Rede Bem Estar contribuiu para alcançar o resultado. Implantado em toda a rede municipal de saúde, o sistema interliga os equipamentos (unidades de saúde, prontos-atendimentos, farmácias, laboratórios, consultórios odontológicos, centros de referência, de especialidades e prestadores de serviço) em um único sistema.

Os dados analisados

  • 1.575.487 (um milhão, quinhentos e setenta e cinco mil) registros, colhidos em dois anos (2014 e 2015) e um total de 474.833 (quatrocentos e setenta e quatro mil oitocentas e trinta e três) faltas. Este volume de faltas corresponde à 30,14% do total de consultas.
  • 15 fatores de análise – “Idade”, “Sexo”, “Dia da semana”, “Mês de agendamento”, “Hipertensão”, “Diabetes”, “Tabagismo”, “Tuberculose”, “Alcoolismo”, “Bolsa-família”, “Tempo de Espera”, “Deficiência”, “Status de comparecimento”, “Status do envio de mensagens SMS” e “Georeferência das Unidade de atendimento”.

Como esclarecimento, os dados são dos agendamentos e não dos pacientes, portanto é possível haver vários agendamentos de consultas de uma única pessoa.

Resultados

Para a realização do estudo, utilizamos a metodologia DCIM (Data Culture Introduction Methodology) para orientar as análises.

Uma das partes mais demoradas do processo foi a necessidade de aplicar diversas técnicas de higienização de dados para transformá-los em um modelo passível de processamento. Com isso, aplicamos técnicas de Regressão, Redes Neurais, Árvores de Decisão, Redes Bayesianas, Matrizes de correlação e covariância e o Aquarela VORTX Big Data.

Em síntese chegamos aos resultados que mostram a existência de 9 perfis de pacientes faltosos como demonstrado na tabela. Dentre esses, 4 grupos são responsáveis por 75% das ocorrências. Além disso, foi possível descobrir a ordem de influência dos fatores associados às faltas sendo as 3 primeiras: a idade, o prazo entre o agendamento e a consulta(demora da espera), e a presença de alguma deficiência física. Também foi possível verificar que a maior incidência e/ou probabilidade de faltas destes perfis acontecem nas segundas e sexta-feiras. Por outro lado observou-se que o dia mais propenso ao comparecimento do paciente é a quarta-feira.


A partir do processamento das amostras, um dos pontos que chamaram a atenção foi o peso da idade em relação às faltas. Na visualização abaixo buscamos representar uma relação da frequência dos agendamentos pela idade dos pacientes.

Notamos que há uma tendência de maior comparecimento das pessoas com idades mais avançadas, contudo junto com a idade o perfil destas pessoas está na sua maioria atrelada a algum tipo de doença, ao passo que os jovens e adultos tendem a ser mais saudáveis.

Um segundo dado relevante encontrado utilizando a inteligência artificial da plataforma VORTX, foi a influência da quantidade de dias de espera entre o agendamento e a consulta. Assim, atrelamos as duas variáveis em um gráfico de calor no qual cada ponto é um agendamento.

Com isso, é possível notar que as faltas podem acontecer em praticamente todo o espectro das duas variáveis, porém existe uma intensidade maior de faltas na idade adulta  a partir de duas semanas de espera. Além disso, agendamentos de crianças e idosos tendem a um alto comparecimento.


Além destes achados o índice de correlação entre o envio de SMS e o comparecimento na consulta foi de 0,001%, portanto o envio de SMS com um custo mensal aproximado de R$ 10 mil/mês não está sendo eficiente e poderia ser realocado.

Outras correlações fortes emergiram dos dados como diabetes com hipertensão, idade com hipertensão e fumo com alcoolismo, estas já conhecidas dos gestores.

Recomendações

Neste projeto, utilizamos técnicas avançadas de análise de dados para encontrar padrões nos dados históricos de 2014/2015 dos agendamentos nas unidades básicas de saúde de Vitória e traçar o perfil dos usuários que faltam nas consultas, buscando assim, a redução do índice de abstenção.

Este estudo inicial gerou indicações de ações específicas como a alocação de perfis de risco para as quartas-feiras em contraste com os perfis de baixo risco que podem ser agendados nas segundas e sextas-feiras.

Também foi sugerido um alinhamento dos processos de um sistema de check-in online Minha Consulta Web Check-in  e um processo de duplo check-in para os perfis de risco e utilização da estratégia de overbooking.

Utilizando um portal para o check-in, o paciente poderá cancelar ou confirmar sua consulta, sendo que o prazo para realização do check-in se inicia 9 dias antes da sua consulta.

Como os novos métodos de obtenção de informação, a unidade de saúde consegue acompanhar em tempo real, se o paciente já realizou o check-in de sua consulta, seja confirmando ou cancelando e liberando a vaga para outro paciente.

Como a validação dos resultados da pesquisa, as novas medidas administrativas foram aplicadas em duas unidades de saúde (grupo de controle) que em apenas um mês de avaliação apresentaram uma economia real de 6.6% em relação às demais unidades de saúde.

Com estas validações e a expansão do modelo para as 45 unidades de saúde, acredita-se gerar uma economia mínima aproximada de R$ 1,3 milhões no primeiro ano da implantação. Como próximos passos, serão elaborados novos testes relacionados a localização de cada paciente e a criação de novos indicadores de desempenho.

Atualização

Do final do projeto até dezembro de 2017 houve uma redução ainda maior de faltas em agendamentos médicos em Vitória. Atualmente, apenas 16% dos pacientes faltam.

Fiquem atentos às nossas mídias sociais Facebook, Twitter, Linkedin, nossa Newsletter e repassem o conteúdo aos seus conhecidos da saúde. Há muito que otimizar e economizar em nosso país!

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

O que o VORTX diz sobre o quadro de medalhas olímpicas?

O que o VORTX diz sobre o quadro de medalhas olímpicas?

Olá pessoal,

Aproveitando o clima de olimpíadas no Brasil, resolvi fazer uma análise de agrupamentos com o VORTX sobre os dados consolidados das medalhas distribuídas em Londres. Bom, então vamos lá!

O que significam as medalhas?

Em todo projeto de análise de dados, a primeira etapa é sempre saber o que as coisas significam na realidade. Logo, do ponto de vista do esporte, cada medalha significa muita coisa, vejamos alguns exemplos:

  • Reconhecimento pelo esforço e disciplina pessoal;
  • Resultado da organização e investimento dos países em cada modalidade (disciplina regional);
  • Marcos históricos;
  • Ranking de qualidade e etc.

Bom, esses foram apenas alguns exemplos de muita coisa atrelada ao evento. Para um analista de dados, o quadro de medalhas pode significar:

Um índice composto de centenas de sub-indicadores sociais apresentado na forma de ranking quantitativo dos países.

Os dados utilizados

Coletei o quadro de medalhas olímpicas distribuídas em Londres disponível na Wikipedia, não levando em consideração países com “0” medalhas. Para a análise, cada linha é um país.

  • Primeira coluna, nome do país;
  • Segunda coluna, número de medalhas de ouro;
  • Terceira coluna, número de medalhas de prata;
  • Quarta coluna, número de medalhas de bronze;
  • Removido a coluna total de medalhas.

Obs. Mas por que remover o total de medalhas por país? É simples, este é um indicador composto da soma de todas as medalhas e como queremos descobrir padrões que existem entre a distribuição de medalhas, precisamos deixar o modelo homogeneizado. Esse é um erro bastante comum nas práticas de processamento de dados que resulta em análises com baixa confiança, pois os algoritmos processam tudo, se entrar coisa errada, saí coisa errada. Usando uma metáfora, colocar os dados totais em uma análise é como se o cozinheiro jogasse a colher dentro da máquina de triturar, o resultado vai ser misturado e influenciado.

Perguntas, processamento e repostas

Vamos utilizar o Aquarela VORTX Big Data para descobrir o comportamento de distribuição das medalhas olímpicas.

  1. Quantos grupos de países parecidos em termos de desempenho existem, como são caracterizados e o quanto representam proporcionalmente?

No total formam 5 grupos distintos de países com a seguintes proporções:

As características do primeiro grupo são apresentadas em um gráfico de frequência, enquanto mais alto o gráfico, maior é o número de países com o valor do eixo X. Em uma breve interpretação, no grupo 1 são muito poucos os países 16 medalhas (ouro, prata ou bronze).

Abaixo está uma tabela de sumarização dos resultados com os demais grupos. Procure as diferenças nos resultados e pense em qual nome daria para cada grupo.

Eu diria que o grupo 1 é formado por países de baixa performance, e o grupo 3 de alta. Dar nome aos grupos é o trabalho do analista, o algoritmo já fez o mais complicado que é separar e organizar toda a coisa olhando para todos os fatores.

  1. Qual o grau de confiança do padrão encontrado?

Estes dados apresentem uma nitidez de 96,04% o que é muito alto e significa que os grupos estão de fato muito bem segmentados.

  1. Qual é um resultado típico ou comum nas olimpíadas?

Sendo o grupo 1 o maior grupo, que equivale a 91,76% dos países que receberam medalhas, é possível afirmar que tipicamente os países recebem até duas medalhas. Do contrário, não é típico um país receber mais de 20 medalhas.

  1. Quais países têm características mais distintas da maioria?

Comparando os resultados de distinção dos grupos gerados pelos VORTX, podemos afirmar que os grupos 3 e 4 são os grupos países mais diferentes ou diferenciados.

Grupo 1 – 83,28%
Grupo 2 – 79,31%
Grupo 3 – 100%
Grupo 4 – 100%
Grupo 5 – 84,73%

  1. É possível prever os resultados das olimpíadas do Rio 2016 com base do padrão dos grupos?

A identificação dos agrupamentos, dá o ponta pé inicial das análises, organizando e estruturando o raciocínio lógico, porém a assertividade dos modelos de predição dependem de vários fatores, dentre eles:

  • a quantidade de dados sendo analisados (neste caso são poucos), quanto mais dados, melhor.
  • mudanças estruturais no quadro de medalhas, como por exemplo adição ou remoção de novos esportes.
  • Influência política ou os casos de doping que afastaram diversos atletas.

Conclusões e Reflexões

Bom pessoal, os resultados fazem sentido para vocês? Vejam que exercício foi feito com dados relativamente simples de 3 colunas onde já é possível descobrir coisas interessantes. Agora, o que realmente importa em relação a utilização de algoritmos de agrupamento para resolver resultados práticos em outras áreas? Abaixo seguem algumas ideias:

  • Seria interessante saber quais os problemas típicos e o grau de homogeneidade das turmas escolares ou tratamentos hospitalares?
  • Seria estratégico descobrir quais alunos ou pacientes são muito diferentes do comum e demandam atendimento especial?
  • Seria interessante saber quais as características predominantes de equipamentos que mais quebram? Isso reduziria o custo de operação?
  • Quando temos 3 colunas como o caso das medalhas é fácil encontrar o padrão no olho, certo? E se forem 2 milhões de linhas e 20 colunas, como você encontraria o tipo de venda que traz o melhor retorno sobre investimento?
  • Quais são as características dos usuários que fraudam o seguro? Qual é o corte ideal de idade por região, gênero e escolaridade? E quanto esses grupos representam de prejuízo?

É isso pessoal. Obrigado pela atenção, vamos em frente! Que há muito dado para se processar e muita gestão para melhorar, um forte abraço a todos.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

Data Analytics e o impeachment de 2016: Uma análise sem partido

Data Analytics e o impeachment de 2016: Uma análise sem partido

Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.

Estudo da natureza dos dados e limpeza

Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).

Imagem recortada da planilha.

Assim temos:

Partidos com mais e menos membros votantes:

  • PMDB = 66 votantes
  • PMB = 1 votante

Estados com mais e menos membros votantes:

  • São Paulo = 70 votantes
  • Tocantins = 8 votantes

Números totais de votos:

SIMNÃOAUSENTEABSTENÇÃO
36713727

Gênero dos votantes:

  • Masculino = 462
  • Feminino = 51

Aplicação de técnicas de mineração

Análise de textos

Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.

Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.

Análise por Fernando Severo

Análise de agrupamentos (clustering ou segmentação)

Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:

  • Grupo 0 Azul = 310 votos – principal força PMDB
  • Grupo 1 Verde = 57 votos – principal força PSDB
  • Grupo 2 Vermelho = 146 votos – principal força PT

Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.

Análise preditiva de votos

Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim,  76 não e predizendo erroneamente 70 votos.

Pesos das variáveis

Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:

  • O estado do carro;
  • A previsão do tempo;
  • O preço da gasolina;
  • A distância a ser viajada;
  • A quantidade de bagagem.

Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?

Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.

Conclusões e Limitações:

Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.

Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.

Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.

Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.

Blitz analytics

Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela VORTX.

Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Inteligência Artificial para segmentação de perfis: O Titanic

Inteligência Artificial para segmentação de perfis: O Titanic

Neste Post tocaremos no assunto mais polêmico referente ao naufrágio do Titanic: A porta flutuante tinha espaço suficiente para Jack e Rose? (rs) Brincadeiras a parte, aqui abordaremos como o uso de Inteligência Artificial pode ajudar a descobrir os perfis de sobreviventes da tragédia de 1912. Para isso, separamos um dataset com informações das pessoas que embarcaram no Titanic.

Apesar da grande tragédia da viagem, os dados disponibilizados são muito ricos em detalhes, e por isso são amplamente utilizados nas comunidades de inteligência artificial, aprendizado de máquina e mineração de dados, uma vez que podem ser processados (passando por segmentação) por diversos tipos de algoritmos.

 Na conclusão deixamos algumas ideias de como essa abordagem inovadora pode otimizar e alavancar negócios.

Sumário dos dados

Segundo a Enciclopédia Titânica, o número correto de passageiros foi 2.208, dos quais 1496 morreram e 712 sobreviveram. Dos dados que tivemos acesso, os números são os seguintes:

  • 1309 pessoas abordo, dos quais 500 sobreviveram (38%) e 809 (62%) morreram.
  • Média de idade estimada 29,88 anos.
  • 466 mulheres, das quais 127 morreram e 339 sobreviveram.
  • 843 homens, dos quais 682 morreram e 161 sobreviveram.
  • O preço médio da passagem foi de £53,65 libras para o feminino e £76.60 para masculino.

Para mais detalhes desses dados, sugirimos a consulta no Google pelo seguinte termo de busca : Titanic Dataset.

Fatores em análise

Infelizmente, 267 passageiros (20,39%) tiveram de ser excluídos da análise porque as idades não foram informadas. Além disso, dos 15 fatores apresentados no arquivo original, selecionamos apenas aqueles numéricos com pesos mais fortes calculados pelo VORTX. Normalmente classificamos fatores, variáveis ​​ou atributos de dados nas 3 seguintes categorias:

  • Protagonista – Fatores com forte influência positiva para gerar padrão de agrupamento com clareza (alto valor).
  • Antagonista – Fatores com ruído e/ou influência negativa aos padrões gerados pelo fator protagonista.
  • Coadjuvantes – Fatores que não desempenham um papel significativo na análise, mas podem enriquecer os resultados.

De acordo com o poder de influência, os protagonistas escolhidos para esta análise foram:

  • Idade do passageiro = 87,85%
  • Valor da passagem = 72,69%
  • Número de pais de crianças no navio = 71,69%
  • Número de irmãos ou cônjuges no navio = 72,42%

Nos primeiros processamentos do conjunto de dados, o fator “Gênero” que indica se o passageiro era homem ou mulher, tendiam a ter um papel antagonista à formação do grupo. Isso significa a ausência de um padrão para formar os grupos e o índice de nitidez dos dados cai de 30% para menos de 7%, justificando a remoção desse fator da análise.

Segmentação: Resultados com o VORTX

Após o processamento, o VORTX trouxe os seguintes indicadores, dos quais não são oferecidos por outros algoritmos de agrupamento, portanto, explicamos brevemente cada um deles:

  • Nitidez (Sharpness) = 33,64%. Ele mostra a visibilidade do padrão nos dados ou o quão confiante a máquina está sobre a formação dos grupos. Segundo a nossa escala de qualidade, uma nitidez acima de 20% já é útil para a tomada de decisão.
  • Descoberta automática de segmentos (grupos) = 8. Esta é uma função que torna todo o processo muito mais fácil para o analista de dados. Ao contrário de k-means e outros algoritmos conhecidos, VORTX encontra o número certo (ideal) de grupos automaticamente, reduzindo drasticamente os erros de segmentação que acontecem quando o analista informa um determinado número não condizente a realidade. Ex. Imagine que todos os elementos são amarelos e você manda segmentar em 5? O resultado será 5 grupos amarelos. Ao contrário também é possível, existem 5 grupos sendo um de cada cor e você manda o algoritmo separar todos em 3 grupos. Resultado, haverão elementos de cores diferentes dentro do mesmo grupo.
  • Distinção dos grupos = O quão único é um grupo em relação a todos os demais. Neste caso, o mais distinto é o número 5 com 51,48% (cor mais escura) em contra partida, o grupo menos distinto é o 1 com 8,58%. Isto significa que os elementos do grupo 5 tendem a ser mais homogêneos do que os outros grupos.

Tela do VORTX Big Data

Ao analisar os grupos, adicionando a coluna que indica a sobrevivência ou não do passageiro após o evento, foi possível gerar a taxa de sobrevivência de cada grupo e a tarifa média de bilhetes por grupo. Em uma visualização rápida e sumarizada, aqueles que têm as características do grupo 5 ou 7 têm mais chances de sobreviver ao naufrágio.

Indicadores gerados a partir da análise de grupo – Contagem de pessoas por grupo, taxa de sobrevivência, valor médio da passagem por grupo.

Nomeação de grupos

 Para operacionalizar uma estratégia de gestão em qualquer setor (saúde, indústria, varejo e etc) você precisa nomeá-los para estudar as características de cada grupo. Para isso, deve-se olhar para as características predominantes de cada grupo (persona).

Segue abaixo uma comparação visual, de apenas 4 grupos, com o fator “Idade”. Como este é um gráfico de frequência, quanto mais alto está a linha no gráfico maior é o número de passageiros com essa característica. Esses fatores podem ser facilmente estudados de forma interativa na VORTX DATASCOPE.

 Ainda, uma outra forma de entender as características do grupo é olhar diretamente  para os dados agrupados. Neste caso, eu tirei um screenshot dos dados do grupo 5, que tem os passageiros mais distintos e homogêneos do navio. A partir disso dá para dizer que esse grupo é dos jovens que viajam com toda a família de alta renda.

Conclusões e recomendações

O passageiro mais típico é uma pessoa jovem, com uma idade média de 21 anos e que pagou, em média, £26,35. Enquanto o passageiro outlierleia aqui o que são outliers e como tratá-los em uma análise de dados – é um indivíduo no grupo 8, que tinha 38 anos, pagou £ 7.775, estava viajando com ambos os pais e mais 4 irmãos.

Olhando para o caso (apenas mil registros) não é um número grande o suficiente para descobrir mais perfis. Contudo, se você tem milhões de transações e clientes a ferramenta poderá servir de instrumento chave para otimizar a gestão, reduzir custos e melhorar produtos para o seu público.

Agora, pense consigo com base no que você leu aqui:

  • Quem é o seu cliente mais típico?
  • Quais são as características de cada grupo de clientes?
  • Qual é o custo total ou receita por grupo?
  • Quais grupos representam 80% do seu custo ou receita?
  • Quais os grupos que você deseja abordar na sua estratégia, e quais não?
  • Quais são os fatores protagonistas, antagonistas que mais afetam a sua estratégia?
  • A persona (grupo) criado pelo VORTX coincide com a persona que você tem hoje? Agora é possível comparar e aperfeiçoar!

Esperamos que esse breve estudo seja interessante e útil para que você possa planejar suas grandes decisões (ou do seu negócio) utilizando inteligência computacional.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor