No post I, ver aqui, falamos sobre o quanto é importante o planejamento e se preparar para a nossa guerra contemporânea, que tem como objetivo a informação certa no menor prazo possível.
Nosso soldado data scientist já tem consciência de ferramentas e possíveis estratégias para a batalha da análise de dados. Porém, o fato de ter apenas os métodos comprados e instalados na empresa nem sempre geram resultados, e por que isso acontece?
Disposição de Ferramentas
“7. Prever uma vitória que o homem comum pode prever não corresponde ao auge da habilidade.”
Sun Tzu falava da Disposição das Tropas, nós falamos da Disposição de Ferramentas. Descobrir o óbvio não agrega valor à empresa e é o principal ponto de atenção das equipes de analytics. A exceção a essa regra está nos casos onde análise tem o objetivo de testar um algoritmo ou abordagem e então saber se as ferramentas (metodologia + inteligência artificial) foram capazes de encontrar o que já se sabe e ir além.
Verificamos que a experiência dos analistas é um fator determinante no sucesso dos estudos de analytics. Isso se deve, principalmente, por prever erros estruturais nos fluxos de análise e a criatividade para desenvolver testes contra os algoritmos. Ainda, compará-los em diversas dimensões e eventualmente encontrar explicações esperadas de validação e no auge da habilidade, informações não previstas que geram oportunidades reais de melhoria.
Forças normais e extraordinárias
“5. Na batalha, valha-se da força normal para o combate e utilize a extraordinária para vencer.”
Existem forças normais que podemos usar para complementar as extraordinárias, é o exemplo das ferramentas livres e open source ou mesmo estratégias coerentes de indicadores (KPIs – Key Performance Indicators) já fazem uma diferença bastante grande no desempenho com impacto direto nos níveis de maturidade de analytics.
Agora dependendo do nível da competição, do timing e tamanho do mercado, utilizar ferramentas fechadas podem fazer a diferença do extraordinário, por isso, fique atendo a soluções fechadas disponibilizadas por APIs.
O preço da dúvida
“9. Na guerra, o perito age de maneira sutil e insubstancial, não deixa pistas; divinamente misterioso, é inaudível; torna-se, ele próprio, senhor do destino de seu inimigo.”
No mundo analytics, cases detalhados são raramente divulgados. Do que dá certo ou errado, cada um guarda para si, mais ou menos como no investimento em ações. Aparentemente, uma das formas mais plausíveis de se obter conhecimento real das tentativas e erros é pela incorporação e disseminação de processos de gestão do conhecimento e contratações estratégicas.
Conclusão: Estratégias
“4. Na guerra, tanto a vantagem quanto o perigo são inerentes às manobras.”
Há uma expectativa bastante grande com relação a qualquer iniciativa de Data Analytics dentro das organizações e isto acontece independentemente do nível de maturidade de dados em que elas se encontram. O fato é que, para chegar a modelos preditivos realmente assertivos, o caminho é tortuoso e multidisciplinar. Por tanto, projetos com poucos recursos (horas de analistas, computadores parrudos, ferramentas de análise e capacitação) tendem a ter resultados coerentes com o investimento.
Então é isso pessoal, espero que a analogia ajudou no entendimento e que gere valor no seu negócio. Um forte abraço de toda a equipe da Aquarela Advanced Analytics.
People Manager na Aquarela Advanced Analytics. Graduada em Psicologia e entusiasta em novas tecnologias e como elas podem oferecer qualidade de vida para as pessoas.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Você tem alguma ideia de quanto dinheiro público é gasto com as faltas em agendamentos médicos?
Sabe quando a pessoa marca uma consulta em uma unidade de saúde pública e não aparece na data?
Pois é, essas faltas geram prejuízo aos cofres públicos (nosso dinheiro, nossos impostos), mas, otimizando o processo, podemos melhorar muito esses indicadores.
O objetivo deste artigo é apresentar os principais aprendizados de uma intensa pesquisa que realizamos com aplicação de inteligência artificial. Para isso, utilizamos os dados de agendamentos fornecidos pela prefeitura de Vitória no Espírito Santo.
Otimizando a Saúde em Vitória-ES
O número de faltas em consultas médicas nas unidades de saúde da cidade de Vitória-ES alcançou 30,14% do total de consultas realizadas nos últimos 2 anos, um padrão muito semelhante às estatísticas nacionais.
Apenas em Vitória, esse índice representa um prejuízo aproximado de R$ 19.5 milhões ao ano aos cofres públicos, já que cada falta tem um valor médio que varia entre R$ 76,00 e R$ 92,00, considerando todos os custos operacionais do agendamento, incluindo o envio de SMS, as ligações de confirmação e os profissionais envolvidos. O valor chega a quase 2 milhões de reais de gasto ao mês, é muita coisa.
A capital do Espírito Santo tem 356 mil habitantes conforme a estimativa de população do Instituto Brasileiro de Geografia e Estatística (IBGE) (2015), é o centro da Região Metropolitana, que congrega mais seis municípios, totalizando uma população estimada em 1,9 milhões de habitantes.
Está localizada estrategicamente na Região Sudeste, próxima dos grandes centros urbanos do país.
De acordo com o Índice de Desempenho do Sistema Único de Saúde (IDSUS) utilizado pelo Ministério da Saúde para avaliar a qualidade e o acesso ao sistema público de saúde em todos os municípios brasileiros, Vitória foi considerada a capital com melhor saúde pública do país.
Em levantamento realizado pela consultoria Urban Systems, em parceria com a revista Exame, que mapeou mais de 700 cidades com o objetivo de definir as que têm maior potencial de desenvolvimento do Brasil, a capital capixaba ocupa a primeira posição no segmento saúde.
Com a nota 4,4, Vitória ficou no topo do ranking de saúde das cidades inteligentes. O sistema Rede Bem Estar contribuiu para alcançar o resultado. Implantado em toda a rede municipal de saúde, o sistema interliga os equipamentos (unidades de saúde, prontos-atendimentos, farmácias, laboratórios, consultórios odontológicos, centros de referência, de especialidades e prestadores de serviço) em um único sistema.
Os dados analisados
1.575.487 (um milhão, quinhentos e setenta e cinco mil) registros, colhidos em dois anos (2014 e 2015) e um total de 474.833 (quatrocentos e setenta e quatro mil oitocentas e trinta e três) faltas. Este volume de faltas corresponde à 30,14% do total de consultas.
15 fatores de análise – “Idade”, “Sexo”, “Dia da semana”, “Mês de agendamento”, “Hipertensão”, “Diabetes”, “Tabagismo”, “Tuberculose”, “Alcoolismo”, “Bolsa-família”, “Tempo de Espera”, “Deficiência”, “Status de comparecimento”, “Status do envio de mensagens SMS” e “Georeferência das Unidade de atendimento”.
Como esclarecimento, os dados são dos agendamentos e não dos pacientes, portanto é possível haver vários agendamentos de consultas de uma única pessoa.
Uma das partes mais demoradas do processo foi a necessidade de aplicar diversas técnicas de higienização de dados para transformá-los em um modelo passível de processamento. Com isso, aplicamos técnicas de Regressão, Redes Neurais, Árvores de Decisão, Redes Bayesianas, Matrizes de correlação e covariância e o Aquarela VORTX Big Data.
Em síntese chegamos aos resultados que mostram a existência de 9 perfis de pacientes faltosos como demonstrado na tabela. Dentre esses, 4 grupos são responsáveis por 75% das ocorrências. Além disso, foi possível descobrir a ordem de influência dos fatores associados às faltas sendo as 3 primeiras: a idade, o prazo entre o agendamento e a consulta(demora da espera), e a presença de alguma deficiência física. Também foi possível verificar que a maior incidência e/ou probabilidade de faltas destes perfis acontecem nas segundas e sexta-feiras. Por outro lado observou-se que o dia mais propenso ao comparecimento do paciente é a quarta-feira.
A partir do processamento das amostras, um dos pontos que chamaram a atenção foi o peso da idade em relação às faltas. Na visualização abaixo buscamos representar uma relação da frequência dos agendamentos pela idade dos pacientes.
Notamos que há uma tendência de maior comparecimento das pessoas com idades mais avançadas, contudo junto com a idade o perfil destas pessoas está na sua maioria atrelada a algum tipo de doença, ao passo que os jovens e adultos tendem a ser mais saudáveis.
Um segundo dado relevante encontrado utilizando a inteligência artificial da plataforma VORTX, foi a influência da quantidade de dias de espera entre o agendamento e a consulta. Assim, atrelamos as duas variáveis em um gráfico de calor no qual cada ponto é um agendamento.
Com isso, é possível notar que as faltas podem acontecer em praticamente todo o espectro das duas variáveis, porém existe uma intensidade maior de faltas na idade adulta a partir de duas semanas de espera. Além disso, agendamentos de crianças e idosos tendem a um alto comparecimento.
Além destes achados o índice de correlação entre o envio de SMS e o comparecimento na consulta foi de 0,001%, portanto o envio de SMS com um custo mensal aproximado de R$ 10 mil/mês não está sendo eficiente e poderia ser realocado.
Outras correlações fortes emergiram dos dados como diabetes com hipertensão, idade com hipertensão e fumo com alcoolismo, estas já conhecidas dos gestores.
Recomendações
Neste projeto, utilizamos técnicas avançadas de análise de dados para encontrar padrões nos dados históricos de 2014/2015 dos agendamentos nas unidades básicas de saúde de Vitória e traçar o perfil dos usuários que faltam nas consultas, buscando assim, a redução do índice de abstenção.
Este estudo inicial gerou indicações de ações específicas como a alocação de perfis de risco para as quartas-feiras em contraste com os perfis de baixo risco que podem ser agendados nas segundas e sextas-feiras.
Também foi sugerido um alinhamento dos processos de um sistema de check-in online Minha Consulta Web Check-in e um processo de duplo check-in para os perfis de risco e utilização da estratégia de overbooking.
Utilizando um portal para o check-in, o paciente poderá cancelar ou confirmar sua consulta, sendo que o prazo para realização do check-in se inicia 9 dias antes da sua consulta.
Como os novos métodos de obtenção de informação, a unidade de saúde consegue acompanhar em tempo real, se o paciente já realizou o check-in de sua consulta, seja confirmando ou cancelando e liberando a vaga para outro paciente.
Como a validação dos resultados da pesquisa, as novas medidas administrativas foram aplicadas em duas unidades de saúde (grupo de controle) que em apenas um mês de avaliação apresentaram uma economia real de 6.6% em relação às demais unidades de saúde.
Com estas validações e a expansão do modelo para as 45 unidades de saúde, acredita-se gerar uma economia mínima aproximada de R$ 1,3 milhões no primeiro ano da implantação. Como próximos passos, serão elaborados novos testes relacionados a localização de cada paciente e a criação de novos indicadores de desempenho.
Atualização
Do final do projeto até dezembro de 2017 houve uma redução ainda maior de faltas em agendamentos médicos em Vitória. Atualmente, apenas 16% dos pacientes faltam.
Fiquem atentos às nossas mídias sociais Facebook, Twitter, Linkedin, nossa Newsletter e repassem o conteúdo aos seus conhecidos da saúde. Há muito que otimizar e economizar em nosso país!
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
Atualmente sou coordenador do Tecnólogo Binacional em Análise e Desenvolvimento de Sistemas UTEC-IFSUL-UTU, onde são graduados 50% de estudantes brasileiros e 50% uruguaios, com titulação válida em ambos os países.
E docente de Empreendedorismo, junto ao Programa de Empreendimentos Tecnológicos da UTEC.
Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.
Estudo da natureza dos dados e limpeza
Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).
Imagem recortada da planilha.
Assim temos:
Partidos com mais e menos membros votantes:
PMDB = 66 votantes
PMB = 1 votante
Estados com mais e menos membros votantes:
São Paulo = 70 votantes
Tocantins = 8 votantes
Números totais de votos:
SIM
NÃO
AUSENTE
ABSTENÇÃO
367
137
2
7
Gênero dos votantes:
Masculino = 462
Feminino = 51
Aplicação de técnicas de mineração
Análise de textos
Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.
Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.
Análise por Fernando Severo
Análise de agrupamentos (clustering ou segmentação)
Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:
Grupo 0 Azul = 310 votos – principal força PMDB
Grupo 1 Verde = 57 votos – principal força PSDB
Grupo 2 Vermelho = 146 votos – principal força PT
Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.
Análise preditiva de votos
Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim, 76 não e predizendo erroneamente 70 votos.
Pesos das variáveis
Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:
O estado do carro;
A previsão do tempo;
O preço da gasolina;
A distância a ser viajada;
A quantidade de bagagem.
Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?
Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.
Conclusões e Limitações:
Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.
Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.
Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.
Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.
Blitz analytics
Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela VORTX.
Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
O conceito de clusterização, também chamado de clustering, agrupamentos, por análise de grupos é um tema recorrente na área de aprendizado de máquina e inteligência artificial, por isso criamos um vídeo tutorial que, em síntese, demonstra um problema de forma visual, um caso real e algumas conclusões.
Descrição do vídeo em português
Para facilitar a absorção do conceito, utilizamos um exemplo bastante visual. Assim, imagine que você tem em uma fábrica têxtil e quer produzir o maior número de bandeiras de todo os países conhecidos, algo em torno de 200 tipos com cores e formatos diferentes.
Interessa saber quais quais os padrões de cores e formatos para otimizar e organizar a linha de produção? Essa é a ideia, reduzir custos e tempo, mantendo qualidade e volume.
Figura 1. Representação dos dados brutos, sem detecção de padrões.
Um bom algoritmo de agrupamento deve ser capaz de identificar padrões nos dados como nós humanos conseguimos identificar visualmente bandeiras com características comuns, por terem os mesmos padrões, como são as bandeiras da Itália, Irlanda e México, no exemplo abaixo.
Podem existir padrões de cores, forma, figuras, etc. Um fator que diferencia algoritmos de clusterização para os de classificação é que estes não tem a informação do padrão junto com os dados, ou seja, ele deve descobrir automaticamente.
Figura 2 – Cluster zero (0) composto pelas bandeiras Itália, Irlanda e México.
Neste contexto, tão importante quanto identificar os grupos com indivíduos semelhantes são as identificações dos indivíduos que não se assemelham com nenhum outro. Os chamados outliers, que são as exceções, elementos únicos que não compartilham características com outros elementos.
Figura 3 – Cluster seis (6) composto pela bandeira do Nepal. Uma exceção.
Por fim, em um resultado final de clusterização, temos um número de 8 grupos formados pelas bandeiras que apresentam características semelhantes e indivíduos isolados, por serem ouliers.
Figura 4 – Clusters formados ao final do processamento.
Um dos fatores mais importantes de processamento de grupos é número de grupos onde os elementos serão alocados. Em muitos casos, temos observado resultados diferentes quando aplicamos os mesmos dados, nas mesmas condições de processamento e parametrização, em diferentes algoritmos.
sso é muito importante. Veja o que poderia ser o resultado de uma clusterização imprecisa.
Figura 5: Clusters resultantes de um agrupamento impreciso.
A questão prática é:
Você investiria o seu dinheiro nisso?
Provavelmente não, e resolver esse problema é o desafio dos cientistas de dados. Na prática, já aplicamos em diversos segmentos, em um deles identificamos padrões da características dos pacientes que mais faltam às consultas médicas, gerando custos e ingerência em consultórios, clínicas e hospitais.
O resultado foi um surpreendente grupo com 50% dos dados analisados, o que merece realmente uma política específica para redução dos custos e impactos de operação.
O que pensariam os clientes que ficaram sem horário para consulta? Como não dar razão aos diretores financeiros destas organizações?
Nossa visão é muito poderosa para classificação de imagens como no caso das bandeiras.
É humanamente impossível fazer análises e correlações lógicas dos números de um grande banco de dados, para isso foram criados os algoritmos de clusterização.
A acurácia (exatidão) dos resultados de clusterização são fundamentais para a tomada de decisão de investimentos.
Diversos setores podem se beneficiar dessa abordagem de gestão.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.