O que é data mining (mineração de dados)?

O que é data mining (mineração de dados)?

Data mining, ou mineração de dados, é a prática de examinar dados que já foram coletados – utilizando diversos tipos de algoritmos, normalmente de forma automática –, a fim de gerar novas informações e encontrar padrões. Veja em mais detalhes neste artigo o que é data mining, e como a mineração de dados se coloca diante de temas mais recentes como o Advanced Analytics e a Indústria 4.0.

Na prática, como funciona a mineração de dados?

Considerando que minerar dados é um processo de transformar dados em informações úteis (dados mais valiosos a partir de dados complexos).

Para atingir esse objetivo, alguns passos são realizados, como: encontrar padrões, associações e anomalias gerais nos dados.

Em data mining não importa a forma como os dados foram coletados, se via banco de dados, web scraping, API`s, etc.

Data mining, seu surgimento, e a economia da informação

O advento do data mining surgiu com a emersão da economia da informação, que por sua vez representa a informação sendo utilizada como mercadoria e como bem de produção.

Economia da informação é um termo que teve como uma das suas primeiras aparições no mundo científico em 1986, com Bruce Greenwald e o Nobel de economia Joseph Stiglitz.

Neste contexto, os acadêmicos argumentam que as pessoas não possuem acesso a todas informações disponíveis, o que torna os mercados imperfeitos.

Esse foi, na época, um argumento distante da premissa econômica até então dominante que afirmava que a mesma informação era acessível a todos. Sendo assim, a informação passou a ser vista como um diferencial, como uma forma de extrair insights para melhorar as decisões gerenciais no âmbito corporativo.

Na economia da informação praticamente todas as transações e operações realizadas por pessoas e empresas no dia a dia geram algum tipo de dados. Data mining entra neste contexto com a aplicação de equações matemáticas e métodos estatísticos, que vão desde o uso de uma regressão logística, até redes neurais, deep learning, análise de clustering(agrupamentos) e classificações automáticas.

Uma das primeiras soluções focadas em data mining, para fins de exemplificação, foi o software WekaO Weka, criado em 1993 e mantido até os dias atuais, é uma rica coleção de algoritmos de machine learning e data mining.

O propósito do software em sua concepção foi permitir que o usuário não precisasse conhecer linguagens de programação para fazer o pré-processamento dos dados (organizá-los) e assim aplicar diversos algoritmos prontos em seus próprios dados.

Data mining na Indústria 4.0

Mais do que a economia da informação, hoje vivemos em uma transição econômica como um todo para a indústria 4.0.

A Indústria 4.0 caracteriza-se por serviços concebidos e produzidos de forma descentralizada, com forte apoio de Advanced Analytics, Inteligência Artificial (a máquina com capacidade de aprender) e Inteligência Coletiva (as pessoas, coletivamente, cooperando para que as máquinas aprendam). Esse processo teve seu início com o boom da internet no começo dos anos 2000.

Leia mais sobre Indústria 4.0.

Na Indústria 4.0 os smartphones, por exemplo, permitem tanto a Inteligência Artificial quanto a Inteligência Coletiva fazerem parte das decisões do dia a dia das pessoas.

Com isso, uma imensidão de dados é gerada, cada vez em maior quantidade.

Nesse contexto, a mineração de dados é a base para uma integração com métodos mais avançados, que envolvem desde as ferramentas mais básicas – como regressões e árvores de decisão – até modelagens mais complexas com elevado nível de otimização de análise, utilizando também métodos de aprendizagem de máquina, big data, entre outros.

Nestes casos o propósito costuma ser análises preditivas e prescritivas, que conduzem os indivíduos a tomarem suas decisões de forma mais rápida, automatizada e otimizada.

Como aplicar data mining em um ambiente de negócio?

Na mineração de dados, o que gera valor de fato é o conjunto de ações que são tomadas a partir dos processamentos dos dados. Para isso, é preciso saber onde aplicar as técnicas e quais ferramentas de mineração são mais adequadas para cada caso, dando vida a um novo perfil de profissionais chamada Cientista de Dados

Então, onde se aplica data mining? Sempre que existirem processos definidos, têm-se dados. Usa-se a mineração de dados no momento em que as alternativas iniciais de análise foram esgotadas, como análises a “olho nú”, com planilhas de dinâmicas ou ainda com o uso de estatística descritiva, entre outros.

Veja a seguir uma lista de exemplos práticos da aplicação da mineração de dados em ambientes de negócio, que conduzem a melhorias das decisões gerenciais e estratégicas:

1. Dados gerados internamente nas organizações

Dados transacionais ou extraídos de sistemas em geral da organização podem ser tratados e minerados.

São exemplos: dados de CRM, ERP, softwares de marketing digital, plataformas de monitoramento de websites (como o Google Analytics), e-commerce, supply-chain, dados de logística, entre outras inúmeras áreas de negócios.

2. Dados sociais

Dados que estão sempre crescendo e descrevem pessoas: quem são, onde estão, que serviços e produtos estão usando. Usar esses dados para fins de negócios é a maneira como a economia da informação funciona e um dos grandes motores no advento da indústria 4.0.

3. Área da saúde

A mineração de dados possui diversas aplicações na área da saúde. Como um exemplo das possibilidades de aplicação, a Aquarela, juntamente com a Prefeitura de Vitória/ES, minerou e analisou dados de faltas em agendamentos médicos.

Após as análises foram tomadas decisões estratégicas que reduziram as faltas em agendamentos de cerca de 30% para aproximadamente 15%. A economia gerada aos cofres públicos é milionária. Veja o case em detalhes.

4. Obras públicas

Com a tendência de transparência pública no Brasil, cada vez mais dados públicos têm sido disponibilizados gratuitamente via web. Isso viabiliza a realização de análises que podem levar à população um poder extra de monitoramento de como o dinheiro público tem sido utilizado.

Como case de exemplo, a SEFAZ/SC e a Aquarela Advanced Analytics, utilizaram técnicas avançadas de análise de dados para a descoberta de padrões de obras públicas do estado de Santa Catarina, tornando-as acessíveis à população, em complemento ao portal da transparência do governo. Veja neste post os resultados das análises.

5. Capital de risco em empresas de base tecnológica

Diante de uma grande diversidade de startups surgindo e também de fundos de investimento em venture capital e capital de risco, técnicas de data mining podem auxiliar a encontrar as melhores startups para dados fundos de investimentos, ou também dar uma visão às startups de quais fundos de investimentos são mais propensos a se tornarem investidores.

Em mais um case, a Aquarela analisou as características de startups unicórnios (com valor de mercado superior a U$ 1 bi.), cruzando os dados com seus respectivos fundos investidores.

Entre as perguntas-chave estava identificar padrões e clusters nas empresas unicórnios e comparar as variáveis das empresas com as rodadas de investimentos que receberam de fundos de capital de risco.

Conclusões

Mineração de dados é um processo cujo fim é gerar informações a partir de dados, em que são utilizadas diversas ferramentas e métodos. Ou seja, não há “receita de bolo” para trabalhar com data mining.

Cada caso é único, demandando profissionais com grande capacidade criativa para definição dos modelos.

Data mining é um termo já antigo, levando em conta o grande dinamismo do mundo da tecnologia. Com o passar do tempo também surgiram diversos outros termos que podem gerar confusões. Para isso veja o artigo em que tratamos sobre as diferenças entre BI, data mining e big data.

Por fim, a forma de extrair informações estratégicas a partir dos dados representa o que é data mining. Mas, de forma mais ampla surge o Advanced Analytics, em que a mineração de dados é parte de um processo que envolve desde o desenvolvimento da cultura de Analytics nas empresas, até a construção de análises e sistemas preditivos e prescritivos com uso de IA.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

O que Sun Tzu ensina sobre Data Analytics Parte II

O que Sun Tzu ensina sobre Data Analytics Parte II

No post I, ver aqui, falamos sobre o quanto é importante o planejamento e se preparar para a nossa guerra contemporânea, que tem como objetivo a informação certa no menor prazo possível.

Nosso soldado data scientist  já tem consciência de ferramentas e possíveis estratégias para a batalha da análise de dados. Porém, o fato de ter apenas os métodos comprados e instalados na empresa nem sempre geram resultados, e por que isso acontece?

Disposição de Ferramentas

“7. Prever uma vitória que o homem comum pode prever não corresponde ao auge da habilidade.”

Sun Tzu falava da Disposição das Tropas, nós falamos da Disposição de Ferramentas. Descobrir o óbvio não agrega valor à empresa e é o principal ponto de atenção das equipes de analytics. A exceção a essa regra está nos casos onde análise tem o objetivo de testar um algoritmo ou abordagem e então saber se as ferramentas (metodologia + inteligência artificial) foram capazes de encontrar o que já se sabe e ir além.

Verificamos que a experiência dos analistas é um fator determinante no sucesso dos estudos de analytics. Isso se deve, principalmente, por prever erros estruturais nos fluxos de análise e a criatividade para desenvolver testes contra os algoritmos. Ainda, compará-los em diversas dimensões e eventualmente encontrar explicações esperadas de validação e no auge da habilidade, informações não previstas que geram oportunidades reais de melhoria.

Forças normais e extraordinárias

“5. Na batalha, valha-se da força normal para o combate e utilize a extraordinária para vencer.”

Existem forças normais que podemos usar para complementar as extraordinárias, é o exemplo das ferramentas livres e open source ou mesmo estratégias coerentes de indicadores (KPIs – Key Performance Indicators) já fazem uma diferença bastante grande no desempenho com impacto direto nos níveis de maturidade de analytics.

Agora dependendo do nível da competição, do timing e tamanho do mercado, utilizar ferramentas fechadas podem fazer a diferença do extraordinário, por isso, fique atendo a soluções fechadas disponibilizadas por APIs.

O preço da dúvida

“9. Na guerra, o perito age de maneira sutil e insubstancial, não deixa pistas; divinamente misterioso, é inaudível; torna-se, ele próprio, senhor do destino de seu inimigo.”

No mundo analytics, cases detalhados são raramente divulgados. Do que dá certo ou errado, cada um guarda para si, mais ou menos como no investimento em ações. Aparentemente, uma das formas mais plausíveis de se obter conhecimento real das tentativas e erros é pela incorporação e disseminação de processos de gestão do conhecimento e contratações estratégicas.   

Conclusão: Estratégias

“4. Na guerra, tanto a vantagem quanto o perigo são inerentes às manobras.”

Há uma expectativa bastante grande com relação a qualquer iniciativa de Data Analytics dentro das organizações e isto acontece independentemente do nível de maturidade de dados em que elas se encontram. O fato é que, para chegar a modelos preditivos realmente assertivos, o caminho é tortuoso e multidisciplinar. Por tanto, projetos com poucos recursos (horas de analistas, computadores parrudos, ferramentas de análise e capacitação) tendem a ter resultados coerentes com o investimento.  

Então é isso pessoal, espero que a analogia ajudou no entendimento e que gere valor no seu negócio. Um forte abraço de toda a equipe da Aquarela Advanced Analytics.

Gostou da leitura? Tem muito mais da onde veio este post, inscreva-se em nossa Newsletter e não perca nossos conteúdos!

Fiquem ligados em nossas redes sociais:

Facebook, Twitter, Linkedin

*SUN TZU. A Arte Da Guerra – por uma estratégia perfeita. São Paulo: Madras Editora, 2003.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Otimizando agendamentos médicos com Inteligência Artificial – Case Vitória-ES

Otimizando agendamentos médicos com Inteligência Artificial – Case Vitória-ES

Você tem alguma ideia de quanto dinheiro público é gasto com as faltas em agendamentos médicos?

Sabe quando a pessoa marca uma consulta em uma unidade de saúde pública e não aparece na data?

Pois é, essas faltas geram prejuízo aos cofres públicos (nosso dinheiro, nossos impostos), mas, otimizando o processo, podemos melhorar muito esses indicadores. 

O objetivo deste artigo é apresentar os principais aprendizados de uma intensa pesquisa que realizamos com aplicação de inteligência artificial. Para isso, utilizamos os dados de agendamentos fornecidos pela prefeitura de Vitória no Espírito Santo.

Otimizando a Saúde em Vitória-ES

O número de faltas em consultas médicas nas unidades de saúde da cidade de Vitória-ES alcançou 30,14% do total de consultas realizadas nos últimos 2 anos, um padrão muito semelhante às estatísticas nacionais. 

Apenas em Vitória, esse índice representa um prejuízo aproximado de R$ 19.5 milhões ao ano aos cofres públicos, já que cada falta tem um valor médio que varia entre R$ 76,00 e R$ 92,00,  considerando todos os custos operacionais do agendamento, incluindo o envio de SMS, as ligações de confirmação e os profissionais envolvidos. O valor chega a quase 2 milhões de reais de gasto ao mês, é muita coisa.

A capital do Espírito Santo tem 356 mil habitantes conforme a estimativa de população do Instituto Brasileiro de Geografia e Estatística (IBGE) (2015), é o centro da Região Metropolitana, que congrega mais seis municípios, totalizando uma população estimada em 1,9 milhões de habitantes.

Está localizada estrategicamente na Região Sudeste, próxima dos grandes centros urbanos do país. 

De acordo com o Índice de Desempenho do Sistema Único de Saúde (IDSUS) utilizado pelo Ministério da Saúde para avaliar a qualidade e o acesso ao sistema público de saúde em todos os municípios brasileiros, Vitória foi considerada a capital com melhor saúde pública do país.

Em levantamento realizado pela consultoria Urban Systems, em parceria com a revista Exame, que mapeou mais de 700 cidades com o objetivo de definir as que têm maior potencial de desenvolvimento do Brasil, a capital capixaba ocupa a primeira posição no segmento saúde.

Com a nota 4,4, Vitória ficou no topo do ranking de saúde das cidades inteligentes. O sistema Rede Bem Estar contribuiu para alcançar o resultado. Implantado em toda a rede municipal de saúde, o sistema interliga os equipamentos (unidades de saúde, prontos-atendimentos, farmácias, laboratórios, consultórios odontológicos, centros de referência, de especialidades e prestadores de serviço) em um único sistema.

Os dados analisados

  • 1.575.487 (um milhão, quinhentos e setenta e cinco mil) registros, colhidos em dois anos (2014 e 2015) e um total de 474.833 (quatrocentos e setenta e quatro mil oitocentas e trinta e três) faltas. Este volume de faltas corresponde à 30,14% do total de consultas.
  • 15 fatores de análise – “Idade”, “Sexo”, “Dia da semana”, “Mês de agendamento”, “Hipertensão”, “Diabetes”, “Tabagismo”, “Tuberculose”, “Alcoolismo”, “Bolsa-família”, “Tempo de Espera”, “Deficiência”, “Status de comparecimento”, “Status do envio de mensagens SMS” e “Georeferência das Unidade de atendimento”.

Como esclarecimento, os dados são dos agendamentos e não dos pacientes, portanto é possível haver vários agendamentos de consultas de uma única pessoa.

Resultados

Para a realização do estudo, utilizamos a metodologia DCIM (Data Culture Introduction Methodology) para orientar as análises.

Uma das partes mais demoradas do processo foi a necessidade de aplicar diversas técnicas de higienização de dados para transformá-los em um modelo passível de processamento. Com isso, aplicamos técnicas de Regressão, Redes Neurais, Árvores de Decisão, Redes Bayesianas, Matrizes de correlação e covariância e o Aquarela VORTX Big Data.

Em síntese chegamos aos resultados que mostram a existência de 9 perfis de pacientes faltosos como demonstrado na tabela. Dentre esses, 4 grupos são responsáveis por 75% das ocorrências. Além disso, foi possível descobrir a ordem de influência dos fatores associados às faltas sendo as 3 primeiras: a idade, o prazo entre o agendamento e a consulta(demora da espera), e a presença de alguma deficiência física. Também foi possível verificar que a maior incidência e/ou probabilidade de faltas destes perfis acontecem nas segundas e sexta-feiras. Por outro lado observou-se que o dia mais propenso ao comparecimento do paciente é a quarta-feira.


A partir do processamento das amostras, um dos pontos que chamaram a atenção foi o peso da idade em relação às faltas. Na visualização abaixo buscamos representar uma relação da frequência dos agendamentos pela idade dos pacientes.

Notamos que há uma tendência de maior comparecimento das pessoas com idades mais avançadas, contudo junto com a idade o perfil destas pessoas está na sua maioria atrelada a algum tipo de doença, ao passo que os jovens e adultos tendem a ser mais saudáveis.

Um segundo dado relevante encontrado utilizando a inteligência artificial da plataforma VORTX, foi a influência da quantidade de dias de espera entre o agendamento e a consulta. Assim, atrelamos as duas variáveis em um gráfico de calor no qual cada ponto é um agendamento.

Com isso, é possível notar que as faltas podem acontecer em praticamente todo o espectro das duas variáveis, porém existe uma intensidade maior de faltas na idade adulta  a partir de duas semanas de espera. Além disso, agendamentos de crianças e idosos tendem a um alto comparecimento.


Além destes achados o índice de correlação entre o envio de SMS e o comparecimento na consulta foi de 0,001%, portanto o envio de SMS com um custo mensal aproximado de R$ 10 mil/mês não está sendo eficiente e poderia ser realocado.

Outras correlações fortes emergiram dos dados como diabetes com hipertensão, idade com hipertensão e fumo com alcoolismo, estas já conhecidas dos gestores.

Recomendações

Neste projeto, utilizamos técnicas avançadas de análise de dados para encontrar padrões nos dados históricos de 2014/2015 dos agendamentos nas unidades básicas de saúde de Vitória e traçar o perfil dos usuários que faltam nas consultas, buscando assim, a redução do índice de abstenção.

Este estudo inicial gerou indicações de ações específicas como a alocação de perfis de risco para as quartas-feiras em contraste com os perfis de baixo risco que podem ser agendados nas segundas e sextas-feiras.

Também foi sugerido um alinhamento dos processos de um sistema de check-in online Minha Consulta Web Check-in  e um processo de duplo check-in para os perfis de risco e utilização da estratégia de overbooking.

Utilizando um portal para o check-in, o paciente poderá cancelar ou confirmar sua consulta, sendo que o prazo para realização do check-in se inicia 9 dias antes da sua consulta.

Como os novos métodos de obtenção de informação, a unidade de saúde consegue acompanhar em tempo real, se o paciente já realizou o check-in de sua consulta, seja confirmando ou cancelando e liberando a vaga para outro paciente.

Como a validação dos resultados da pesquisa, as novas medidas administrativas foram aplicadas em duas unidades de saúde (grupo de controle) que em apenas um mês de avaliação apresentaram uma economia real de 6.6% em relação às demais unidades de saúde.

Com estas validações e a expansão do modelo para as 45 unidades de saúde, acredita-se gerar uma economia mínima aproximada de R$ 1,3 milhões no primeiro ano da implantação. Como próximos passos, serão elaborados novos testes relacionados a localização de cada paciente e a criação de novos indicadores de desempenho.

Atualização

Do final do projeto até dezembro de 2017 houve uma redução ainda maior de faltas em agendamentos médicos em Vitória. Atualmente, apenas 16% dos pacientes faltam.

Fiquem atentos às nossas mídias sociais Facebook, Twitter, Linkedin, nossa Newsletter e repassem o conteúdo aos seus conhecidos da saúde. Há muito que otimizar e economizar em nosso país!

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Data Analytics e o impeachment de 2016: Uma análise sem partido

Data Analytics e o impeachment de 2016: Uma análise sem partido

Neste post vamos mostrar que tipos de insights os processos de mineração de dados pode nos fornecer a partir dos dados da votação do processo de impeachment da presidente Dilma no dia 17 de abril de 2016.

Estudo da natureza dos dados e limpeza

Estudar a natureza dos dados é muito importante para a escolha das possíveis abordagens de análise. Nesta etapa utilizamos a estatística, que rapidamente traz as grandezas, distâncias e limitações do objeto de estudo. A estatística nos ajuda na limpeza da base informacional (que em muitos casos apresenta dados faltantes, erros de digitação e assim por diante).

Imagem recortada da planilha.

Assim temos:

Partidos com mais e menos membros votantes:

  • PMDB = 66 votantes
  • PMB = 1 votante

Estados com mais e menos membros votantes:

  • São Paulo = 70 votantes
  • Tocantins = 8 votantes

Números totais de votos:

SIMNÃOAUSENTEABSTENÇÃO
36713727

Gênero dos votantes:

  • Masculino = 462
  • Feminino = 51

Aplicação de técnicas de mineração

Análise de textos

Como todos bem lembramos, cada deputado teve a oportunidade de justificar seu voto, e destes discursos podemos retirar alguns insights.

Na área de mineração existem vários estudos que buscam o sentimento do falante pela combinação das palavras usadas. Aqui vamos utilizar apenas uma contagem proporcional de cada uma das palavras para entender o que pesou mais ou menos no vocabulário dos deputados. Posteriormente, esses valores são excluídos das análises de correlações.

Análise por Fernando Severo

Análise de agrupamentos (clustering ou segmentação)

Para entender qual é a força exercida pelos grupos votantes e como eles se caracterizam, utilizamos a técnica de clustering, que resultou na análise abaixo, onde é possível ver que existem 3 grupos distintos. Divididos da seguinte forma:

  • Grupo 0 Azul = 310 votos – principal força PMDB
  • Grupo 1 Verde = 57 votos – principal força PSDB
  • Grupo 2 Vermelho = 146 votos – principal força PT

Uma das grandes vantagens da análise computacional de segmentos é conseguir sintetizar a complexidade do ambiente sem inclinações ou segundas intenções, pois ele apenas revela ou decodifica a realidade.

Análise preditiva de votos

Agora, aplicamos algoritmos que nos ajudam a fazer predições sobre fatos que já ocorreram. Na imagem abaixo temos a predição de novos votos de cada partido com uma precisão de aproximadamente 86,35%, predizendo com precisão 367 votos sim,  76 não e predizendo erroneamente 70 votos.

Pesos das variáveis

Agora imagine o seguinte: Você quer viajar. Na sua análise mental você começa a pesar fatores como:

  • O estado do carro;
  • A previsão do tempo;
  • O preço da gasolina;
  • A distância a ser viajada;
  • A quantidade de bagagem.

Então, se você colocasse tudo isso numa régua de importância, qual é o fator que mais pesaria e que menos pesaria na sua decisão?

Seguindo esse pensamento, a análise abaixo mostra o que mais pesou para votos = SIM e votos = Não. Vale notar que os partidos políticos pesaram mais do que os estados dos deputados que estão no meio da régua.

Conclusões e Limitações:

Buscamos ser o mais breve possível utilizando apenas algumas técnicas de mineração que consideramos importantes para a natureza dos dados. Pense que os dados são como a farinha para um pão.

Como analistas, podemos fazer diversos tipos de análise, mas se a base não for boa o resultado será ruim. Simples assim.

Além disso, buscamos abstrair o máximo da complexidade matemática das abordagens, e assim esperamos que este post possa ajudar a estender a compreensão do potencial da mineração de dados para descriptografar a realidade, melhorando significativamente a saúde, educação e a gestão do país de um modo geral.

Por exemplo: Encontrando grupos de pacientes e alunos com determinadas tendências, prevendo doenças e epidemias, descobrindo as influências predominantes de uma série de comportamentos sociais, e assim por diante.

Blitz analytics

Mediante a crescente demanda de projetos rápidos usando Advanced Analytics e IA, que gerem mudanças imediatas em diversos níveis dentro das empresas, nós criamos o conceito de Blitz Analytics, usando a metodologia DCIM, aliada ao poder da inteligência artificial da Plataforma Aquarela VORTX.

Executada por nossos cientistas de dados sobre os dados de nossos clientes, a Blitz Analytics entrega um sistema de predição ou prescrição que atendem os requisitos do negócio de forma rápida e assertiva.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Como a estratégia de clusterização em Big Data otimiza negócios?

Como a estratégia de clusterização em Big Data otimiza negócios?

O conceito de clusterização, também chamado de clustering, agrupamentos, por análise de grupos é um tema recorrente na área de aprendizado de máquina e inteligência artificial, por isso criamos um vídeo tutorial que, em síntese, demonstra um problema de forma visual, um caso real e algumas conclusões.

Descrição do vídeo em português

Para facilitar a absorção do conceito, utilizamos um exemplo bastante visual. Assim, imagine que você tem em uma fábrica têxtil e quer produzir o maior número de bandeiras de todo os países conhecidos, algo em torno de 200 tipos com cores e formatos diferentes.

Interessa saber quais quais os padrões de cores e formatos para otimizar e organizar a linha de produção? Essa é a ideia, reduzir custos e tempo, mantendo qualidade e volume.

Figura 1. Representação dos dados brutos, sem detecção de padrões.

Um bom algoritmo de agrupamento deve ser capaz de identificar padrões nos dados como nós humanos conseguimos identificar visualmente bandeiras com características comuns, por terem os mesmos padrões, como são as bandeiras da Itália, Irlanda e México, no exemplo abaixo.

Podem existir padrões de cores, forma, figuras, etc. Um fator que diferencia algoritmos de clusterização para os de classificação é que estes não tem a informação do padrão junto com os dados, ou seja, ele deve descobrir automaticamente.

Figura 2 – Cluster zero (0) composto pelas bandeiras Itália, Irlanda e México.

Neste contexto, tão importante quanto identificar os grupos com indivíduos semelhantes são as identificações dos indivíduos que não se assemelham com nenhum outro. Os chamados outliers, que são as exceções, elementos únicos que não compartilham características com outros elementos.

Figura 3 – Cluster seis (6) composto pela bandeira do Nepal. Uma exceção.

Por fim, em um resultado final de clusterização, temos um número de 8 grupos formados pelas bandeiras que apresentam características semelhantes e indivíduos isolados, por serem ouliers.

Figura 4 – Clusters formados ao final do processamento.

Um dos fatores mais importantes de processamento de grupos é número de grupos onde os elementos serão alocados. Em muitos casos, temos observado resultados diferentes quando aplicamos os mesmos dados, nas mesmas condições de processamento e parametrização, em diferentes algoritmos.

sso é muito importante. Veja o que poderia ser o resultado de uma clusterização imprecisa.

bandeiras4

Figura 5: Clusters resultantes de um agrupamento impreciso.

A questão prática é:

Você investiria o seu dinheiro nisso?

Provavelmente não, e resolver esse problema é o desafio dos cientistas de dados. Na prática, já aplicamos em diversos segmentos, em um deles identificamos padrões da características dos pacientes que mais faltam às consultas médicas, gerando custos e ingerência em consultórios, clínicas e hospitais.

O resultado foi um surpreendente grupo com 50% dos dados analisados, o que merece realmente uma política específica para redução dos custos e impactos de operação.

O que pensariam os clientes que ficaram sem horário para consulta? Como não dar razão aos diretores financeiros destas organizações?

 Outras possíveis aplicações estão no post “14 setores para aplicação de Big Data e dados necessários para as análises”. no blog da Aquarela.

Conclusões

  • Nossa visão é muito poderosa para classificação de imagens como no caso das bandeiras.
  • É humanamente impossível fazer análises e correlações lógicas dos números de um grande banco de dados, para isso foram criados os algoritmos de clusterização.
  • A acurácia (exatidão) dos resultados de clusterização são fundamentais para a tomada de decisão de investimentos.
  • Diversos setores podem se beneficiar dessa abordagem de gestão.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores