Inteligência Artificial em análises georreferenciadas

Inteligência Artificial em análises georreferenciadas

Geografia é uma área de conhecimento que estuda a Terra e sua ocupação pelo homem. Os campos de estudo variam em geografia física (relevo, clima, vegetação, etc) e análise de relacionamento (população e ambientes que ocupam).

Dentro da Geografia existe a cartografia, que é uma ciência para representação gráfica da superfície terrestre, tendo como finalidade a criação de mapas para diversos objetivos. Ou seja, procura produzir, difundir, utilizar e estudar os mapas utilizando símbolos, cores, linhas, hachuras, entre outros tipos de representações. Isso tudo é muito importante para entendermos o ambiente em que vivemos.

E a Inteligência Artificial?

Hoje, vivemos uma cartografia digital interconectada, para um âmbito mais minucioso e urbano, que permite localizar os estabelecimentos mais próximos (com telefone e horário de funcionamento) e ainda por cima saber qual a melhor rota para se chegar lá, seja a pé, ônibus ou carro (pelo Waze e Google Maps). Tudo em segundos, agilizando a vida.

Isso é a Inteligência Geográfica baseada em dados, e estes são passíveis de aplicação de Inteligência Artificial (Advanced Analytics, termo sucessor do Big Data).

A Inteligência Geográfica é um termo utilizado pelas empresas para basear suas tomadas de decisões de uma perspectiva que envolve coordenadas geográficas. Portanto, estas variáveis são tão importantes para decisões quanto a perspectiva de tempo (minutos, horas, dias), pois normalmente projetos são pautados em algum lugar e em algum tempo.

Hoje, tornou-se difícil imaginar alguma informação do dia a dia sem algum componente geográfico.

A Inteligência Geográfica pode revelar padrões e aspectos fundamentais do comportamento do negócio de modo muito mais rápido e intuitivo do que qualquer texto, ou seja, uma imagem pode valer mais do que mil palavras.

Análises georreferenciadas nos negócios

Existem várias maneiras de se introduzir as análises geográficas no campo profissional. Uma delas, é o uso de softwares de BI (Business Intelligence) que tenham essa solução embutida e de fácil usabilidade, permitindo que os usuários visualizem o negócio de forma sistêmica, sem nenhuma linha de código e com diversos níveis de audiência e filtros (vale a leitura de nosso artigo sobre as diferenças entre BI, data mining e big data).

Em resumo uma plataforma de BI com funcionalidades de geo-referência, bem customizada e com os dados coletados de forma adequada vão permitir descobrir:

  • Onde estão os principais clientes?
  • Onde atua a concorrência com mais ou menos intensidade?
  • Qual a rentabilidade e resultado das campanhas de marketing por região?
  • Qual o potencial de mercado ou de fraudes de determinada região?

Limitações dos sistemas de BIs

Com as soluções de BI já é possível criar valor ao negócio em muito pouco tempo, porém há momentos em que os analistas de dados e gestores chegam ao que chamamos de “Stress do Modelo”.

O ponto de stress é uma situação típica que acontece quando são feitas centenas de combinações manuais de variáveis durante dias – e até meses – e não surgem novos insights relevantes. Como resultado, pode haver frustração sobre o investimento em análise de dados e às vezes até questiona-se a qualidade do analista de BI, o que raramente é o caso.

Quando a conta não fecha?

A equação não fecha quando as possibilidades de análise (potencial combinatório) crescem muito mais rápido do que a capacidade dos analistas de testar as hipóteses que crescem exponencialmente. 

No gráfico abaixo, demonstramos esse padrão que inicialmente é dominado pela grande área de curiosidade (quadrante 1) que vai se reduzindo ao longo do tempo com os investimentos em análise de dados e ferramentas. Com o tempo, novos dados são gerados e incorporados nas análises fazendo com que se multiplique as oportunidades de cruzamento dos mesmos.

Agora, se introduzirmos a variável gênero “Masculino e Feminino” no conjunto de dados, podemos dobrar os tipos de análise e se introduzirmos mais 30 bairros e 200 tipos de profissão, há uma explosão combinatória analítica.

Este espaço entre a capacidade de análise e a complexidade dos dados (quadrante 2) é onde há muita frustração e um desconforto generalizado, por que é difícil apontar de forma precisa um culpado pelos ausência de novos insights.

As empresas estão buscando nas tecnologias de inteligência artificial uma forma de mitigação drástica da complexidade de análise. Uma das principais barreiras para rápida adoção de IA nos processos de transformação digital é a falta de uma cultura de dados, algo que é anterior às ferramentas.

O quadrante 3 representa o espaço do senso comum ou do conhecimento já incorporando pela organização em seus processos de gestão do conhecimento. 

Guia de introdução à cultura analítica

Para ajuda-lo a quebrar essas barreiras no processo de adoção da cultura de dados, nós desenvolvemos um ebook que descreve as etapas e desafios na implementação do Data Analytics, baixe agora e descubra como sair na frente nesta que já é considerada a quarta grande revolução tecnológica!

Inteligência Artificial aplicada em dados geográficos.

O mercado de Inteligência Artificial está em franca expansão. No que tange às estratégias de negócio baseadas em geografia, existem alguns fatores propulsores desse movimento:

  • maior abundância de dados;
  • sistemas de informação cada vez mais integrados;
  • geolocalização democratizada pelos dispositivos móveis;
  • custo de computação cada vez menor.

O valor das soluções de Inteligência Artificial está no fato delas serem  uma espécie de “turbo” que pode ser adaptado aos sistemas tradicionais de BI, e/ou  um tipo de “prótese cognitiva” para os analistas de dados. Permitindo que descubram padrões relevantes em menos tempo e também evitem navegar infinitamente em lugares virtuais (combinações de variáveis) que não fazem sentido pro negócio e despendem recursos.

Nos links abaixo demonstramos na prática dois casos de estudo de aplicação da inteligência artificial geográfica:

Exemplo da Secretaria da Fazenda de Santa Catarina

Para exemplificar melhor como é utilizado a Inteligência Geográfica dentro do VORTX, elaboramos uma pesquisa com os dados financeiros de todas as obras executadas pelo estado de Santa Catarina a partir do ano de 2006. Essa pesquisa está neste link – Inteligência Artificial aplicada as obras de Santa Catarina.

Abaixo segue uma prévia e logo na primeira imagem temos uma visão geral do estado de Santa Catarina, como também as proporções dos tipos de obras executadas nos últimos 5 anos. Assim, conseguimos ver que no lado esquerdo existem grupos que vão de 1 até 17, representando tipos diferentes de obras.

Quem descobre os tipos das obras e as proporções?

As descobertas não são feitas por pessoas, mas sim por máquina – por várias máquinas, para ser mais específico. A tecnologia da Aquarela consegue fazer com que os dados geográficos e das obras sejam sintetizados correlacionando e levando em consideração todos os pesos de todas as células da uma planilha com mais de 6.000 linhas e com mais de 20 colunas, o que logicamente seria um trabalho quase que humanamente impossível.

Como ficam as visualizações?

Todas as obras que fazem parte do mesmo grupo podem ser chamadas de obras gêmeas. Assim, torna-se fácil descobrir quais tipos de empreendimentos correspondem a 80% dos investimentos do estado, onde estão distribuídas e também encontrar casos discrepantes/outliers (mais informações sobre eles neste post – O que são outliers).

Aproximando um pouco mais o mapa, conseguimos ter uma visão das proporções de cidade e não região, dependendo do quão preciso é a pesquisa geográfica, isso pode ser uma arma muito importante nas futuras decisões e políticas públicas.

Na terceira imagem aproximamos um pouco mais da região de Florianópolis (onde se encontra a Aquarela), conseguimos ter uma visão mais detalhada, conseguindo pegar regiões de uma cidade e não de um estado, vendo quais semelhanças são mais fortes.

Onde estão os detalhes de cada um dos tipos de obras?

Para entender o comportamento de cada um dos grupos de modo a poder dar nomes a eles. A ferramenta traz sumários estatísticos e visualizações multifacetas como estas abaixo do grupo 5, que são obras com custo total em torno de 60 a 70 milhões de reais e uma média de 121 dias de paralisação, dentre outros valores.

Conclusões

Negócios baseados em estratégias geográficas apresentam um grande potencial de mercado, sobre tudo com a necessidade de transformação digital da indústria.

Devido as diferenças entre as projeções da complexidade dos dados e a capacidade de execução do time de BI ao longo do tempo, há falsas expectativas que devem ser contornadas e tratadas pelo time de gestão.

Profissionais experientes nestas área são escassos. Portanto,  recomendamos cuidar bem dos especialistas de BI. O trabalho destes(as) profissionais chega a ser heroico (carregando, transformando, processando e limpando dados) para gerar visualizações relevantes e, as vezes, isso não é possível sem a ajuda de ferramentas de IA na área de Machine Learning.

O nível de maturidade de dados conta muito para que ferramentas de Inteligência Artificial possam ser utilizadas na prática. Por exemplo, os dados disponibilizados pela Secretaria da Fazenda de Santa Catarina, além de estarem completos e organizados, ainda continham todas as coordenadas geográficas de cada uma das obras. Esse nível de qualidade dos dados infelizmente ainda é algo incomum em nosso país.

Fique por dentro

Para receber mais posts sobre Inteligência Artificial é só assinar nossa Newsletter aqui.

Conheça também

VORTX – GEO-Marketing de expansão – Módulo da plataforma especialmente desenvolvido para análises geográficas de alto impacto e grande precisão. 

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Inteligência Artificial para segmentação de perfis: O Titanic

Inteligência Artificial para segmentação de perfis: O Titanic

Neste Post tocaremos no assunto mais polêmico referente ao naufrágio do Titanic: A porta flutuante tinha espaço suficiente para Jack e Rose? (rs) Brincadeiras a parte, aqui abordaremos como o uso de Inteligência Artificial pode ajudar a descobrir os perfis de sobreviventes da tragédia de 1912. Para isso, separamos um dataset com informações das pessoas que embarcaram no Titanic.

Apesar da grande tragédia da viagem, os dados disponibilizados são muito ricos em detalhes, e por isso são amplamente utilizados nas comunidades de inteligência artificial, aprendizado de máquina e mineração de dados, uma vez que podem ser processados (passando por segmentação) por diversos tipos de algoritmos.

 Na conclusão deixamos algumas ideias de como essa abordagem inovadora pode otimizar e alavancar negócios.

Sumário dos dados

Segundo a Enciclopédia Titânica, o número correto de passageiros foi 2.208, dos quais 1496 morreram e 712 sobreviveram. Dos dados que tivemos acesso, os números são os seguintes:

  • 1309 pessoas abordo, dos quais 500 sobreviveram (38%) e 809 (62%) morreram.
  • Média de idade estimada 29,88 anos.
  • 466 mulheres, das quais 127 morreram e 339 sobreviveram.
  • 843 homens, dos quais 682 morreram e 161 sobreviveram.
  • O preço médio da passagem foi de £53,65 libras para o feminino e £76.60 para masculino.

Para mais detalhes desses dados, sugirimos a consulta no Google pelo seguinte termo de busca : Titanic Dataset.

Fatores em análise

Infelizmente, 267 passageiros (20,39%) tiveram de ser excluídos da análise porque as idades não foram informadas. Além disso, dos 15 fatores apresentados no arquivo original, selecionamos apenas aqueles numéricos com pesos mais fortes calculados pelo VORTX. Normalmente classificamos fatores, variáveis ​​ou atributos de dados nas 3 seguintes categorias:

  • Protagonista – Fatores com forte influência positiva para gerar padrão de agrupamento com clareza (alto valor).
  • Antagonista – Fatores com ruído e/ou influência negativa aos padrões gerados pelo fator protagonista.
  • Coadjuvantes – Fatores que não desempenham um papel significativo na análise, mas podem enriquecer os resultados.

De acordo com o poder de influência, os protagonistas escolhidos para esta análise foram:

  • Idade do passageiro = 87,85%
  • Valor da passagem = 72,69%
  • Número de pais de crianças no navio = 71,69%
  • Número de irmãos ou cônjuges no navio = 72,42%

Nos primeiros processamentos do conjunto de dados, o fator “Gênero” que indica se o passageiro era homem ou mulher, tendiam a ter um papel antagonista à formação do grupo. Isso significa a ausência de um padrão para formar os grupos e o índice de nitidez dos dados cai de 30% para menos de 7%, justificando a remoção desse fator da análise.

Segmentação: Resultados com o VORTX

Após o processamento, o VORTX trouxe os seguintes indicadores, dos quais não são oferecidos por outros algoritmos de agrupamento, portanto, explicamos brevemente cada um deles:

  • Nitidez (Sharpness) = 33,64%. Ele mostra a visibilidade do padrão nos dados ou o quão confiante a máquina está sobre a formação dos grupos. Segundo a nossa escala de qualidade, uma nitidez acima de 20% já é útil para a tomada de decisão.
  • Descoberta automática de segmentos (grupos) = 8. Esta é uma função que torna todo o processo muito mais fácil para o analista de dados. Ao contrário de k-means e outros algoritmos conhecidos, VORTX encontra o número certo (ideal) de grupos automaticamente, reduzindo drasticamente os erros de segmentação que acontecem quando o analista informa um determinado número não condizente a realidade. Ex. Imagine que todos os elementos são amarelos e você manda segmentar em 5? O resultado será 5 grupos amarelos. Ao contrário também é possível, existem 5 grupos sendo um de cada cor e você manda o algoritmo separar todos em 3 grupos. Resultado, haverão elementos de cores diferentes dentro do mesmo grupo.
  • Distinção dos grupos = O quão único é um grupo em relação a todos os demais. Neste caso, o mais distinto é o número 5 com 51,48% (cor mais escura) em contra partida, o grupo menos distinto é o 1 com 8,58%. Isto significa que os elementos do grupo 5 tendem a ser mais homogêneos do que os outros grupos.

Tela do VORTX Big Data

Ao analisar os grupos, adicionando a coluna que indica a sobrevivência ou não do passageiro após o evento, foi possível gerar a taxa de sobrevivência de cada grupo e a tarifa média de bilhetes por grupo. Em uma visualização rápida e sumarizada, aqueles que têm as características do grupo 5 ou 7 têm mais chances de sobreviver ao naufrágio.

Indicadores gerados a partir da análise de grupo – Contagem de pessoas por grupo, taxa de sobrevivência, valor médio da passagem por grupo.

Nomeação de grupos

 Para operacionalizar uma estratégia de gestão em qualquer setor (saúde, indústria, varejo e etc) você precisa nomeá-los para estudar as características de cada grupo. Para isso, deve-se olhar para as características predominantes de cada grupo (persona).

Segue abaixo uma comparação visual, de apenas 4 grupos, com o fator “Idade”. Como este é um gráfico de frequência, quanto mais alto está a linha no gráfico maior é o número de passageiros com essa característica. Esses fatores podem ser facilmente estudados de forma interativa na VORTX DATASCOPE.

 Ainda, uma outra forma de entender as características do grupo é olhar diretamente  para os dados agrupados. Neste caso, eu tirei um screenshot dos dados do grupo 5, que tem os passageiros mais distintos e homogêneos do navio. A partir disso dá para dizer que esse grupo é dos jovens que viajam com toda a família de alta renda.

Conclusões e recomendações

O passageiro mais típico é uma pessoa jovem, com uma idade média de 21 anos e que pagou, em média, £26,35. Enquanto o passageiro outlierleia aqui o que são outliers e como tratá-los em uma análise de dados – é um indivíduo no grupo 8, que tinha 38 anos, pagou £ 7.775, estava viajando com ambos os pais e mais 4 irmãos.

Olhando para o caso (apenas mil registros) não é um número grande o suficiente para descobrir mais perfis. Contudo, se você tem milhões de transações e clientes a ferramenta poderá servir de instrumento chave para otimizar a gestão, reduzir custos e melhorar produtos para o seu público.

Agora, pense consigo com base no que você leu aqui:

  • Quem é o seu cliente mais típico?
  • Quais são as características de cada grupo de clientes?
  • Qual é o custo total ou receita por grupo?
  • Quais grupos representam 80% do seu custo ou receita?
  • Quais os grupos que você deseja abordar na sua estratégia, e quais não?
  • Quais são os fatores protagonistas, antagonistas que mais afetam a sua estratégia?
  • A persona (grupo) criado pelo VORTX coincide com a persona que você tem hoje? Agora é possível comparar e aperfeiçoar!

Esperamos que esse breve estudo seja interessante e útil para que você possa planejar suas grandes decisões (ou do seu negócio) utilizando inteligência computacional.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

Como a estratégia de clusterização em Big Data otimiza negócios?

Como a estratégia de clusterização em Big Data otimiza negócios?

O conceito de clusterização, também chamado de clustering, agrupamentos, por análise de grupos é um tema recorrente na área de aprendizado de máquina e inteligência artificial, por isso criamos um vídeo tutorial que, em síntese, demonstra um problema de forma visual, um caso real e algumas conclusões.

Descrição do vídeo em português

Para facilitar a absorção do conceito, utilizamos um exemplo bastante visual. Assim, imagine que você tem em uma fábrica têxtil e quer produzir o maior número de bandeiras de todo os países conhecidos, algo em torno de 200 tipos com cores e formatos diferentes.

Interessa saber quais quais os padrões de cores e formatos para otimizar e organizar a linha de produção? Essa é a ideia, reduzir custos e tempo, mantendo qualidade e volume.

Figura 1. Representação dos dados brutos, sem detecção de padrões.

Um bom algoritmo de agrupamento deve ser capaz de identificar padrões nos dados como nós humanos conseguimos identificar visualmente bandeiras com características comuns, por terem os mesmos padrões, como são as bandeiras da Itália, Irlanda e México, no exemplo abaixo.

Podem existir padrões de cores, forma, figuras, etc. Um fator que diferencia algoritmos de clusterização para os de classificação é que estes não tem a informação do padrão junto com os dados, ou seja, ele deve descobrir automaticamente.

Figura 2 – Cluster zero (0) composto pelas bandeiras Itália, Irlanda e México.

Neste contexto, tão importante quanto identificar os grupos com indivíduos semelhantes são as identificações dos indivíduos que não se assemelham com nenhum outro. Os chamados outliers, que são as exceções, elementos únicos que não compartilham características com outros elementos.

Figura 3 – Cluster seis (6) composto pela bandeira do Nepal. Uma exceção.

Por fim, em um resultado final de clusterização, temos um número de 8 grupos formados pelas bandeiras que apresentam características semelhantes e indivíduos isolados, por serem ouliers.

Figura 4 – Clusters formados ao final do processamento.

Um dos fatores mais importantes de processamento de grupos é número de grupos onde os elementos serão alocados. Em muitos casos, temos observado resultados diferentes quando aplicamos os mesmos dados, nas mesmas condições de processamento e parametrização, em diferentes algoritmos.

sso é muito importante. Veja o que poderia ser o resultado de uma clusterização imprecisa.

bandeiras4

Figura 5: Clusters resultantes de um agrupamento impreciso.

A questão prática é:

Você investiria o seu dinheiro nisso?

Provavelmente não, e resolver esse problema é o desafio dos cientistas de dados. Na prática, já aplicamos em diversos segmentos, em um deles identificamos padrões da características dos pacientes que mais faltam às consultas médicas, gerando custos e ingerência em consultórios, clínicas e hospitais.

O resultado foi um surpreendente grupo com 50% dos dados analisados, o que merece realmente uma política específica para redução dos custos e impactos de operação.

O que pensariam os clientes que ficaram sem horário para consulta? Como não dar razão aos diretores financeiros destas organizações?

 Outras possíveis aplicações estão no post “14 setores para aplicação de Big Data e dados necessários para as análises”. no blog da Aquarela.

Conclusões

  • Nossa visão é muito poderosa para classificação de imagens como no caso das bandeiras.
  • É humanamente impossível fazer análises e correlações lógicas dos números de um grande banco de dados, para isso foram criados os algoritmos de clusterização.
  • A acurácia (exatidão) dos resultados de clusterização são fundamentais para a tomada de decisão de investimentos.
  • Diversos setores podem se beneficiar dessa abordagem de gestão.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores