O que é data mining (mineração de dados)?

O que é data mining (mineração de dados)?

Data mining, ou mineração de dados, é a prática de examinar dados que já foram coletados – utilizando diversos tipos de algoritmos, normalmente de forma automática –, a fim de gerar novas informações e encontrar padrões. Veja em mais detalhes neste artigo o que é data mining, e como a mineração de dados se coloca diante de temas mais recentes como o Advanced Analytics e a Indústria 4.0.

Na prática, como funciona a mineração de dados?

Considerando que minerar dados é um processo de transformar dados em informações úteis (dados mais valiosos a partir de dados complexos).

Para atingir esse objetivo, alguns passos são realizados, como: encontrar padrões, associações e anomalias gerais nos dados.

Em data mining não importa a forma como os dados foram coletados, se via banco de dados, web scraping, API`s, etc.

Data mining, seu surgimento, e a economia da informação

O advento do data mining surgiu com a emersão da economia da informação, que por sua vez representa a informação sendo utilizada como mercadoria e como bem de produção.

Economia da informação é um termo que teve como uma das suas primeiras aparições no mundo científico em 1986, com Bruce Greenwald e o Nobel de economia Joseph Stiglitz.

Neste contexto, os acadêmicos argumentam que as pessoas não possuem acesso a todas informações disponíveis, o que torna os mercados imperfeitos.

Esse foi, na época, um argumento distante da premissa econômica até então dominante que afirmava que a mesma informação era acessível a todos. Sendo assim, a informação passou a ser vista como um diferencial, como uma forma de extrair insights para melhorar as decisões gerenciais no âmbito corporativo.

Na economia da informação praticamente todas as transações e operações realizadas por pessoas e empresas no dia a dia geram algum tipo de dados. Data mining entra neste contexto com a aplicação de equações matemáticas e métodos estatísticos, que vão desde o uso de uma regressão logística, até redes neurais, deep learning, análise de clustering(agrupamentos) e classificações automáticas.

Uma das primeiras soluções focadas em data mining, para fins de exemplificação, foi o software WekaO Weka, criado em 1993 e mantido até os dias atuais, é uma rica coleção de algoritmos de machine learning e data mining.

O propósito do software em sua concepção foi permitir que o usuário não precisasse conhecer linguagens de programação para fazer o pré-processamento dos dados (organizá-los) e assim aplicar diversos algoritmos prontos em seus próprios dados.

Data mining na Indústria 4.0

Mais do que a economia da informação, hoje vivemos em uma transição econômica como um todo para a indústria 4.0.

A Indústria 4.0 caracteriza-se por serviços concebidos e produzidos de forma descentralizada, com forte apoio de Advanced Analytics, Inteligência Artificial (a máquina com capacidade de aprender) e Inteligência Coletiva (as pessoas, coletivamente, cooperando para que as máquinas aprendam). Esse processo teve seu início com o boom da internet no começo dos anos 2000.

Leia mais sobre Indústria 4.0.

Na Indústria 4.0 os smartphones, por exemplo, permitem tanto a Inteligência Artificial quanto a Inteligência Coletiva fazerem parte das decisões do dia a dia das pessoas.

Com isso, uma imensidão de dados é gerada, cada vez em maior quantidade.

Nesse contexto, a mineração de dados é a base para uma integração com métodos mais avançados, que envolvem desde as ferramentas mais básicas – como regressões e árvores de decisão – até modelagens mais complexas com elevado nível de otimização de análise, utilizando também métodos de aprendizagem de máquina, big data, entre outros.

Nestes casos o propósito costuma ser análises preditivas e prescritivas, que conduzem os indivíduos a tomarem suas decisões de forma mais rápida, automatizada e otimizada.

Como aplicar data mining em um ambiente de negócio?

Na mineração de dados, o que gera valor de fato é o conjunto de ações que são tomadas a partir dos processamentos dos dados. Para isso, é preciso saber onde aplicar as técnicas e quais ferramentas de mineração são mais adequadas para cada caso, dando vida a um novo perfil de profissionais chamada Cientista de Dados

Então, onde se aplica data mining? Sempre que existirem processos definidos, têm-se dados. Usa-se a mineração de dados no momento em que as alternativas iniciais de análise foram esgotadas, como análises a “olho nú”, com planilhas de dinâmicas ou ainda com o uso de estatística descritiva, entre outros.

Veja a seguir uma lista de exemplos práticos da aplicação da mineração de dados em ambientes de negócio, que conduzem a melhorias das decisões gerenciais e estratégicas:

1. Dados gerados internamente nas organizações

Dados transacionais ou extraídos de sistemas em geral da organização podem ser tratados e minerados.

São exemplos: dados de CRM, ERP, softwares de marketing digital, plataformas de monitoramento de websites (como o Google Analytics), e-commerce, supply-chain, dados de logística, entre outras inúmeras áreas de negócios.

2. Dados sociais

Dados que estão sempre crescendo e descrevem pessoas: quem são, onde estão, que serviços e produtos estão usando. Usar esses dados para fins de negócios é a maneira como a economia da informação funciona e um dos grandes motores no advento da indústria 4.0.

3. Área da saúde

A mineração de dados possui diversas aplicações na área da saúde. Como um exemplo das possibilidades de aplicação, a Aquarela, juntamente com a Prefeitura de Vitória/ES, minerou e analisou dados de faltas em agendamentos médicos.

Após as análises foram tomadas decisões estratégicas que reduziram as faltas em agendamentos de cerca de 30% para aproximadamente 15%. A economia gerada aos cofres públicos é milionária. Veja o case em detalhes.

4. Obras públicas

Com a tendência de transparência pública no Brasil, cada vez mais dados públicos têm sido disponibilizados gratuitamente via web. Isso viabiliza a realização de análises que podem levar à população um poder extra de monitoramento de como o dinheiro público tem sido utilizado.

Como case de exemplo, a SEFAZ/SC e a Aquarela Advanced Analytics, utilizaram técnicas avançadas de análise de dados para a descoberta de padrões de obras públicas do estado de Santa Catarina, tornando-as acessíveis à população, em complemento ao portal da transparência do governo. Veja neste post os resultados das análises.

5. Capital de risco em empresas de base tecnológica

Diante de uma grande diversidade de startups surgindo e também de fundos de investimento em venture capital e capital de risco, técnicas de data mining podem auxiliar a encontrar as melhores startups para dados fundos de investimentos, ou também dar uma visão às startups de quais fundos de investimentos são mais propensos a se tornarem investidores.

Em mais um case, a Aquarela analisou as características de startups unicórnios (com valor de mercado superior a U$ 1 bi.), cruzando os dados com seus respectivos fundos investidores.

Entre as perguntas-chave estava identificar padrões e clusters nas empresas unicórnios e comparar as variáveis das empresas com as rodadas de investimentos que receberam de fundos de capital de risco.

Conclusões

Mineração de dados é um processo cujo fim é gerar informações a partir de dados, em que são utilizadas diversas ferramentas e métodos. Ou seja, não há “receita de bolo” para trabalhar com data mining.

Cada caso é único, demandando profissionais com grande capacidade criativa para definição dos modelos.

Data mining é um termo já antigo, levando em conta o grande dinamismo do mundo da tecnologia. Com o passar do tempo também surgiram diversos outros termos que podem gerar confusões. Para isso veja o artigo em que tratamos sobre as diferenças entre BI, data mining e big data.

Por fim, a forma de extrair informações estratégicas a partir dos dados representa o que é data mining. Mas, de forma mais ampla surge o Advanced Analytics, em que a mineração de dados é parte de um processo que envolve desde o desenvolvimento da cultura de Analytics nas empresas, até a construção de análises e sistemas preditivos e prescritivos com uso de IA.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Inteligência Artificial aplicada às obras do Estado de Santa Catarina

Inteligência Artificial aplicada às obras do Estado de Santa Catarina

Em setembro de 2017 realizamos um curso em parceria com o SENAC/Palhoça de Introdução à cultura de dados. Neste evento, ao invés de utilizarmos dados sintéticos ou de problemas de outros países, optamos por trabalhar com dados das obras administradas pela gestão pública, com o propósito de ajudar no aprendizado dos alunos, mas também gerar valor à comunidade. Em nossa visão, integrar estudantes, profissionais, empresas e governo é uma prática que deveria ser disseminada no país.

Na sequência está o resumo deste trabalho realizado a pelo menos 40 mãos. Vale aqui também pontuar os seguintes apoios:

  • Time da fazenda estadual de Santa Catarina, responsável pelo portal da transparência, e a equipe responsável pela gestão do Sistema Integrado de Controle de Obras Públicas (SICOP), que prontamente nos atenderam para escolher, explicar e disponibilizar um conjunto de dados no formato adequado para as análises. Além disso, acompanharam os resultados iniciais e repassaram feedbacks essenciais para o amadurecimento do estudo.
  • Time da Wegov  que ajudou a fazer a ponte entre a Aquarela e Fazenda ainda no ano passado (2016).

Nota:
Este artigo foi publicado inicialmente no dia 16 de outubro de 2017, tendo sido revisado dia 26 de janeiro de 2018, após feedback enviado à Aquarela pela Fazenda/SC. A Fazenda pontuou alguns equívocos na apresentação dos dados que estavam elevando os valores de algumas agregações das obras. Este era o caso, por exemplo, da agregação dos dados por municípios, que inicialmente havia sido feita, mas foi substituída por uma nova tabela (Tabela 1) com o detalhamento no nível do Contrato, não do município – o mesmo contrato pode se referir a mais de um município. As análises de clusterização não foram alteradas, pois os padrões permanecem os mesmos, mas foram adicionados detalhes na interpretação dos clusters com base no feedback recebido. Assim, ressaltamos a importância de um governo transparente e agradecemos o retorno que tivemos da Fazenda do Estado de Santa Catarina.

Agora vamos para as análises!

Organização das análises

Objetivo

Utilizar técnicas avançadas de análise de dados para a descoberta de padrões de obras públicas do estado de Santa Catarina, tornando-as acessíveis à população em complemento ao portal da transparência do governo.

Perguntas chaves

  1. Quais são os maiores contratos de obras públicas no estado de Santa Catarina?
  2. Como são distribuídos os gastos por áreas (saúde, educação, transportes, etc) ao longo dos anos e entre os municípios?
  3. Quais são as características mais comuns das obras no estado?

Os dados das obras estaduais

O conjunto de dados (dataset) escolhido foi disponibilizado pelo portal da transparência do governo de Santa Catarina neste link. Ao todo foram 6.663 registros de obras públicas estaduais desde 2005. Os dados brutos podem ser baixados na sequência deste relatório em formato .CSV.

Análise parte 1: gráfico interativo, tabelas e rankings

Para responder as duas primeiras perguntas-chave levantadas, a seguir mostramos o gráfico da latitude e longitude das obras realizadas no Estado de Santa Catarina nos últimos 5 anos, bem como tabelas que resumem e viabilizam filtros nos dados. No gráfico, escolha o ano que deseja analisar para atualizar o gráfico. As cores dos círculos representam as áreas das obras. Os tamanhos dos círculos são definidos pelo Valor Total da obra, que contempla a soma do valor original de contrato mais valores aditados no decorrer do projeto.

Vale ressaltar que a visualização a seguir não ocorre em tempo real, mas sim de forma estática, utilizando dataset cedido pela Fazenda do Estado de Santa Catarina atualizado para outubro de 2017.

Visualização por ano e por situação das obras nos últimos 5 anos (2012-2017)

Veja por exemplo, que no ano de 2014 (copa e eleições presidenciais) o Estado de Santa Catarina teve muito mais obras do que nos outros anos demonstrados no gráfico. Ou ainda, veja as obras que estão paralisadas (com referência em outubro de 2017), ano a ano, desde 2012. Os detalhes e motivos de cada uma dessas situações dependem de uma análise mais detalhada que contemple outros datasets e um olhar dos auditores e especialistas responsáveis.

Respostas às duas primeiras perguntas-chave

Primeiramente, ao realizarmos uma ordenação por valor das obras na Tabela 1 (agregada por contratos), conseguimos responder quais são as obras com maiores volumes de investimentos em obras públicas no estado de Santa Catarina. Na sequência, as descrições das cinco maiores obras:

  • Restauração e Reabilitação da Ponte Hercílio Luz – Florianópolis/SC – R$ 275 milhões – Ano 2014;
  • Ampliação da Capacidade da Rodovia SC-486 trecho: Antônio Heil (BR-101 – Brusque) – R$ 155 milhões – Ano 2014;
  • Implantação e pavimentação SC-108 trecho: Acesso norte de Blumenau – R$ 141 milhões – Ano 2014;
  • Centro de Eventos Balneário Camboriú – R$ 114 milhões – Ano 2014;
  • Pavimentação SC-477 – Volta Grande – Dr. Pedrinho / Moema (Volta Triste) – Inicio Variante – R$ 114 milhões – Ano 2014.

Acerca da segunda pergunta-chave levantada, sobre como são distribuídos os gastos públicos por áreas (saúde, educação, etc) ao longo dos anos, conseguimos obter a resposta realizando filtros no gráfico dinâmico e interativo apresentado anteriormente, mas também pela Tabela 2. Ao ordenarmos às obras por Valor Total e por áreas percebe-se que as 5 áreas com maiores gastos são: transporte rodoviário; educação; agricultura; justiça e cidadania e saúde. Já as 5 áreas que receberam menos investimentos nos últimos 5 anos foram (da menor para a maior): saneamento; meio ambiente e recursos hídricos; habitação; infraestrutura administrativa; e transporte aeroviário.

Análise parte 2: perfil das obras por clusterização com o VORTX

Para responder à quarta pergunta-chave, sobre as características mais comuns das obras do estado de SC, realizamos análises de inteligência artificial com o VORTX. O VORTX é uma ferramenta de clusterização da Aquarela, que encontra padrões nos dados. A partir daí identificamos pontos comuns nas obras de cada cluster.

a. Análise genérica de clusterização

Ao rodarmos o VORTX para todo o dataset foram encontrados 17 clusters, cuja distribuição geográfica pode ser visualizada no gráfico a seguir. Na parte esquerda do gráfico são identificados os clusters: os números representam a identificação de cada cluster e o tamanho dos círculos representa a proporção de itens que compõem determinado cluster em relação ao todo. Já na parte direita do gráfico as obras são apresentadas sobre o mapa de Santa Catarina. Os números em cima dos círculos, neste caso, representam a quantidade de obras naquela região. A presença dos clusters ao longo do estado é identificada no mapa, pelas cores.

Clustering obras de Santa CAtarina
Distribuição das dos grupos de obras do estado

b. Análise dos clusters mais distintos dos demais

O VORTX encontrou alguns clusters interessantes, como um cluster outlier (veja mais sobre o que é um outiler), que separou as obras da reforma da ponte Hercílio Luz das demais. Este cluster é identificado pelo número 16 na imagem a seguir. O valor total elevado e o alto número de dias de duração do projeto foram alguns dos fatores que levaram o algoritmo a segregar esta obra separadamente.

Foco nas obras outliers
Foco em obras fora do padrão estadual.

Outro cluster interessante é o de número 7, que é um dos mais distintos dos demais, e é composto apenas por projetos paralisados, sendo todas elas classificadas como “Transporte Rodoviário”. São trabalhos, em média, longos (563 dias de tempo de contrato), mas acabam durando muito mais do que o previsto, pois ficam paralisadas por mais 653 dias, em média. Na figura a seguir é possível ver a distribuição geográfica destas obras ao longo do mapa de Santa Catarina.

Pesagem das variáveis e estatísticas dos groupos
Estatísticas sumarizadas por grupo e peso de influência das variáveis.

Resumo das características dos principais clusters

O algoritmo do VORTX realiza a clusterização mesmo sem conhecer de obras públicas. Ou seja, o modelo trabalha com Inteligência Artificial e modelos estatísticos e aprende quais projetos possuem características mais similares umas das outras. Porém, depois da definição dos clusters o analista de dados precisa fazer uma análise item por item para identificar medidas que possam ser tomadas.

Neste caso, para facilitar a compreensão resumimos alguns dos pontos principais sobre os clusters mais representativos das obras públicas do estado de Santa Catarina:

  • Cluster 1: composto apenas por obras de edificação para a área de educação, que já estão concluídas e que custaram em média R$ 1 milhão. São projetos com duração contratual média de 164 dias, com mais 100 dias médios de acréscimo e cerca de 6 dias de paralisação das obras.
  • Cluster 2: obras de transporte rodoviário que estão concluídas ou em andamento, com valor médio de R$ 8,6 milhões. A média de dias de contrato é de 326, com média de 80 dias aditados e paralisação de 46 dias.
  • Cluster 3: projetos de edificação de variadas áreas (educação, segurança pública, justiça e cidadania, transporte rodoviário e saúde), com valor total médio de R$ 2 milhões, concluídas ou em andamento. A duração de contrato é de 186 dias em média, com mais 163 dias de acréscimo e 13 dias de paralisação.
  • Cluster 4: composto predominantemente (90%) por contratos de edificação em praticamente todas as áreas, mas com predominância em agricultura e educação. O valor total médio é de R$ 6 milhões. A média de dias contratuais é de 200 dias, com acréscimo de 158 dias e paralisação de 45 dias. Um ponto que chama a atenção neste cluster é que existem alguns valores repetidos de aditivos negativos em diferentes obras. Um exemplo é o valor de R$ – 1.631.220,30, que se repete em obras de várias cidades. Este valor refere-se, de acordo com nota da Fazenda/SC repassada à Aquarela, ao valor de supressão referente ao atraso na entrega de matéria prima para o projeto, devido ao período de recesso de férias e ao longo período de chuvas do total do Contrato, que foi de R$ 6,78 milhões. Outro caso similar de obras do mesmo cluster foi de um contrato referente a construção de cisternas em vários municípios do Estado, no valor total de R$ 6,5 milhões, com R$ 1,6 milhões de aditivo negativo.
  • Cluster 5: cluster bastante composto por obras de diversas áreas, mas com predominância para defesa civil, educação e saúde. A maior parte está em andamento. São obras públicas  menores, com valor médio de R$ 150 mil.
  • Cluster 6: contratos classificados como “projetos”, composto por obras pequenas – média de R$ 176 mil –, todas concluídas e pertencentes às áreas de Segurança Pública e Educação. Duração aproximada de 100 dias, com 33 dias aditados e apenas 3 dias médios de paralisação.
  • Cluster 7: cluster já comentado, composto totalmente por obras paralisadas na área de transporte rodoviário, com valor total médio de R$ 8 milhões por obra. São obras com duração original de contrato de 563 dias, mas que ficam em média 653 dias paralisadas.
  • Cluster 8: são contratos classificados como consultoria em transporte rodoviário, de obras em andamento ou concluídas. São valores bastante elevados: R$ 36 milhões em média. Os dias originais de contrato são 353 em média, com cerca de 129 dias aditados e 111 dias paralisados.

Conclusão

Nesta análise procuramos responder três perguntas que foram levantadas em curso da Aquarela junto ao SENAC/Palhoça. Diversas outras questões foram também elucidadas em um primeiro momento, mas para fins de delimitação reduzimos o número de perguntas-chave. Apresentamos gráficos e tabelas interativas e também resultados de análise com o VORTX.

As obras possuem divisões marcantes, visualizadas com forte distinção pelo algoritmo do VORTX. Um dos pontos mais interessantes é que todos os clusters são bem distribuídos ao longo do mapa de Santa Catarina. Ou seja, com exceção do projeto da ponte Hercílio Luz e de Florianópolis como um todo – que contém uma alta concentração de projetos –, não parece haver uma distinção regional entre os clusters.

Existe sim uma maior distinção em relação à área do projeto, status do contrato, e a outras variáveis numéricas, como: valor total do contrato, valor aditado, dias de contrato e dias paralisados.

Por fim, vale destacar que aqui apresentamos os dados e realizamos alguns insights. Porém, a partir deste ponto cabe uma análise mais detalhada sobre os aspectos levantados, que deve ser feita pelos especialistas no assunto em questão.

Entenda mais sobre os passos e a importância de uma análise de dados em nosso E-book “Guia de introdução à cultura de Data Analytics“.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Dramas comuns na implementação da cultura de Data Analytics

Dramas comuns na implementação da cultura de Data Analytics

Nos últimos 4 anos, nós da Aquarela fizemos um levantamento sobre o mercado de análise de dados e sua cultura dentro das organizações. Descobrimos alguns padrões interessantes sobre os dramas mais comuns que conduzem à dificuldade de retornar os investimentos de data analytics. Menos de 4% dos projetos de analytics retornam o investimento. Como o tempo é cada vez mais curto, tanto para quem escreve como para quem lê, seguem as informações resumidas sobre esses padrões.

Padrões e dramas comuns na análise de dados dentro das empresas

Piá do Excel

O piá do Excel (guri, rapaz ou menino – dependendo da região do país), é um tipo típico nas empresas. Sua função é ser uma prótese cognitiva que concatena informação e memoriza fórmulas e processos para tornar refém todas as pessoas ao seu redor. Por isso ele é muito respeitado, admirado e conhecido. Sua saída implica, em alguns casos, em pânico, confusão e até pressão alta.

Capoeiras Cognitivas

A dança/luta física e ritmada da capoeira é uma atividade mental altamente valorizada e necessária para conseguirmos administrar tantas informações de tantas formas e em tão pouco tempo para gerar uma conclusão relevante ao final. A capoeira cognitiva é importante para administrar a parálise (paralisia por excesso de análise)

Uma andorinha não faz verão

Tipicamente se busca uma única resposta para todos os problemas. A única forma de se resolver problemas sistêmicos é atacando-os de forma sistêmica com a menor dependência possível do piá do Excel. Geralmente acontece o inverso causando problemas para ambos.

Problemas de causa e efeito

Todo analista de dados precisa validar suas hipóteses e refletir bastante sobre a relação de causa e efeito das decisões. Por exemplo, o bom analista de dados sabe que uma andorinha não faz verão. Sabe que todas elas juntas também não, pois o verão é causando por outros fatores.

Desalinhamentos entre software e software (isso mesmo Software e Software)

Compramos o melhor piano da loja e na próxima semana vamos mostrar suas composições aos clientes que já estão confirmando a presença no evento.

Altere a palavra piano por software, composições por relatório e evento por reunião imaginando que nunca houve um piano na empresa e que poucos funcionários estudaram música. Sair mudando softwares e processos sem uma orientação arquitetural de análise é um risco parecido.

Como resolver essas questões dentro da sua própria empresa?

Temos a visão que o processo de análise de dados deve ser amarrado à cultura organizacional e compartilhada com todos dos papéis e em todos os níveis da empresa. 

Com a proposta de auxiliar nessa busca, de forma introdutória, mas estruturada e tangível, elaboramos a metodologia DCIM (Data Culture Introduction Metodology) a qual é apresentada no curso “Introdução à Cultura de Data Analytics com IA” com um foco bastante introdutório e didático, que faz os alunos aprenderem colocando a mão na massa e resolvendo problemas informacionais imediatamente.

Os técnicos e gestores podem se beneficiar melhorando sua comunicação sobre estratégias de dados de acordo com os níveis de maturidade de dados da gestão da empresa. A importância destas habilidades estão relatadas no artigo “O Profissional de Data Science na visão da Aquarela”.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

O que a Aquarela Advanced Analytics tem feito?

O que a Aquarela Advanced Analytics tem feito?

Nos últimos meses nós da Aquarela estivemos trabalhando pesado em uma série de projetos dentro e fora da empresa, como por exemplo, no desenvolvimento de novos cursos de capacitação, na finalização de projetos em clientes públicos/privados e até em participações voluntárias de apoio a projetos de Data Analytics como já relatei em nosso último artigo  OPERAÇÃO SERENATA DE AMOR CAPÍTULO FLORIANÓPOLIS.

Este artigo é um resumo dessas atividades aos curiosos leitores interessados no desenvolvimento da Aquarela no vasto tema de Data Analytics em nosso país.

1 – Capacitação e Palestras em Data Analytics

Depois de analisar o mercado nacional de TI, participar de dezenas de reuniões e verificar artigos como este “The rise of autonomous data platforms” que revela que menos de 4% dos projetos de Data Analytics têm sucesso. Assim chegamos a duas conclusões importantes:

Conceitos bem formados, simplificados e incorporados à cultura das empresas podem reduzir o tempo, o custo e os riscos de projetos de Data Analytics. Como resultado, há uma elevação no nível de maturidade da gestão de dados.

A fase de limpeza e organização dos dados é a parte mais trabalhosa e importante do processo de análise, porém tem o menor valor percebido pela gestão. Felizmente existem diversas plataformas gratuitas e maduras para essa atividade (vide: Saindo do limitado Excel para R ou Python).

Recentemente lançamos o curso “Introdução à Cultura de Dados com Inteligência Artificial” com um foco bastante introdutório e didático (mão na massa) para técnicos e gestores, com o objetivo de ajudá-los a estruturar e comunicar a estratégia de dados de acordo com seus níveis de maturidade de gestão de dados, tecnologias e modelos de negócio.

No vídeo gravado ao vivo compartilhado via Facebook, meu sócio, Marcos Santos apresenta os fundamentos da DCIM (Data Culture Introduction Methodology) que é uma metodologia que criamos para dar foco e robustez nos projetos de Data Analytics.

https://www.facebook.com/marcoshs/videos/10155143857313726/

Veja o vídeo.

2 – Aprimoramento da plataforma Aquarela VORTX Big Data Analytics

Antes de falar dos recentes aprimoramentos da plataforma VORTX, gostaria de fazer alguns esclarecimentos importantes baseado nas perguntas mais frequentes que recebemos, tais como:

De qual país é a plataforma VORTX? A Aquarela é a representante oficial do VORTX no Brasil?

Aquarela é a criadora do VORTX, plataforma que foi concebida totalmente em inglês visando o mercado internacional. Futuramente teremos ela disponibilizada em outros idiomas. Entendemos o estigma que existe em relação às ferramentas e tecnologias nacionais quase inexistentes a nível global, mas preferimos seguir a linha de pensamento e trabalho do querido Gustavo Kuerten aqui de Florianópolis. Assim, a Aquarela está se consolidando como referência e uma das poucas empresas (no Brasil e no mundo) que desenvolvem seus próprios algoritmos de base para uso geral na área de inteligência artificial. Parece um pouco complicado de entender, mas na verdade é mesmo. De maneira bem sucinta, grande parte das empresas de analytics atua na área de criação de modelos (planilhas) ou captura de dados e utilizam algoritmos open source disponibilizados em diversas plataformas de processamento como comentado no artigo anterior falando do termo “Repacking”.

Os algoritmos do VORTX são baseados em quais algoritmos?

Com os resultados de nossos testes em algoritmos open source, ainda na época das pesquisas de mestrado em 2008, verificamos uma grande incompatibilidade destes códigos abertos em relação aos problemas reais das empresas. Assim sendo, muito poucas empresas aplicam ou publicam de fato decisões tomadas a partir destes algoritmos. Quem chega de alguma forma a bons resultados de Analytics, por regra, não conta o segredo.

Nossa decisão foi então criar novos algoritmos do zero, baseados em paradigmas de Inteligência Artificial, ao invés de se basear em artefatos pré-fabricados. Também optamos por utilizar uma linguagem robusta e de alto desempenho chamada Scala que, uma vez compilada, roda na já consolidada infraestrutura do mundo Java, isso nos possibilitou ultrapassar barreiras técnicas impostas pelas limitações do paradigma de orientação a objetos que gera dois problemas importantes: i) o excesso verbosidade (burocracia na programação); e ii) a limitação de escalabilidade para processos paralelos e distribuídos (Não queria ser tão técnico, mas não tive como).

Quais paradigmas são utilizados pelo VORTX?

A plataforma usa técnicas de Swarm Intelligence, Ensemble Learning, Genetic Algorithms e IA Simbólica (falamos delas aqui), as quais permitem que um usuário com pouco ou nenhum conhecimento de Advanced Analytics consiga fazer análises avançadas de dados sem apertar muitos botões, aliás sem apertar mais do que 1 botão, chegando a resultados consistentes. Dentre os problemas que nossa plataforma resolve, estão:

  • Clustering – para descobrir registros gêmeos para chegar à uma segmentação ótima de mercado.
  • Scenario Discovering – Descobrir fatores que levam a determinados comportamentos do mercado e os caminhos que levam a determinados desfechos como a falta em um agendamento médico ou o surgimento de uma doênça como o câncer.
  • Datascoping – Visualização dinâmica com até mais de 400 variáveis dentro de um plano cartesiano (duas dimensões).
  • Prediction – Prever acontecimentos (em fase de experimentos laboratoriais)
  • Prescription – Sugerir ações administrativas autônomas a partir das ponderações dos dados (um conselheiro digital) (em fase de experimentos laboratoriais).
  • Deteção automática de outliers sistêmicos – registros que fogem da normalidade ponderando a combinação de todas suas características. Escrevemos neste link o que é um outlier.
  • Feedback da qualidade do dado de entrada no algoritmo, informar o usuário sobre a qualidade ou índice de previsibilidade de cada variável ajuda muito a não perder tempo com dados não relevantes.

A combinação destas técnicas permitem que a própria plataforma escolha a melhor abordagem ou algoritmo para cada análise de forma automática, bem como seus parâmetros. Essa inovações vão ao encontro da visão do senhor Thomas Davenport que relata sobre quão artesanal ainda são as análises de dados atualmente e a tendência de novos paradigmas para automação destes processos (Move Your Analytics Operation from Artisanal to Autonomous).

Vocês estão dizendo que possuem uma tecnologia que a Amazon, IBM e outras grandes não têm?

Sim, isso mesmo. Como já trabalhamos em empresas desse porte tanto eu como o Marcos, vemos que hoje grande parte destas empresas software ocupam grande parte do tempo em manutenção de processos ou fazendo pesquisas voltadas para o registro de patentes que são visões de longo prazo. As inovações de fato, hoje estão sendo bancadas pela coragem dos empreendedores mundo a fora (movimento startup). Quando uma solução sobrevive e emerge no mercado, os grandes preferem comprar ela pronta, mesmo pagando uma boa nota, acaba saindo mais barato no final.

Melhorias da plataforma

Das melhorias da plataforma em si, seguem algumas novidades importantes:

  • A partir de agora o VORTX permite que os conjuntos de dados (dataset) possam conter dados categóricos (campos de texto) e numéricos (escalares). Anteriormente o trabalho de transformação de dados era muito maior para gerar planilhas somente numéricas.
  • Integração do motor de inferência VORTX em sistemas parceiros, ou seja, já pode ser encapsulado a outras ferramentas para gerar produtos mais competitivos via API.
  • Aumento da velocidade de processamento com a otimização dos recursos em nuvem. Anteriormente um dataset que levava de 15 de a 24 horas para ser processado agora, o mesmo dataset está levando aproximadamente 30 minutos.
  • Processamento de dados georreferenciados com a criação automática de mapas.
  • Disponibilização do algoritmo Classifier que recebe novos registros do cliente e retorna automaticamente os cenários no qual o registro pertence.
  • Protótipo testado e validado aplicação da IA VORTX em redes sociais. Em breve mais informações.

3 – Demais atividades.

Dentre as diversas atividades também citamos:

Bom pessoal, obrigado pelo apoio de sempre em nosso trabalho. É um trabalho de formiga, mas acreditamos muito nele. Além disso, como foi exposto, são muitas as oportunidades sendo tratadas, cada uma ao seu tempo, para trazer inovações impactantes em nosso país. Um forte abraço e até o próximo artigo!

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor

14 setores para aplicação de Data Analytics

14 setores para aplicação de Data Analytics

Na grande maioria das conversas com nossos clientes sobre Analytics e Inteligência Artificial, notamos que há uma lacuna entre a realidade do negócio e expectativas de projetos de Data Analytics.

Muitos destes clientes ainda buscam saber por onde começar e até como contratar fornecedor, neste sentido, fizemos uma pesquisa para responder às questões sobre aplicação de Data Analytics:

  • Quais principais setores (áreas de negócio) utilizam Data Analytics hoje?
  • Quais os resultados mais comuns das iniciativas de Data Analytics por setor?
  • Quais são os dados mínimos (datasets) de entrada para cada iniciativa?

Setores para Aplicação de Data Analytics

Sabemos que é muito raro que duas organizações detenham o mesmo conjunto de dados, mesmo assim formatamos um resumo de nossas pesquisas sobre itens que consideramos genéricos suficientes por setor, assim temos:

Conclusões

 A tabela traz dados de forma resumida para fácil visualização, porém a realidade de cada empresa se desdobra em muitas variáveis de entrada, gerando muitas oportunidades (e riscos) atreladas aos níveis de maturidade em gestão de dados (Níveis de Maturidade de Analytics).

  • Existem vários outros setores que já utilizam recursos e metodologias da ciência de dados, porém estes já podem servir de exemplo para uma grande parcela dos negócios em operação.
  • Soluções de Data Analytics necessitam obrigatoriamente de dados de entrada e como cada negócio é um negócio, é importante conhecer bem os dados de entrada e sua qualidade. Em muitas situações as organizações não estão capturando os dados corretamente em seus sistemas, apresentando um baixo nível de maturidade.
  • Um obstáculo comum dos projetos de Data Analytics é o elevado esforço necessário para coletar, organizar e “limpar” os dados de entrada. Isso é, geralmente, o principal gerador de grandes frustrações entre os interessados no projeto. Cursos e capacitações na área podem acelerar o processo de construção dos modelos de análise de forma significativa, mas este conhecimento é escasso no mercado.
  • Não existem, pelo menos até onde se estendem nossas pesquisas, aplicativos “Plug & Play” de “Data Analytics” que possam ser instalados e  possam produzir os resultados das análises imediatamente. Em 100% dos casos toda a equipe (pessoal técnico e de negócio) precisa meter a mão na massa, criar hipóteses, definir amostras de dados, fazer testes, ajustar o modelo, calibrar o processo e finalmente chegar a resultados de fato conclusivos. Uma metodologia científica de trabalho voltada à dados que se ajuste ao negócio é fundamental para que esse processo seja bem sucedido. Na Aquarela, criamos e disponibilizando para Download o Analytics Business Canvas.

Este post dá um panorama bem geral (e pé no chão) sobre algumas áreas de mercado aonde sabemos que existem dados, e que, de alguma forma, estão estruturados para análise.

Existem sim outros mercados (você leitor deve ser deste “outro mercado”) que estão geram muitas informações (marketing digital por exemplo), mas escolhemos focar naqueles que são de senso comum, e ainda operam de maneira cética em relação aos dados.

Se você quer se aprofundar melhor sobre como esse novo olhar pode mudar o seu negócio, leia nosso Guia de introdução à cultura de Data Analytics. 

Lá mostramos os caminhos e etapas necessárias para que você entre no mundo do Data Analytics sabendo dos desafios que irá encontrar, dividimos o processo de adaptação em sete etapas, da identificação da oportunidade até a replicação de um projeto de sucesso.

Baixe agora e esteja pronto para a revolução dos dados!

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores