O que é data mining (mineração de dados)?

O que é data mining (mineração de dados)?

Data mining, ou mineração de dados, é a prática de examinar dados que já foram coletados – utilizando diversos tipos de algoritmos, normalmente de forma automática –, a fim de gerar novas informações e encontrar padrões. Veja em mais detalhes neste artigo o que é data mining, e como a mineração de dados se coloca diante de temas mais recentes como o Advanced Analytics e a Indústria 4.0.

Na prática, como funciona a mineração de dados?

Considerando que minerar dados é um processo de transformar dados em informações úteis (dados mais valiosos a partir de dados complexos).

Para atingir esse objetivo, alguns passos são realizados, como: encontrar padrões, associações e anomalias gerais nos dados.

Em data mining não importa a forma como os dados foram coletados, se via banco de dados, web scraping, API`s, etc.

Data mining, seu surgimento, e a economia da informação

O advento do data mining surgiu com a emersão da economia da informação, que por sua vez representa a informação sendo utilizada como mercadoria e como bem de produção.

Economia da informação é um termo que teve como uma das suas primeiras aparições no mundo científico em 1986, com Bruce Greenwald e o Nobel de economia Joseph Stiglitz.

Neste contexto, os acadêmicos argumentam que as pessoas não possuem acesso a todas informações disponíveis, o que torna os mercados imperfeitos.

Esse foi, na época, um argumento distante da premissa econômica até então dominante que afirmava que a mesma informação era acessível a todos. Sendo assim, a informação passou a ser vista como um diferencial, como uma forma de extrair insights para melhorar as decisões gerenciais no âmbito corporativo.

Na economia da informação praticamente todas as transações e operações realizadas por pessoas e empresas no dia a dia geram algum tipo de dados. Data mining entra neste contexto com a aplicação de equações matemáticas e métodos estatísticos, que vão desde o uso de uma regressão logística, até redes neurais, deep learning, análise de clustering(agrupamentos) e classificações automáticas.

Uma das primeiras soluções focadas em data mining, para fins de exemplificação, foi o software WekaO Weka, criado em 1993 e mantido até os dias atuais, é uma rica coleção de algoritmos de machine learning e data mining.

O propósito do software em sua concepção foi permitir que o usuário não precisasse conhecer linguagens de programação para fazer o pré-processamento dos dados (organizá-los) e assim aplicar diversos algoritmos prontos em seus próprios dados.

Data mining na Indústria 4.0

Mais do que a economia da informação, hoje vivemos em uma transição econômica como um todo para a indústria 4.0.

A Indústria 4.0 caracteriza-se por serviços concebidos e produzidos de forma descentralizada, com forte apoio de Advanced Analytics, Inteligência Artificial (a máquina com capacidade de aprender) e Inteligência Coletiva (as pessoas, coletivamente, cooperando para que as máquinas aprendam). Esse processo teve seu início com o boom da internet no começo dos anos 2000.

Leia mais sobre Indústria 4.0.

Na Indústria 4.0 os smartphones, por exemplo, permitem tanto a Inteligência Artificial quanto a Inteligência Coletiva fazerem parte das decisões do dia a dia das pessoas.

Com isso, uma imensidão de dados é gerada, cada vez em maior quantidade.

Nesse contexto, a mineração de dados é a base para uma integração com métodos mais avançados, que envolvem desde as ferramentas mais básicas – como regressões e árvores de decisão – até modelagens mais complexas com elevado nível de otimização de análise, utilizando também métodos de aprendizagem de máquina, big data, entre outros.

Nestes casos o propósito costuma ser análises preditivas e prescritivas, que conduzem os indivíduos a tomarem suas decisões de forma mais rápida, automatizada e otimizada.

Como aplicar data mining em um ambiente de negócio?

Na mineração de dados, o que gera valor de fato é o conjunto de ações que são tomadas a partir dos processamentos dos dados. Para isso, é preciso saber onde aplicar as técnicas e quais ferramentas de mineração são mais adequadas para cada caso, dando vida a um novo perfil de profissionais chamada Cientista de Dados

Então, onde se aplica data mining? Sempre que existirem processos definidos, têm-se dados. Usa-se a mineração de dados no momento em que as alternativas iniciais de análise foram esgotadas, como análises a “olho nú”, com planilhas de dinâmicas ou ainda com o uso de estatística descritiva, entre outros.

Veja a seguir uma lista de exemplos práticos da aplicação da mineração de dados em ambientes de negócio, que conduzem a melhorias das decisões gerenciais e estratégicas:

1. Dados gerados internamente nas organizações

Dados transacionais ou extraídos de sistemas em geral da organização podem ser tratados e minerados.

São exemplos: dados de CRM, ERP, softwares de marketing digital, plataformas de monitoramento de websites (como o Google Analytics), e-commerce, supply-chain, dados de logística, entre outras inúmeras áreas de negócios.

2. Dados sociais

Dados que estão sempre crescendo e descrevem pessoas: quem são, onde estão, que serviços e produtos estão usando. Usar esses dados para fins de negócios é a maneira como a economia da informação funciona e um dos grandes motores no advento da indústria 4.0.

3. Área da saúde

A mineração de dados possui diversas aplicações na área da saúde. Como um exemplo das possibilidades de aplicação, a Aquarela, juntamente com a Prefeitura de Vitória/ES, minerou e analisou dados de faltas em agendamentos médicos.

Após as análises foram tomadas decisões estratégicas que reduziram as faltas em agendamentos de cerca de 30% para aproximadamente 15%. A economia gerada aos cofres públicos é milionária. Veja o case em detalhes.

4. Obras públicas

Com a tendência de transparência pública no Brasil, cada vez mais dados públicos têm sido disponibilizados gratuitamente via web. Isso viabiliza a realização de análises que podem levar à população um poder extra de monitoramento de como o dinheiro público tem sido utilizado.

Como case de exemplo, a SEFAZ/SC e a Aquarela Advanced Analytics, utilizaram técnicas avançadas de análise de dados para a descoberta de padrões de obras públicas do estado de Santa Catarina, tornando-as acessíveis à população, em complemento ao portal da transparência do governo. Veja neste post os resultados das análises.

5. Capital de risco em empresas de base tecnológica

Diante de uma grande diversidade de startups surgindo e também de fundos de investimento em venture capital e capital de risco, técnicas de data mining podem auxiliar a encontrar as melhores startups para dados fundos de investimentos, ou também dar uma visão às startups de quais fundos de investimentos são mais propensos a se tornarem investidores.

Em mais um case, a Aquarela analisou as características de startups unicórnios (com valor de mercado superior a U$ 1 bi.), cruzando os dados com seus respectivos fundos investidores.

Entre as perguntas-chave estava identificar padrões e clusters nas empresas unicórnios e comparar as variáveis das empresas com as rodadas de investimentos que receberam de fundos de capital de risco.

Conclusões

Mineração de dados é um processo cujo fim é gerar informações a partir de dados, em que são utilizadas diversas ferramentas e métodos. Ou seja, não há “receita de bolo” para trabalhar com data mining.

Cada caso é único, demandando profissionais com grande capacidade criativa para definição dos modelos.

Data mining é um termo já antigo, levando em conta o grande dinamismo do mundo da tecnologia. Com o passar do tempo também surgiram diversos outros termos que podem gerar confusões. Para isso veja o artigo em que tratamos sobre as diferenças entre BI, data mining e big data.

Por fim, a forma de extrair informações estratégicas a partir dos dados representa o que é data mining. Mas, de forma mais ampla surge o Advanced Analytics, em que a mineração de dados é parte de um processo que envolve desde o desenvolvimento da cultura de Analytics nas empresas, até a construção de análises e sistemas preditivos e prescritivos com uso de IA.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Inteligência Artificial na descoberta dos fatores chaves do IDH

Inteligência Artificial na descoberta dos fatores chaves do IDH

Neste post mostramos mais um caso de estudo utilizando a Inteligência Artificial VORTX com dados reais. Aqui demonstramos como a abordagem de descoberta de cenários pode ajudar a tomada de decisão de forma profunda em vários setores. Para conhecer algumas áreas com grande potencial de aplicação, veja este artigo com 14 áreas sugeridas. Nesta análise em específico levamos em consideração perguntas típicas de gestores:

Quais os fatores que mais impactam no meu resultado?

Qual configuração ideal dos fatores (das variáveis) para se atingir o cenário com melhor desempenho?

Neste caso selecionamos 65 índices nacionais de 188 países para descobrir quais deles tem maior peso em relação ao Índice de Desenvolvimento Humano e quais cenários são criados pelas máquina. Para validar a precisão do algoritmo, plotamos no mapa os países de acordo com seu cenário.

As perguntas-chave desta análise:

  1. Quantos cenários de Índice de Desenvolvimento Humano existem no mundo e em quais cenários os países estão alocados?
  2. Entre os 65 índices, quais deles têm maior influência na variação do IDH?
  3. O que é o DNA de um cenário e como eles são utilizados para análise?

Bom, antes de ver os resultados, vejam todas variáveis analisadas abaixo. Então, tente descobrir intuitivamente quais seriam as repostas para pergunta 2. Esta é uma tarefa muito importante para a validação cenários. OK?

(mais…)
7 características importantes para diferenciar BI, Data Mining e Big Data

7 características importantes para diferenciar BI, Data Mining e Big Data

Uma das perguntas mais frequentes que recebemos na Aquarela está relacionada aos conceitos BI, Data Mining e Big Data. Uma vez que os três estão ligados à análise de dados, não é estranho que haja confusões.

O objetivo deste post é apresentar de maneira sucinta quais são as características mais marcantes de cada uma das soluções, ajudando o leitor a definir sua estratégia de informação (leia aqui sobre os dramas na implementação da cultura de Data Analytics). Apesar das dores por falta de informação serem parecidas, cada caso é um caso.

O Básico

Inicialmente o ciclo de análise de dados segue, de maneira geral, os seguintes passos:

  1. Levantamento de perguntas: O que a empresa quer saber (descobrir) do seu negócio. Por exemplo, quantos clientes atendemos por mês? Qual o valor médio do produto? Qual o produto que mais vende?
  2. Estudo das fontes de dados: Quais dados estão disponíveis interna/externamente para responder as perguntas de negócio. Ex. Onde estão os dados? Como consigo processá-los?
  3. Definição do tamanho do projeto: Quem serão todos os envolvidos no projeto? Qual o será o tamanho da análise, quais serão as ferramentas utilizadas e os custos do projeto.
  4. Desenvolvimento: Operacionalização da estratégia, realizando o processamento dos dados assim como várias interações de validação com os envolvidos do projeto, sobretudo o cliente final, para saber se as perguntas de negócio estão sendo respondidas e realmente ajudando.

Veja mais sobre os passos para um projeto de analytics de sucesso aqui.

Até esse momento o BI, Data Mining e Big Data são muito parecidos. Na tabela abaixo fizemos um resumo que ajuda a delinear as diferenças:

BI, Data Mining e Big Data

CaracteristicasBI (Business Intelligence)Data MiningBig Data
Virtude da soluçãoVolumetria – Monitorar o desempenho dos indicadores das operaçõesMetodologia científica e algoritmos. Descobrir padrões de comportamento de dados. Detecção de pontos cegos da gestão. Análise estatística intensa e pontual.Data mining em grande escala. Geração de conhecimento de gestão, apoiado por inteligência e capacidade computacional. Análise estatística intensa e contínua
Tipos de dadosDados estruturados em planilhas, banco de dados relacionais e dimensionais, etc.Dados estruturados em planilhas, banco de dados relacionais e dimensionais, etc.Dados estruturados, semiestruturados e não estruturados em bancos de dados NoSQL ou TripleStores
Estilo de análiseReflete apenas o passado dos dados em pequena ou grande escala. Não há inteligência no sistema, sendo necessário profissionais da gestão para interpretar as informações e tomada de decisão.Permite fazer a predição e descoberta de fatores relevantes ao negócio em pequena escala usando inteligência computacional. Necessita de profissionais da gestão trabalhando em colaboração com cientistas da informação.Permite fazer a predição e descoberta de fatores relevantes ao negócio em grande escala usando inteligência computacional. Necessita de profissionais da gestão trabalhando em colaboração com cientistas da informação.
Resultados EsperadosDiversas visualizações de gráficos consolidadas em painéis de controle conhecidos como dashboardsRelatório de recomendaçãoPainéis de controle com indicadores preditivos e recomendações estratégicas.
FocoMonitorar indicadores tais como preço, valor, temperatura, custo total, etc.Identificar padrões de comportamento dos dados, criando novos indicadores de análise para o BIExtração do conhecimento de grandes massas de dados com fontes e tipos variados
ComercializaçãoCusto de implementação, integração do sistema e mensalidade por usuárioValor do projeto, envolvendo o custo da produção do relatórioCusto de implantação, integração do sistema e/ou comissionamento sobre o resultado do faturamento.
Volume de dadosAlto, porém limitado ao processamento dos bancos de dados relacionais/dimensionaisBaixo, trabalho por amostragem (pequenas parcelas) de dados com alto custo de procesamentoAlto, com estruturas distribuídas e grande demanda de procesamento.

Conclusões e recomendações

Apesar da análise se restringir a apenas 7 características, os resultados mostram que existem diferenças importantes entre BI, Data Mining e Big Data. Abaixo seguem algumas conclusões de nossa análise e experiência:

  • Empresas que possuem uma solução de BI já consolidada tem mais maturidade para embarcar em projetos extensivos de Data mining e Advanced Analytics. Ex: descobertas feitas pelo Data Mining ou Advanced Analytics podem ser rapidamente testadas e monitoradas pelo BI. Ou seja, os elementos podem e devem coexistir para realmente trazer valor ao negócio na forma de otimização de recursos, aumento de vendas e assim por diante.
  • O Big Data só faz sentido em grandes volumes de dados e a melhor opção para o seu negócio depende de quais perguntas estão sendo feitas e quais os dados disponíveis. Todas as soluções são dependentes do dado de entrada. Consequentemente se a qualidade das fontes de informação forem ruins, há grande chance de que a reposta seja ruim como frisa a expressão em inglês “garbage in, garbage out” Lixo entra, lixo saí.
  • Enquanto os painéis do BI podem ajudar a fazer sentido  de seus dados de maneira bastante visual e facilitada, não é possível fazer análises muito ricas com ele. Para isso é necessário soluções mais complexas, capazes de enriquecer a sua percepção da realidade do negócio, ajudando a encontrar correlações, novos segmentos de mercado (classificação, predição),  fazer previsões, controlar variáveis e seus efeitos em com relação as diversas outras por meio da análises multivariadas.
  • O BI é fortemente dependente de dados estruturados que são os mais utilizados atualmente, porém a tendência é de crescimento em dados não estruturados. Também, não demanda profissionais especialistas em estatística e ou engenharia do conhecimento.
  • O Big Data estende a possibilidade de análise sobre não estruturados. Ex: posts de redes sociais, imagens, vídeos, músicas e etc. Porém o grau de complexidade e exigência de conhecimento do operador é maior, bem como o alinhamento com os profissionais da gestão.
  • Para evitar frustrações é importante levar em consideração as diferenças nas virtudes (proposta de valor) e resultados de cada solução. Por exemplo, não esperar por descoberta de padrões e insights de negócio da própria ferramenta de BI, este é o papel do operador do BI.
  • O Big Data pode ser considerado em parte, a junção do BI e Data Mining. O BI com seus dados estruturados em conjunção com a gama de algoritmos e técnicas do Data Mining empoderado pelas novas tecnologias de grande processamento, armazenamento e memória; tudo processado de forma paralela e distribuída sobre uma gama gigantesca de fontes de informação heterogêneas.
  • Podemos observar que os resultados dos três geram inteligência para o negócio, da mesma forma como o bom uso de uma simples planilha também pode gerar inteligência, mas é importante avaliar se isso é suficiente para atender as ambições ou dilemas do seu negócio.
  • Vemos que o potencial do Big Data ainda não está sendo plenamente reconhecido, porém as empresas mais avançadas em termos de tecnologia, hoje, o têm como ponto chave de suas estratégias oferecendo gratuitamente seus serviços para alimentar suas bases com dados estruturados e não estruturados. Ex. Gmail, Facebook, Twitter e OLX.
  • A tendência é que o crescimento do volume dos dados e sua variedade continue cada vez de forma menos estruturada como já escrevemos no post Dos dados ao Analytics.

A Aquarela criou uma metodologia, chamada DCIM – Data Culture Introduction Metodology – que estabelece 5 níveis de maturidade e mecanismo de análise situacional, leia aqui sobre.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores