O que Sun Tzu ensina sobre Data Analytics Parte II

O que Sun Tzu ensina sobre Data Analytics Parte II

No post I, ver aqui, falamos sobre o quanto é importante o planejamento e se preparar para a nossa guerra contemporânea, que tem como objetivo a informação certa no menor prazo possível.

Nosso soldado data scientist  já tem consciência de ferramentas e possíveis estratégias para a batalha da análise de dados. Porém, o fato de ter apenas os métodos comprados e instalados na empresa nem sempre geram resultados, e por que isso acontece?

Disposição de Ferramentas

“7. Prever uma vitória que o homem comum pode prever não corresponde ao auge da habilidade.”

Sun Tzu falava da Disposição das Tropas, nós falamos da Disposição de Ferramentas. Descobrir o óbvio não agrega valor à empresa e é o principal ponto de atenção das equipes de analytics. A exceção a essa regra está nos casos onde análise tem o objetivo de testar um algoritmo ou abordagem e então saber se as ferramentas (metodologia + inteligência artificial) foram capazes de encontrar o que já se sabe e ir além.

Verificamos que a experiência dos analistas é um fator determinante no sucesso dos estudos de analytics. Isso se deve, principalmente, por prever erros estruturais nos fluxos de análise e a criatividade para desenvolver testes contra os algoritmos. Ainda, compará-los em diversas dimensões e eventualmente encontrar explicações esperadas de validação e no auge da habilidade, informações não previstas que geram oportunidades reais de melhoria.

Forças normais e extraordinárias

“5. Na batalha, valha-se da força normal para o combate e utilize a extraordinária para vencer.”

Existem forças normais que podemos usar para complementar as extraordinárias, é o exemplo das ferramentas livres e open source ou mesmo estratégias coerentes de indicadores (KPIs – Key Performance Indicators) já fazem uma diferença bastante grande no desempenho com impacto direto nos níveis de maturidade de analytics.

Agora dependendo do nível da competição, do timing e tamanho do mercado, utilizar ferramentas fechadas podem fazer a diferença do extraordinário, por isso, fique atendo a soluções fechadas disponibilizadas por APIs.

O preço da dúvida

“9. Na guerra, o perito age de maneira sutil e insubstancial, não deixa pistas; divinamente misterioso, é inaudível; torna-se, ele próprio, senhor do destino de seu inimigo.”

No mundo analytics, cases detalhados são raramente divulgados. Do que dá certo ou errado, cada um guarda para si, mais ou menos como no investimento em ações. Aparentemente, uma das formas mais plausíveis de se obter conhecimento real das tentativas e erros é pela incorporação e disseminação de processos de gestão do conhecimento e contratações estratégicas.   

Conclusão: Estratégias

“4. Na guerra, tanto a vantagem quanto o perigo são inerentes às manobras.”

Há uma expectativa bastante grande com relação a qualquer iniciativa de Data Analytics dentro das organizações e isto acontece independentemente do nível de maturidade de dados em que elas se encontram. O fato é que, para chegar a modelos preditivos realmente assertivos, o caminho é tortuoso e multidisciplinar. Por tanto, projetos com poucos recursos (horas de analistas, computadores parrudos, ferramentas de análise e capacitação) tendem a ter resultados coerentes com o investimento.  

Então é isso pessoal, espero que a analogia ajudou no entendimento e que gere valor no seu negócio. Um forte abraço de toda a equipe da Aquarela Advanced Analytics.

Gostou da leitura? Tem muito mais da onde veio este post, inscreva-se em nossa Newsletter e não perca nossos conteúdos!

Fiquem ligados em nossas redes sociais:

Facebook, Twitter, Linkedin

*SUN TZU. A Arte Da Guerra – por uma estratégia perfeita. São Paulo: Madras Editora, 2003.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Limitações do Excel em relação ao R ou Python

Limitações do Excel em relação ao R ou Python

A comparação entre as plataformas R e Python começou há um tempo quando resolvi experimentar um sistema para edição e processamento de scripts chamado Jupyter Notebook, o qual é desenvolvido em Python.

Até então sempre usei R. Aparentemente seria um processo tranquilo de instalar um aplicativo, aí que o bicho pegou! Como resultado, escrevi o seguinte comentário no Linkedin:

“Para quem quer fugir das limitações do Excel rumo à para uma linguagem estatística e de negócios intuitiva, o caminho é o R (a minha visão até o momento). Fiz testes com o Python, seu concorrente, e fiquei bastante frustrado com a quantidade de parametrizações, centenas de pacotes interdependentes misturados, mal documentados e com diversas versões incompatíveis entre si. Dizem que a linguagem Python é super fácil e intuitiva, mas até ter a plataforma pronta para trabalhar, o analista de dados já perdeu a orientação de negócios e se tornou um técnico em infraestrutura de rede e sistemas operacionais. Aí o boi já foi com a corda…”

Resultado, não imaginaria o quão frutífera seria a discussão e por isso segue as reflexões neste post. Antes de falar propriamente do R ou Python, vou apontar algumas das limitações mais críticas do Excel no ponto de vista de gestor e analista de dados.

Vantagens do Excel

Primeiramente o Excel é uma ferramenta de análise tão poderosa e abrangente que concorre com praticamente tudo, desde o rascunho feito em papel de saco de pão até os sistemas mais avançados de gestão. Se você já desenvolveu software, já ouviu algo do tipo:

  • Mas isso eu não posso fazer em Excel?
  • Mas depois ele exporta pra Excel, né?

Além disso, algumas funcionalidades do Excel são matadoras. Por exemplo, quando ensinamos alguns alunos a função “Planilha Dinâmica” com 3 cliques, elas entram em estado de euforia plena (recomendo muito investigar isso, em inglês Pivot Table).

Funcionalidade com garantia de muitas horas de trabalho economizadas. De fato, o Excel é uma ferramenta poderosíssima de análise e assim como a sua antecessora, a calculadora, ela é assetorizada (palavra nem existe em português, pois são poucas as ferramentas que podem rodar em qualquer área).

Limitações do Excel em Análise Avançada de Dados

Como uma solução de uso geral, as limitações do Excel para Advanced Analytics são:

  • Automação da higienização e tratamento de dados em grande escala para processamentos de algoritmos de mineração de dados.
  • Incompatibilidade com formatos de arquivos, geralmente devem ser transformados para .XLSX ou é necessário fazer algumas manobras por dentro dele para acertar a formação de “.CSV” por exemplo.
  • Os arquivos no seu formato “.XLSX” têm um limite de até 1.048.576 linhas e 16.384 colunas. A versão anterior “.XLS”, apenas 65.536 por 256 colunas. Dependendo da análise esse limite já se torna crítico.
  • Não é uma ferramenta gratuita como o seu concorrente direto LibreOffice ou Google Docs. O valor de mercado varia de R$ 500,00 a R$700,00 e deve ser pago, sobre tudo pelos profissionais que estiverem analisando dados de fraudes. O subconsciente não aceita bem essas situações.
  • A manutenção das customizações se torna caótica se forem implementadas muitas regras.
  • Difícil automatizar relatórios. Já ouvi muito, o jargão, “Vê lá com o guri do Excel”.

Características chaves do R e do Python

Abaixo, relaciono algumas características chaves (não todas, claro) destas ferramentas R e Python para Advanced Analytics:

  • Manipulação de dados em grandes quantidades.
  • Automação e replicabilidade das análises.
  • Leitura de diversos tipos de formatos diferentes de fontes diversas de informação, até em tempo real, incluindo o próprio .XLSX.
  • Gestão do projeto e manutenção dos códigos estruturados.
  • Gratuitos e de livre distribuição.
  • Multi-plataforma.
  • Integração com centenas de algoritmos de inteligência artificial conhecidos como Machine Learning.

Fazendo algumas pesquisas, achei este gráfico bastante relevante comparando a curva de aprendizado do R versus do Excel, que simplificando quer dizer que, coisas de pouca complexidade são fáceis de fazer em Excel e difíceis em R, já tarefas mais robustas são difíceis de fazer no Excel e fáceis no R. Pode se incluir o Python também junto ao R.

Dificuldade X Complexidade - Por Gordon Shotwell
Dificuldade X Complexidade – Por Gordon Shotwell

Tendo a oportunidade de conhecer o cenário de trabalho das principais empresas do país,  a grande maioria da minha amostragem pessoal, está lá na dificuldade 75  do eixo Y do Excel com uma série de cobranças por resultados práticos que, às vezes, são feitas apenas pela intuição. Poucos estão conseguindo chegar a aplicações reais de Machine Learning, por culpa deste gargalo no meio do caminho da preparação dos dados. Dizemos que o tratamento de dados garante emprego e renda.

Afinal, é melhor aprender R ou Python?

Cientista de dados, ocupam grande parte da cognição analisando duas coisas:

  • Dados.
  • Ferramentas de análise de dados (sempre estão surgindo coisas novas).

Levando em consideração a limitação de tempo para estudo, e que os finais de semana são finitos, as linguagens R e Python acabam colidindo e gerando uma bifurcação no caminho dos analistas que devem decidir entre uma ou a outra para resolver os gargalos do Excel. Abaixo está o sumário dos comentários mais interessantes que vi no Linkedin, e espero que isso possa ajudar quem está enfrentando este dilema:

O ideal é aprender as duas linguagens, mas a decisão parece depender principalmente do background profissional e dos objetivos do analista como segue:

  • Se o background está baseado na área de gestão como: administração, economia e contabilidade e seu objetivo é a tomada de decisão e geração de relatórios. Minha opinião é focar em R. O Rstudio se apresenta de forma muito íntegra tanto em compatibilidade com os sistemas operacionais como em sua documentação no padrão R, que é ótimo para o aprendizado e tem uma base estatística muito rica, além de relatórios com alta qualidade gráfica. A questão estética conta mais do que se imagina no mundo dos negócios.
  • Se o background for de áreas de desenvolvimento de software tais como: Ciências da Computação, Automação e Engenharias e o foco do trabalho é a criação de ferramentas de análise com robustez, melhor Python. Ainda, leva vantagens em algumas bibliotecas de mineração de texto e de Machine Learning.

O Python é uma linguagem robusta e genérica suficiente para entrar em qualquer área, colidindo na estatística com R e desenvolvimento de plataforma com JAVA/SCALA, que a propósito é a linguagem que utilizamos para a construção do Aquarela VORTX.

Aconteceu comigo

Vou compartilhar um fato que aconteceu comigo: queria fazer um teste com um sistema simples e feito em Python. Porém, a documentação me levou a instalar um pacote gigantesco chamado Anaconda que, por sua vez, conflitou com a versão Python 2.7 e 3 tanto no MAC como no Linux Centos 7.

Pesquisando com amigos geeks, explicaram-me que houve uma mudança bastante grande entre essas versões e que também existem diversas outras formas de ter instalado o Jupyter.

Enfim, voltando ao texto inicial é importante que as ferramentas não desvirtuem a orientação de negócio, principalmente daqueles com perfil de gestão.

Finalizando, independente da linguagem que você escolher, desejo bastante sucesso nos seus projetos. A otimização das empresas e organizações é o fortalecimento do nosso país. Vamos em frente!

Veja outros estudos

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

O que o VORTX diz sobre o quadro de medalhas olímpicas?

O que o VORTX diz sobre o quadro de medalhas olímpicas?

Olá pessoal,

Aproveitando o clima de olimpíadas no Brasil, resolvi fazer uma análise de agrupamentos com o VORTX sobre os dados consolidados das medalhas distribuídas em Londres. Bom, então vamos lá!

O que significam as medalhas?

Em todo projeto de análise de dados, a primeira etapa é sempre saber o que as coisas significam na realidade. Logo, do ponto de vista do esporte, cada medalha significa muita coisa, vejamos alguns exemplos:

  • Reconhecimento pelo esforço e disciplina pessoal;
  • Resultado da organização e investimento dos países em cada modalidade (disciplina regional);
  • Marcos históricos;
  • Ranking de qualidade e etc.

Bom, esses foram apenas alguns exemplos de muita coisa atrelada ao evento. Para um analista de dados, o quadro de medalhas pode significar:

Um índice composto de centenas de sub-indicadores sociais apresentado na forma de ranking quantitativo dos países.

Os dados utilizados

Coletei o quadro de medalhas olímpicas distribuídas em Londres disponível na Wikipedia, não levando em consideração países com “0” medalhas. Para a análise, cada linha é um país.

  • Primeira coluna, nome do país;
  • Segunda coluna, número de medalhas de ouro;
  • Terceira coluna, número de medalhas de prata;
  • Quarta coluna, número de medalhas de bronze;
  • Removido a coluna total de medalhas.

Obs. Mas por que remover o total de medalhas por país? É simples, este é um indicador composto da soma de todas as medalhas e como queremos descobrir padrões que existem entre a distribuição de medalhas, precisamos deixar o modelo homogeneizado. Esse é um erro bastante comum nas práticas de processamento de dados que resulta em análises com baixa confiança, pois os algoritmos processam tudo, se entrar coisa errada, saí coisa errada. Usando uma metáfora, colocar os dados totais em uma análise é como se o cozinheiro jogasse a colher dentro da máquina de triturar, o resultado vai ser misturado e influenciado.

Perguntas, processamento e repostas

Vamos utilizar o Aquarela VORTX Big Data para descobrir o comportamento de distribuição das medalhas olímpicas.

  1. Quantos grupos de países parecidos em termos de desempenho existem, como são caracterizados e o quanto representam proporcionalmente?

No total formam 5 grupos distintos de países com a seguintes proporções:

As características do primeiro grupo são apresentadas em um gráfico de frequência, enquanto mais alto o gráfico, maior é o número de países com o valor do eixo X. Em uma breve interpretação, no grupo 1 são muito poucos os países 16 medalhas (ouro, prata ou bronze).

Abaixo está uma tabela de sumarização dos resultados com os demais grupos. Procure as diferenças nos resultados e pense em qual nome daria para cada grupo.

Eu diria que o grupo 1 é formado por países de baixa performance, e o grupo 3 de alta. Dar nome aos grupos é o trabalho do analista, o algoritmo já fez o mais complicado que é separar e organizar toda a coisa olhando para todos os fatores.

  1. Qual o grau de confiança do padrão encontrado?

Estes dados apresentem uma nitidez de 96,04% o que é muito alto e significa que os grupos estão de fato muito bem segmentados.

  1. Qual é um resultado típico ou comum nas olimpíadas?

Sendo o grupo 1 o maior grupo, que equivale a 91,76% dos países que receberam medalhas, é possível afirmar que tipicamente os países recebem até duas medalhas. Do contrário, não é típico um país receber mais de 20 medalhas.

  1. Quais países têm características mais distintas da maioria?

Comparando os resultados de distinção dos grupos gerados pelos VORTX, podemos afirmar que os grupos 3 e 4 são os grupos países mais diferentes ou diferenciados.

Grupo 1 – 83,28%
Grupo 2 – 79,31%
Grupo 3 – 100%
Grupo 4 – 100%
Grupo 5 – 84,73%

  1. É possível prever os resultados das olimpíadas do Rio 2016 com base do padrão dos grupos?

A identificação dos agrupamentos, dá o ponta pé inicial das análises, organizando e estruturando o raciocínio lógico, porém a assertividade dos modelos de predição dependem de vários fatores, dentre eles:

  • a quantidade de dados sendo analisados (neste caso são poucos), quanto mais dados, melhor.
  • mudanças estruturais no quadro de medalhas, como por exemplo adição ou remoção de novos esportes.
  • Influência política ou os casos de doping que afastaram diversos atletas.

Conclusões e Reflexões

Bom pessoal, os resultados fazem sentido para vocês? Vejam que exercício foi feito com dados relativamente simples de 3 colunas onde já é possível descobrir coisas interessantes. Agora, o que realmente importa em relação a utilização de algoritmos de agrupamento para resolver resultados práticos em outras áreas? Abaixo seguem algumas ideias:

  • Seria interessante saber quais os problemas típicos e o grau de homogeneidade das turmas escolares ou tratamentos hospitalares?
  • Seria estratégico descobrir quais alunos ou pacientes são muito diferentes do comum e demandam atendimento especial?
  • Seria interessante saber quais as características predominantes de equipamentos que mais quebram? Isso reduziria o custo de operação?
  • Quando temos 3 colunas como o caso das medalhas é fácil encontrar o padrão no olho, certo? E se forem 2 milhões de linhas e 20 colunas, como você encontraria o tipo de venda que traz o melhor retorno sobre investimento?
  • Quais são as características dos usuários que fraudam o seguro? Qual é o corte ideal de idade por região, gênero e escolaridade? E quanto esses grupos representam de prejuízo?

É isso pessoal. Obrigado pela atenção, vamos em frente! Que há muito dado para se processar e muita gestão para melhorar, um forte abraço a todos.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

14 setores para aplicação de Data Analytics

14 setores para aplicação de Data Analytics

Na grande maioria das conversas com nossos clientes sobre Analytics e Inteligência Artificial, notamos que há uma lacuna entre a realidade do negócio e expectativas de projetos de Data Analytics.

Muitos destes clientes ainda buscam saber por onde começar e até como contratar fornecedor, neste sentido, fizemos uma pesquisa para responder às questões sobre aplicação de Data Analytics:

  • Quais principais setores (áreas de negócio) utilizam Data Analytics hoje?
  • Quais os resultados mais comuns das iniciativas de Data Analytics por setor?
  • Quais são os dados mínimos (datasets) de entrada para cada iniciativa?

Setores para Aplicação de Data Analytics

Sabemos que é muito raro que duas organizações detenham o mesmo conjunto de dados, mesmo assim formatamos um resumo de nossas pesquisas sobre itens que consideramos genéricos suficientes por setor, assim temos:

Conclusões

 A tabela traz dados de forma resumida para fácil visualização, porém a realidade de cada empresa se desdobra em muitas variáveis de entrada, gerando muitas oportunidades (e riscos) atreladas aos níveis de maturidade em gestão de dados (Níveis de Maturidade de Analytics).

  • Existem vários outros setores que já utilizam recursos e metodologias da ciência de dados, porém estes já podem servir de exemplo para uma grande parcela dos negócios em operação.
  • Soluções de Data Analytics necessitam obrigatoriamente de dados de entrada e como cada negócio é um negócio, é importante conhecer bem os dados de entrada e sua qualidade. Em muitas situações as organizações não estão capturando os dados corretamente em seus sistemas, apresentando um baixo nível de maturidade.
  • Um obstáculo comum dos projetos de Data Analytics é o elevado esforço necessário para coletar, organizar e “limpar” os dados de entrada. Isso é, geralmente, o principal gerador de grandes frustrações entre os interessados no projeto. Cursos e capacitações na área podem acelerar o processo de construção dos modelos de análise de forma significativa, mas este conhecimento é escasso no mercado.
  • Não existem, pelo menos até onde se estendem nossas pesquisas, aplicativos “Plug & Play” de “Data Analytics” que possam ser instalados e  possam produzir os resultados das análises imediatamente. Em 100% dos casos toda a equipe (pessoal técnico e de negócio) precisa meter a mão na massa, criar hipóteses, definir amostras de dados, fazer testes, ajustar o modelo, calibrar o processo e finalmente chegar a resultados de fato conclusivos. Uma metodologia científica de trabalho voltada à dados que se ajuste ao negócio é fundamental para que esse processo seja bem sucedido. Na Aquarela, criamos e disponibilizando para Download o Analytics Business Canvas.

Este post dá um panorama bem geral (e pé no chão) sobre algumas áreas de mercado aonde sabemos que existem dados, e que, de alguma forma, estão estruturados para análise.

Existem sim outros mercados (você leitor deve ser deste “outro mercado”) que estão geram muitas informações (marketing digital por exemplo), mas escolhemos focar naqueles que são de senso comum, e ainda operam de maneira cética em relação aos dados.

Se você quer se aprofundar melhor sobre como esse novo olhar pode mudar o seu negócio, leia nosso Guia de introdução à cultura de Data Analytics. 

Lá mostramos os caminhos e etapas necessárias para que você entre no mundo do Data Analytics sabendo dos desafios que irá encontrar, dividimos o processo de adaptação em sete etapas, da identificação da oportunidade até a replicação de um projeto de sucesso.

Baixe agora e esteja pronto para a revolução dos dados!

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores