Inteligência Artificial aplicada ao casamento: até que os dados não nos separem!

Inteligência Artificial aplicada ao casamento: até que os dados não nos separem!

Há quase um ano atrás tivemos o primeiro casamento de um colaborador da Aquarela, nosso CTO Joni Hoppen trocou alianças no dia 25 de novembro de 2017, e como bom cientista de dados que é, não pode deixar sua profissão de fora! Neste artigo, Joni conta como utilizou Advanced Analytics e Inteligência Artificial para encontrar padrões nas mais de 80 mil mensagens trocadas pelo whatsapp entre ele e sua esposa ao longo de 32 meses.

Esperamos que gostem e que se sintam incentivados a casar, ou pelo menos conhecer mais um pouco sobre Advanced Analytics e como isso já está mudando a forma que vivemos, boa leitura!

O casamento

A cerimônia aconteceu no dia 25 de novembro de 2017 em Santa Catarina. Nos conhecemos no famoso “bloco dos sujos” do carnaval de Florianópolis no dia 14 de fevereiro de 2015. Na ocasião eu estava vestido a caráter, ou seja, de mulher (como manda a tradição desse bloco de carnaval) e ela de pirata (mal sabia eu que ela iria roubar meu coração).

Durante 2 anos e 8 meses foram trocadas mais de 85 mil mensagens,até eu me surpreendi, sério! Após o processo de limpeza de dados para conformação Dataset de análise (O que são datasets e como utilizá-los?) sobraram 78550 mensagens válidas, que são mais ou menos como os votos válidos das eleições que excluem brancos, nulos e justificativas. Destas mensagens, foram excluídas todos os emojis. Por falar em emojis, eles dariam certamente uma análise por si só, já que hoje já é até possível fazer buscas no youtube a partir de emojis no celular (experimenta lá e sinta-se um porta-voz egípcio). 

Além das mensagens, houve também um total de 2.324 itens compartilhados, sendo:

  • Fotos – 807
  • Vídeos – 86
  • Áudios – 1431

Que resultam em 723 Megabytes de história.

Apresentação surpresa das análises :)

Apresentação surpresa das análises 🙂

 

Um dia depois do primeiro encontro começamos a trocar mensagens pelo Whatsapp começando por esta:

A primeira mensagem:

15/02/15 08:08:19: Joni: Oi Nubi
15/02/15 08:08:30: Joni: Bom dia

A resposta só veio perto do meio dia:

15/02/15 11:58:29: Nubia : Bom dia!! :).
15/02/15 12:00:26: Joni: Oi bom dia dois minutos antes do meio dia tá valendo.
15/02/15 12:09:26: Nubia: Kkkkk mas eu acordei faz tempo.

Bom, isso foi só o começo, o que escrevo no artigo foram um parte da apresentação dos votos de casamento (foi surpresa para todos), além do objetivo de conquistar o “Sim” da noivíssima, também poderia de alguma forma explicar para as duas famílias o que eu faço na minha vida profissional. Quem é analista sabe como é difícil explicar que o que se faz nessa área é abstrato. Pelas pesquisas, acredito que este trabalho tenha sido uma iniciativa pioneira no mundo. se alguém encontrar algo semelhante, nos avise, somos curiosos!

Análise exploratória

Como alguns já sabem, ninguém chega a receber apoio da Inteligência Artificial se não começar pelas análises estatísticas básicas de exploração dos dados. Assim, com tantas mensagens, o que poderia ser extraído de interessante?

Os metadados são informações que ajudam a explicar a natureza dos dados. Apenas como exemplo, a resolução de uma foto é o metadado da foto. Neste caso estamos falando de mais informações sobre os textos e aqui vão mais alguns números.

Qual comprimento médio das mensagens?


Considerando a contagem de cada dígito das mensagens, chegamos a uma média de 19 letras por mensagem trocada. Porém, essa informação não traz algo muito relevante. Assim, montei um gráfico com a contagem de mensagens em relação com a contagem das letras.

No gráfico abaixo vemos que a Nubia tende a escrever mais mensagens curtas de até 4 letras, ao passo que as minhas mensagens são mais longas (acima de 6 letras). Olhando os dados, alguém pode dizer que ela é mais direta e eu prolixo, será? Ainda, verifica-se uma tendência clara e esperada da correlação entre o tamanho das mensagem e a quantidade delas, ou seja, quanto maior o texto, menos mensagens ocorriam e assim por exemplo, pouquíssimas mensagens ultrapassaram 60 caracteres. Contudo, o que chama a atenção neste gráfico é o surgimento de um padrão nas mensagens de 40 letras que são muito mais frequentes do que na série. O que será que foi escrito com 40 caracteres?

Quantidade de mensagens por quantidade de letras

Quantidade de mensagens por quantidade de letras

Verificando o histórico e filtrando somente mensagens com 40 letras, descobri que o Whatsapp gera um texto no envio de mídias, fotos, vídeos e etc. Esses comportamentos geram pistas para que os algoritmos de Machine Learning consigam descobrir o padrão de comportamento de envios de mídia.

Metadados das mídias

Metadados das mídias

Quantas mensagens são trocadas por mês em média?

Até aquele momento, havia uma média de 88 mensagens por dia, que somando geram 613 por semana e uma média de 2450 mensagens por mês. O total acumulado dos 32 meses de análise foi de 78550 mensagens.  No gráfico de densidade abaixo é possível ver alguns padrões interessantes, como por exemplo, no início eu mandava consistentemente mais mensagens do que ela proporcionalmente. Já a partir do fim de 2015 ela virou o jogo.

Densidade das mensagens

Densidade das mensagens

 

Uma das coisas mais legais de se trabalhar com analytics é conseguir reconstruir a história a partir dos dados. Nesse caso, ficou bem evidente no gráfico uma situação na qual fomos assaltados e um dos celulares foi levado, fato que impactou diretamente no volume de mensagens trocadas em outubro de 2016. Felizmente não foi nada mais sério além dos bens materiais, e assim que substituímos pelo novo aparelho, a quantidade de mensagens voltou aos patamares anteriores. De agosto de 2017 em diante o número de mensagens foi baixando, explicado principalmente pela quantidade de trabalho envolvido nos preparativos do casamento.

Dados absolutos das mensagens

De forma sumarizada, a tabela traz a contagem de mensagens do casal e a soma, sendo classificadas por mensagens afirmativas e sem risos, seguida por afirmativas com risos. Para responder às seguintes questões:

  • Quem escreve mais?
  • Quem faz mais perguntas?
  • Quem dá mais mais risadas?
  • Qual o tipo de mensagem menos comum para cada autor?
Contagem de mensagens

Contagem de mensagens

 

Nota-se claramente que escrevi alguma pergunta contendo risos apenas 36 vezes. Que cara sério! Bom, se vocês estão conseguindo entender a análise, parabéns e bem-vindos ao mundo dos analistas de dados!

Somando as mensagem com risos em afirmações e perguntas, Eu ri 5103 vezes contra 5016 mensagens da Nubia. Achei bem equilibrado até, ainda bem :). Este poderia ser um bom indicador de equilíbrio entre casais. Se alguém ri muito mais do que o outro pode haver algo de errado ou seria certo.

Dados relativos Joni vs Nubia

Os valores absolutos apresentados acima são úteis para diversas perguntas, porém em muitos casos fica um pouco mais difícil responder comportamento em uma análise comparativa entre os autores. Por exemplo: Entre Joni e Núbia quem faz mais perguntas?

Para uma melhor compreensão deste tipo de pergunta, sempre recomendamos que os analistas façam modelagens comparativas usando proporcionalidade, vejam abaixo como fica o mesmo quadro comparando as proporções das respostas entre a Nubia e eu.

Quantidade de respostas

Quantidade de respostas

Fica bastante evidente quem é mais o mais curioso do casal?

Dados relativos aos próprios autores

Agora, aplicando a proporção distribuída pelas colunas temos o comportamento proporcional de cada autor, ou seja, 80% das minhas mensagens eram afirmativas e sem risos, já para a Núbia apenas 67%, sendo que quase 20% das mensagens dela eram perguntas sem risos. E eu sempre achando que eu era mais curioso :).

Quantidade de perguntas

Quantidade de perguntas

 

Interessante que a proporção de perguntas e risadas ficou a mesma, praticamente 13% das mensagens foram risadas, ou seja, grande parte das mensagens são afirmações! Que gente séria, não? Até seria interessante saber qual o padrão nacional e internacional.

As Top 15 palavras mais usadas

Abaixo estão elencadas, como normalmente se faz em análises textuais, as palavras mais frequentes em todas as mensagens trocadas. Importante lembrar que antes de gerar esta análise, foi necessário executar procedimentos de normalização do texto. Esta normalização significa transformar todas as letras em minúsculas e remover todos os acentos e outros “paranauês” de modo que a palavra “Não” seja igual a “não”. Caso contrário a lista conteria “tá” e em segundo lugar em “ta” em oitavo atrás de outras combinações. Essas decisões da preparação são bastante importantes em todo tipo de análise e é um dos motivos pelo qual cientistas de dados altamente qualificados são valorizados no mercado de trabalho no Brasil e principalmente fora dele.

Ranking Termo Aparições
ta 4667

 

bom 4562
vou 3730
nao 3628
to 3618
eu 3071
voce 2768
bem 2721
te 2468
10º oi 2427
11º ja 2118
12º tambem 2091
13º beijinhos 1899
14º gatinha 1730
15º nubi 1706

 

Detecção de padrões com Inteligência Artificial

A Inteligência Artificial pode ser utilizada de muitas formas, seu poder está em detectar comportamentos nos dados de forma automática, e até de forma mais profunda do que um ser humano seria capaz. Neste caso, escolhi fazer o seguinte teste, deixar a máquina ler todas as mensagens por algumas horas e descobrir qual é o comportamento mais típico das minhas mensagens em relação às mensagens da Núbia.

Se questionado, o modelo de IA apresentou uma precisão de 70% de acerto para descobrir quem é o Joni ou a Núbia. Em outras palavras, se apresentar uma nova mensagem para ele, ele acertaria 70% das vezes. Um dos motivos pelo qual o sistema se torna menos preditivo (confuso) sobre a decisão da autoria, foram mensagens em que ambos autores utilizavam as mesmas palavras com a mesma intensidade, como por exemplo:

  • bom dia
  • boa noite
  • agora
  • acho
  • vamos
  • almoço
  • saudades

Perguntando a IA

Quando que você acha que uma mensagem é do Joni?

Resposta:
Quando estão escritas algumas destas palavras na seguinte ordem:

-gatinha,
-trabalho,
-beijos,
-nubi,
-tomar,
-casa,
-linda,
-foto,
-minha,
-adoro

Quando você acha que uma mensagem é da Núbia?

Resposta:

Quando estão escritas algumas destas palavras na seguinte ordem:

-aham,
-quando é uma pergunta,
-baby,
-pela quantidade de letras,
-vou,
-beijos,
-também,
-mimir,
-quero,
-beijinhos,
-ainda,
-só,
-amanhã,
-ta,
-sim,
-eu

 

Conclusões e recomendações

Esse foi um retrato de uma aplicação Outlier de Data Analytics na vida real, que mostra como é possível fazer história apenas conversando no celular. Também mostra como é possível ensinar as máquinas a interpretarem padrões de comportamento em mensagens escritas em português. Pode ser também uma dica para quem está pensando em casar, porque não? Felizmente o “Sim” foi alcançado, e agora o relacionamento mudou de status. Quem sabe futuramente novas análises serão feitas, mas o que importa é conversar pela via real.

Este tipo de análise sobre linguagem natural é um dos tópicos mais difíceis de se abordar, tanto pela complexidade linguística como também pela explosão combinatória que rapidamente ocorrem em textos, aliado aos limites de processamento das máquinas. Logicamente que centenas de outros tipos de análises poderiam ser feitas sobre os mesmos dados, a grande limitação deste projeto foi em relação ao tempo disponível para as análises, já que cada nova ideia acaba demandando testes e avaliações. A área de linguagem natural (estudo de textos) é ampla e complexa, e com grande campo de aplicação no contexto da indústria 4.0 descrita aqui (Indústria 4.0 na visão da Aquarela) . Uma demonstração mais pragmática do impacto dessas abordagens em negócios e pesquisas foram escritas neste artigo (O que é a web 3.0 e sua importância para os negócios ). Essas tecnologias já são amplamente utilizadas nas principais ferramentas de redes sociais, disponíveis para inferir padrões de comportamento para compra, venda, conversão e etc, de modo a gerar a automação de gatilhos de ações preventivas nas bases de clientes.

 

Mercado financeiro e Inteligência artificial – O início da recomendação inteligente?

Mercado financeiro e Inteligência artificial – O início da recomendação inteligente?

Contexto

      Na minha trajetória (Leonardo) como estudioso e pesquisador na área de economia, observei que existe um certo glamour entre o público médio em relação ao investimento (mercado financeiro) em ações em situações semelhantes a estas:

“Vou juntar dinheiro para investir em ações”,

ou

“Eu não tenho conhecimento para investir em ações”.

Os profissionais da área, como agentes de investimento e corretores, tentam demonstrar entendimento, e quiçá um certo controle sobre – como veremos a frente – o cavalo bravo que é o mercado de ações. Sua missão como especialista é aparentemente simples: indicar aos seus clientes a compra de ativos que vão subir, e recomendar a venda dos ativos que vão descer.

A frente faremos um breve tour pelos estudos teóricos que arguem sobre a possibilidade de prever o movimento do mercado financeiro, onde argumento que o retorno de ativos financeiros é aleatório e imprevisível através de análises tradicionais – até mesmo para os profissionais de investimento. E possíveis caminhos para o uso de Inteligência Artificial no mercado de capitais.

Um pouco de história

   Já no ano de 1900, com a tese de doutorado de Louis Bachelier, este sugeriu que o mercado financeiro parecia seguir um passeio aleatório, ou um “caminhar de bêbado”, onde estando o bêbado em uma posição qualquer, não se pode prever a direção do próximo passo. Tal constatação empírica foi explicada na década de 50 por Eugene Fama com a sua hipótese dos mercados eficientes. Tal hipótese sugere que os ativos financeiros são sempre “apostas justas”, ou seja: a expectativa de ganho ao se comprar um ativo financeiro é exatamente igual a expectativa de perda a qualquer momento. Tal ideia é justificada pelo princípio de arbitragem, onde os investidores – de conhecimento de toda a informação disponível, e inseridos em um mercado com muitos compradores e vendedores, reagem tão rapidamente a uma possibilidade de ganho ou perda, que fazem com que os preços se corrijam quase que instantaneamente para o novo preço justo, onde novamente, a chance de ganho e perda se equivalem.

A hipótese dos mercados eficientes

A hipótese dos mercados eficientes possui três versões: a fraca, a semiforte, e a forte.

  • Na versão fraca, os mercados já incorporam toda a informação pública disponível no passado, e logo, não é possível prever o mercado com base nas séries de dados passadas utilizando métodos estatísticos.
  • A versão semiforte adiciona a ideia de que qualquer nova informação pública é precificada instantaneamente, de modo que não se pode lucrar com ela. Por exemplo, se é lançada uma notícia pública de que a Rússia passará a importar minério de ferro exclusivamente do Brasil, no tempo necessário para a compra de ações de uma mineradora, os preços dessa já terão subido expressando a nova expectativa de rentabilidade da empresa, e a oportunidade de ganho não mais existe.
  • Na sua versão forte, considera que até mesmo a informação privilegiada já está incorporada nos preços. É importante mencionar que a hipótese dos mercados eficientes é amplamente aceita entre os acadêmicos de finanças.

Dentre outras teorias rivais na explicação da inexplicabilidade do comportamento de séries financeiras, destacamos a abordagem através da teoria do caos, que sugere que séries financeiras são imprevisíveis devido a apresentarem sensibilidade às condições iniciais.

Demonstração

      Vamos ilustrar os conceitos tratados através de alguns experimentos numéricos. Primeiro, vamos observar as cotações diárias de preços da Petrobrás (PETR4) entre 17/07/2018 e 26/10/2018.

cotações diárias de preços da Petrobrás (PETR4)

cotações diárias de preços da Petrobrás (PETR4)

Agora vamos simular o comportamento de um passeio aleatório utilizando planilhas, e faremos a comparação com a série original. Começamos inserindo um número inicial em uma célula, digamos, o preço inicial na nossa série da PETR4 (R$18,27). Agora definimos a próxima observação como sendo igual a R$18,27, adicionado de um choque aleatório contínuo de amplitude arbitrária. Vamos desta forma, calcular uma sequência de 90 números. Após algumas tentativas, chegamos na série simulada em laranja:

Real vs Simulada

Real vs Simulada

Podemos observar semelhanças qualitativas no comportamento do preço da ação real, e da nossa simulação do “caminhar do bêbado”. Argumento aqui que com o número suficiente de tentativas, podemos chegar em séries virtualmente idênticas à qualquer série financeira real, utilizando somente variações aleatórias. Veja outro exemplo abaixo:

Real vs Simulada 2

Real vs Simulada 2

É comum dentre investidores privados e profissionais, assim como nos canais jornalísticos, a racionalização a posteriori do comportamento de séries financeiras, e mesmo a observação de padrões geométricos: “A ação caiu por causa da alta do petróleo”, ou “O ativo caiu devido à instabilidade política”, ou ainda “a ação está na sua resistência de baixo, e por isso deve subir”, quando de fato, não existe evidência qualquer que sugira que tal comportamento teve qualquer determinante acessível à nossa razão, e nem de que terá o comportamento previsto pelo analista no futuro. Em outras palavras:

depois do fato é fácil buscar o motivo. O desafio em ciência de dados e o verdadeiro diferencial competitivo na área financeira é exatamente o oposto.

Outra forma de pensarmos sobre a hipótese da eficiência de mercado, é observando a influência da variação passada dos preços nos preços futuros. Vamos medir a correlação (ou como as variáveis cô-variam em média) dos retornos diários da PETR4 considerando doze defasagens: isso é, o quanto a variação de preço de hoje sofre influência do preço do dia anterior, de dois dias anteriores, de três, e assim sucessivamente. Por exemplo, o fato de uma ação ter subido no dia anterior sugere que ela tem uma maior ou menor chance de aumentar hoje? No correlograma linear abaixo, as relações são tão ínfimas que mal podem ser vistas no gráfico, de modo que podemos aceitar confortavelmente a hipótese de que os retornos da série em questão não está associados aos seus valores passados, e logo, não podem ser usados para prever os valores futuros.

correlograma linear

Correlograma linear

 

Essas são as razões que me fazem relutante quanto a alguns pontos que parecem fazer parte do senso comum referente aos “etéreos” investimentos em ações. Acredito que alguns dos maiores mitos são:

  1. que o desconhecimento sobre o investimento em ações é uma grande perda para a pessoa média;
  2. os especialistas fazem previsões consistentemente corretas sobre os preços futuros; e por último,
  3. que a estratégia de investimento especulativos de curto prazo sejam recomendáveis, consistentes ou seguras, especialmente para o cidadão médio que deseja “sofisticar” os seus investimentos..

A estruturação de projetos de data analytics, não apenas para o mercado de ações mas de modo geral, consome mais de 80% do tempo no levantamento das fontes, limpeza e integração e dicionarização dos dados de análise. Somente depois da conformação do modelo Dataset (O que é dataset de análise?).

O estado da arte em algoritmos de inteligência artificial aponta para sistemas capazes de fazer a descoberta de padrões não lineares. Mas por que a não linearidade dos modelos é tão importante? Em breve vamos escrever sobre as diferentes perspectivas das análises econométricas tradicionais vs análises com advanced analytics.

Estado da Arte

Existem muitas aplicações no mercado até onde se estendem nossas pesquisas, contudo, verifica-se que a grande maioria das soluções auxiliam os contornos do trabalho de ações, e não diretamente a predição de acontecimentos, por exemplo:

  • Automação do processo de decisão com apoio de máquina;
  • Sistemas de apoio à;
  • Prevenção a fraude;
  • Sistemas avançados de detecção de comportamentos outliers (O que são outliers?);
  • Sistema de prevenção a fraudes.

Hoje um dos trabalhos mais importantes das corretoras é fazer a associação do perfil dos investidores das carteiras com base em combinações complexas de investimentos. Este é um dos pontos mais viáveis da integração dos mecanismos de inteligência artificial com o mercado, e é uma das funcionalidades desenvolvidas pela aquarela na plataforma VORTX. Que traz um contraponto importante de negócio, por ser capaz de capturar situações de não linearidade, e de gerar recomendações extremamente personalizadas de investimento totalmente baseadas em dados, numa espécie de Netflix do setor financeiro.

Outra funcionalidade da plataforma VORTX, que está na vanguarda da aplicação de inteligência artificial no setor financeiro, é a incorporação de análise semântica nas análises. De maneira semelhante ao que ficou consagrado no google analytics, informações textuais podem ser computacionalmente analisadas e transformadas em informação potencialmente utilizável em predições. Um exemplo é o uso de palavras chave em buscadores como o google e meios de comunicação como jornais e blogs (mais sobre análise semântica e a web 3.0).

Conclusões

Mas o que podemos dizer em relação ao futuro das análises financeiras? Embora os métodos estatísticos tradicionais tenham se mostrado ineficazes na predição de séries financeiras, o desenvolvimento e redução do custo de aplicações de analytics, – e em especial de inteligência artificial – permitem um vislumbre do momento em que os algoritmos possam captar a sutileza e complexidade dos dados financeiros de forma suficientemente rápida, e com um retorno superior ao seu custo de implementação. Mercados completamente eficientes – assim como a impossibilidade cabal de previsão – podem ser idealizações teóricas, todavia uma breve análise dos dados nos permite ver a complexidade envolvida em apreender um potencial pequeno componente preditivo de séries altamente aleatórias.

A comunidade acadêmica se mostra otimista, sendo que apenas nos últimos 30 dias, no momento da redação desse texto, mais de 30 artigos associando machine learning à previsão de séries financeiras foram publicados em periódicos científicos internacionais. Se tais métodos irão conquistar, mesmo que em parte, o aparente caos dos mercados de ativos financeiros, é uma previsão que não me arrisco a fazer.

Diferente de espíritos brilhantes do passado, que como Aldous Huxley e Jules Verne, tentaram com sucesso imaginar o futuro, mantenho-me humilde em relação a violência do acaso, e termino com uma fala do Economista ganhador do Prêmio Nobel de ciências econômicas, Friedrich Hayek: “The curious task of economics is to demonstrate to men how little they really know about what they imagine they can design”.

O que aprendemos ensinando Data analytics

O que aprendemos ensinando Data analytics

Como é amplamente comentado no Brasil e no mundo, Data Analytics é um dos pilares que sustentará a nova fase de transformação digital da sociedade, já que tudo tende a gerar dados em maior ou menor grau. Assim, diversas empresas estão investindo em treinamentos voltados às ciências que explicam a natureza dos dados. Neste artigo vamos compartilhar um pouco do que temos visto em sala de aula e quais os passos mais seguros que estão sendo tomados por empresas e profissionais.

Ensinando Data Analytics: O perfil das turmas nos cursos de Data Analytics

Em todas as edições dos cursos que realizamos fazemos um levantamento do perfil da turma. Assim, em nossa experiência, as turmas se mostram bastante heterogêneas, com alunos de diferentes setores, áreas de negócio,  diferentes níveis de conhecimento técnico, anos de experiência e com diferentes hobbies. Vemos que essa característica marcante é positiva do ponto de vista da complexidade e qualidade das possíveis análises de dados resultantes. Acreditamos que quanto mais diversos os pontos de vista, maiores as chances de descoberta de insightssignificativos.

Conversando com alguns gestores sobre esses perfis multifacetados, uma das conclusões que tivemos é que está havendo uma necessidade crescente de pessoas com boa comunicação e que conseguem navegar em contextos diferentes para dar o máximo de vazão dos conhecimentos adquiridos ao invés de se tornarem retentores e especialistas absolutos sobre determinados pontos.

No geral, os perfis dos alunos nos cursos de Data Analytics se dividem entre áreas de negócio das organizações, áreas de inovação e áreas mais técnicas voltadas para TI.

Os alunos, em sua maioria, detém um bom conhecimento de uso do Excel, principalmente aqueles mais focados em áreas de negócio nas empresas. Vários deles(as), mas não a maioria, utilizam as poderosas tabelas dinâmicas para sintetização de dados e geração de relatórios consolidados de Datasets  (O que são datasets?) de até 1 milhão de linhas.- Outros tantos também se beneficiam das sugestões da aplicação das teorias de design sobre suas planilhas que escrevemos nesse artigo  13 dicas para deixar as planilhas mais apresentáveis.

Nos cursos de Data Analytics da Aquarela, uma parcela dos alunos possui bons conhecimentos em bancos de dados, especialmente bancos de dados estruturados e conhecimento de SQL. Uma parcela bastante pequenas dos alunos também já trabalha ou demonstra interesse em aprender linguagens de programação focadas em ciência de dados, como R e Python.

 

Workshop de Data Analytics Engie, em Florianópolis.

Workshop de Data Analytics Engie, em Florianópolis.

 

Curso aberto de “Introdução à cultura de Data Analytics” na ACATE, Florianópolis, e na CAESB, em Brasília.

Curso aberto de “Introdução à cultura de Data Analytics” na ACATE, Florianópolis, e na CAESB, em Brasília.

 

Hackthon de Data Analytics na Algar Telecom, Belo Horizonte, e na Flex Contact Center, Florianópolis.

Hackthon de Data Analytics na Algar Telecom, Belo Horizonte, e na Flex Contact Center, Florianópolis.

 

Curso aberto de “Introdução à cultura de Data Analytics” no CUBO e na FYI, ambos em São Paulo.

Curso aberto de “Introdução à cultura de Data Analytics” no CUBO e na FYI, ambos em São Paulo.

Perfil das empresas

Grande parte das empresas que estão investindo em Data Analytics já possuem alguma coleta de dados sendo feita e já sentem diariamente as limitações das ferramentas tradicionais de análise de dados, como o Excel – que é uma poderosa ferramenta para análise contábil e financeira, mas inadequada para diversas fases necessárias do processo de Advanced Analytics, como por exemplo limpeza e enriquecimento de dados e Inteligência Artificial.

Apesar de sempre existirem muitas crenças (verdadeiras ou não) dentro das empresas, elas raramente registram de forma estruturada essas relações de causa e efeito em seus processos. Sem esses registros (mesmo em post its) se torna mais difícil elaborar os testes contra os dados coletados da realidade.

Logo, registrar as crenças é o primeiro passo para descobrir se estas são verdadeiras, falsas ou plausíveis. Em outras palavras, os analistas de dados fazem constantemente um trabalho igual ao dos personagens da série MythBusters.

Assim como as crenças não são elucidadas de forma sistemática, o mapeamento das fontes de dados internas e/ou externas também não. A sugestão é começar os processos de mapeamento de fontes de dados internas; e para aqueles dados que ainda não estão disponíveis, criar uma lista de desejos de dados. Assim, com o tempo é possível conseguí-los internamente ou externamente.

Aos interessados em entender melhor o perfil das empresas brasileiras em analytics, segue o resultado de um levantamento online que fizemos recentemente sobre o nível de maturidade das empresas Brasileiras – Relatório sobre a cultura de dados nas empresa Brasileiras .

Alunos e empresas: limitações da implementação de Data Analytics

Um grande limitador da eficiência dos alunos para implementarem projetos de Data Analytics é a fragmentação dos dados em suas organizações, e das análises causadas principalmente pelo uso intensivo de planilhas, bem como a dificuldade de estruturar análises robustas e recorrentes com essas ferramentas.

Abaixo está uma tabela com as limitações dos arquivos de planilhas eletrônicas, neste caso as empresas que trabalham com maior quantidade de dados podem utilizar arquivos no formato “.CSV”.

Limitações das planilhas eletrônicas

Limitações das planilhas eletrônicas

Mais detalhes sobre as limitações das planilhas e o caminho para as linguagens R e Python em: Saindo do limitado excel para o R ou melhor Python

Um dos fatores que motiva a criação de diversas planilhas fragmentadas dentro da organização é a dificuldade em conseguir realizar extrações de dados específicos das bases de dados das empresas. Isso é causado em boa parte por haver uma dependência de profissionais de TI, que precisam dedicar um tempo extra para alterar as queries e esse processo conflita com as definições de prioridades da área.

Para resolver este problema, uma das nossas principais missões nos cursos é disseminar a cultura de Data Analytics, para que os objetivos de negócio de cada análise sejam bem definidos e os projetos de Analytics possam ser priorizados nas organizações, devido ao grande potencial de gerar valor que possuem.

Conclusões e recomendações

O uso cada vez mais intensivo de dados é uma grande tendência, talvez seja algo parecido com a evolução da informatização – ocorrida nos anos 90 –, e o surgimento da internet na sequência. A capacitação das pessoas que administram e executam processos de negócios é parte integral desta fase de transformação digital que está acontecendo.

Procuramos compartilhar neste artigo um pouco do perfil dos alunos e das empresas que já estão investindo no aperfeiçoamento profissional com a Aquarela. De forma conclusiva, vemos que tanto empresas como pessoas têm perfis distintos e que o primeiro passo tem sido iniciar os mapeamentos dos problemas existentes, crenças e dados para análise e dicionarização de dados para então iniciar de avaliações de dados de forma prototípica termos usado (small Data) ou então buscar a terceirização de alguns processos analíticos quando a complexidade torna a tarefa muito distante dos objetivos estratégicos da empresa.

Além do mais, todos esse processos trazem diversos ganhos secundários que buscaremos explicitar em artigos futuros.

 

 

O que é ciência de dados (data science) e como aplicá-la nos negócios?

O que é ciência de dados (data science) e como aplicá-la nos negócios?

Neste artigo vamos mostrar o que é ciência de dados, uma área que tem chamado cada vez mais atenção no mundo corporativo e universitário. É crescente o número de empresas buscando por aplicações de data science para negócios, bem como o número de profissionais que estão migrando para a área de ciência de dados e ajudando a democratizar o uso e a aplicação da matemática e estatística.

Popularidade da área de ciência de dados

Em outubro de 2012 a Harvard Business Review publicou um artigo intitulado “Data Scientist: The Sexiest Job of the 21st Century”, o qual foi muito falado ao redor do mundo e ajudou a enfatizar a relevância da área de ciência de dados.

Se a área de data science ganhou espaço em boa parte por ser uma área “atraente” – que chama atenção pelos belos gráficos, análises feitas com algoritmos complexos e métodos modernos –, hoje em dia o campo de ciência de dados tem aumentado ainda mais o seu espaço pela possibilidade de gerar valor às organizações, entregando resultados de forma rápida e objetiva como solução de problemas complexos.

A seguir apresentamos um gráfico com dados extraídos do Google Trends, que mostra a evolução das buscas pelo termo “data science” no Brasil e no mundo, de outubro de 2012 até julho de 2018. O gráfico mostra a popularidade das buscas, sendo 100 o momento de maior popularidade, 50 média popularidade e 0 nenhuma popularidade.

Popularidade das buscas por data science

Popularidade das buscas por data science

O gráfico mostra que a popularidade da área de ciência de dados cresce cada vez mais, estando no seu auge. Vemos que no Brasil há um certo “delay” em relação às buscas gerais em todo o mundo. As quedas sazonais no mundo são mais marcantes em dezembro ao passo que no Brasil não há um padrão bem definido da demanda.

O que é ciência de dados?

Ciência de dados é um campo interdisciplinar de investigação de dados que resolve problemas reais de negócios, com o uso de método científico e técnicas avançadas de análise de dados, machine learning e inteligência artificial. Esta é uma área essencial para posicionar as organizações no cerne da Indústria 4.0.

Uma das características marcantes da área de ciência de dados é a conexão que ela cria entre o mundo acadêmico e o mundo de negócios. Na academia muito se aprende sobre o método científico e a estruturação de pesquisas e análises. No mundo dos negócios, por sua vez, há um forte apelo pela rápida resolução de problemas práticos nos diversos setores das organizações.

“A ciência de dados pode resolver problemas simples e complexos, não apenas complexos. Existem problemas simples que geram grandes impactos nas operações e até nas estratégias de longo prazo.” Joni Hoppen

Com aplicações de data science é possível unir estes dois mundos, resolvendo problemas simples e complexos de forma estruturada, gerando impactos nos negócios. Estes impactos vão depender do tipo de problema que está sendo resolvido, e o fluxo de dados podendo abranger desde o nível operacional da empresa até a descoberta de novas regras de negócio (insights) para mudar decisões estratégicas de longo prazo.

Em termos de “campos de conhecimento”, a área de ciência de dados é uma intersecção entre ciência da computação, engenharias, matemática e estatística com áreas de negócio, que envolve conhecimentos de economia e administração, de forma geral.

Aplicando data science para negócios

O profissional que irá executar “data science” no dia a dia é o cientista de dados, e para aplicar data science para negócios é necessário um envolvimento tanto de áreas mais técnicas, quanto de áreas mais de negocio. A separação dos profissionais técnicos dos analistas de negócio tem se mostrado um fator crítico de sucesso desta natureza de projeto.

Na parte mais técnica, os cientistas de dados se relacionam com setores como: business intelligence (BI) / inteligência de mercado; tecnologia de informação (TI); administração de banco de dados (DBA).

Já nas áreas de negócio, os cientistas de dados irão se relacionar com profissionais que possuem domínio do negócio a respeito de cada problema específico que busca-se resolver, em outras palavras, são os profissionais que entendem as regras do jogo e jogam diariamente. Por exemplo: se o cientista de dados irá resolver um problema de gestão de estoque, então profissionais da área de logística e até mesmo da contabilidade poderão ser alocados para fazer parte do projeto.  

Neste artigo elaboramos de forma resumida 14 áreas de aplicação de ciência de dados e as recomendações necessárias para começar a estruturar análises em cada área.

Etapas para desenvolver projetos de ciência de dados com sucesso nos negócios

Para aplicar projetos de ciência de dados em negócios, é fundamental cumprir algumas etapas, as quais são descritas a seguir.

Desenvolver projetos de ciência de dados envolve muito mais do que o conhecimento de linguagens de programação, como Python e R, ou de saber como aplicar algoritmos complexos de machine learning e inteligência artificial.

Para colocar em prática projetos envolvendo ciência de dados que obtenham sucesso e agreguem valor para as empresas, é preciso ter uma metodologia, para mapear o problema a ser resolvido e definir métricas de sucesso do projeto.

Conheça a DCIM, metodologia desenvolvida pela Aquarela para implementar a cultura de Data Analytics nas organizações.

De forma geral, as seguintes etapas precisam ser cumpridas:

1. Definição de problema e métrica de sucesso

O ponto inicial para aplicar ciência de dados nas organizações é identificar qual é a dor de negócio, e qual é o indicador que realça essa dor na prática. Alguns exemplos de problemas que a já auxiliamos no processo de definição do caminho para a solução são:

  • Logística: como reduzir a taxa de entregas não efetuadas? Como otimizar as rotas e as cargas enviadas?
  • Marketing digital e sistemas online: como reduzir a taxa de churn de clientes?
  • Manutenção industrial (Embraer): como melhorar a assertividade na troca de peças para resolver defeitos de equipamentos de alto custo?
  • Gestão de estoque: como reduzir o provisionamento contábil de estoques e otimizar o deslocamento do patrimônio.
  • Área comercial: Como aumentar o ticket médio das vendas com a recomendação de produtos? Como antecipar a compra de produtos que invariavelmente seriam comprados pelo cliente?
  • Saúde: Como reduzir em 50% a taxa de faltas nos agendamentos médico? (Leia mais aqui).
  • Marketing: Como inferir motivos de perda de market-share e gerar recomendações de ações por produto.
  • Cobrança: Como antecipar o contato com clientes com mais probabilidade de pagamento das dívidas?

Clique aqui e conheça mais sobre as soluções da Aquarela.

2. Definição do dataset analítico a ser utilizado

O dataset (conjunto de dados) a ser utilizado pelo cientista de dados, não é uma simples extração de uma enorme massa de dados diretamente do banco transacional pelas queries SQL. (Saiba mais sobre projetos analytics de alto nível aqui.)

O dataset analítico é construído a partir da definição do problema, e precisa conter todas as variáveis (colunas) necessárias para que o problema em questão possa ser respondido.

Este conjunto de dados normalmente é uma mescla de variadas bases de dados, tanto internas (da própria organização), quanto externas. Nas fontes de dados externas entram bases compradas de fornecedores específicos, ou até bases públicas, que têm o fim de enriquecer os dados e melhorar a assertividade dos modelos que serão aplicados.

Veja aqui em detalhes o que é e como construir um dataset analítico.

3. Transformação e higienização de dados

Umas das etapas que mais exige horas de trabalho em ciência de dados é a transformação e higienização de dados.

Este processo inclui pontos que envolvem técnicas estatísticas, como tratamento de dados faltantes e tratamento de outliers. Outros procedimentos também são realizados nesta etapa, como: “merge” ou concatenação de colunas, enriquecimento de dados com bases externas (dados de latitude e longitude, temperatura, macroeconômicos, entre outros) e diversas outras reestruturações necessárias para que os modelos de inteligência artificial consigam trazer a resposta desejada.

4. Mineração de dados e modelagem com inteligência artificial

Um dos pontos mais importantes no processo de gerar valor para as companhias na área de ciência de dados é o processo de modelagem. Nesta etapa diversos modelos (centenas ou milhares) são treinados com o uso de diversas técnicas de inteligência artificial.

O propósito de todas essas modelagens é encontrar as inter-relações entre as variáveis (colunas) com o uso de inteligência artificial, e gerar outputs como:

  • predições: probabilidade de ocorrência de um evento dado um conjunto de características (leia mais sobre análise preditiva);
  • previsões: projeções de como será o futuro de séries temporais;
  • análise de perfis: identificação de personas, categorização entre indivíduos similares dentro do conjunto de dados, o que permite encontrar também grupos de outliers, os quais possuem características muito diferentes dos demais;
  • criação de cenários: identificar grupos que impactam positiva ou negativamente em um target, uma variável a ser explicada.

Saiba mais sobre data mining (mineração de dados) em nosso artigo.

Ao final, os modelos escolhidos serão colocados em produção e monitorados pelos sistemas de acompanhamento, normalmente sistemas de BI ou mesmo planilhas de excel dependendo do nível de maturidade da organização. Veja aqui os 5 níveis de maturidade de dados da metodologia DCIM Aquarela.  

Veja também – Resultados da pesquisa sobre a qualidade dos dados empresariais no Brasil

5. Comunicação dos resultados obtidos em linguagem de negócio

A comunicação dos resultados dos projetos de ciência de dados deve ser feita em linguagem de negócios, com foco na objetividade e na agilidade, mostrando os KPI’s que foram impactados com o projeto e qual será o retorno financeiro obtido. Além disso, se recomenda apresentar a visão de futuro dos sistemas integrados, e uma lista com as oportunidades adjacentes, descobertas durante o processo (está última parte é a que consideramos mais disruptiva para os negócios).

Conclusão

Mostramos neste artigo o que é ciência de dados, uma área de grande interesse que está promovendo a democratização da matemática e estatística no mundo. Evidenciamos algumas características deste tipo de trabalho e apresentamos alguns exemplos de projetos que já realizamos em diversos setores.

Em nossa visão, a ciência de dados vai muito além das questões técnicas, pois aplicar ciência de dados na prática é saber o problema de negócio será atacado, descobrir quais dados estão disponíveis, quais indicadores existem ou precisam ser desenvolvidos. Além disso é necessário desempenhar um papel ponderador das avaliações qualitativos e quantitativos das tecnologias que serão utilizadas na resolução do problema, utilizando boa comunicação, sensibilidade técnica e de negócios. E, ao fim, ser capaz de colocar em produção as análises e partir para o monitoramento de desempenho.

Por fim, a área de ciência de dados é um dos principais motores que está moldando as organizações na era da informação, sendo capaz de gerar conhecimento em diferentes níveis do comportamento interno e até externo das organizações. Com o ganho em poder computacional, e também na capacidade de coleta e armazenamento de dados, há uma crescente demanda por profissionais fluentes nestes processos de análise, os cientistas de dados.

“Ciência de dados vai muito além dos algoritmos!”

A tendência para o futuro é que ciência de dados passe a ser cada vez mais relevante para os negócios, não apenas por ser uma área “sexy” – como tratada pelo artigo da HBR, citado anteriormente –, mas, principalmente, por gerar valor em análises que antes eram inviáveis (mesmo as mais simples) de serem realizadas.

Veja mais conteúdos relacionados em nosso blog:

Como estruturar projetos Analytics de alto nível –  Dados Transacionais versus dados Analíticos

Como estruturar projetos Analytics de alto nível – Dados Transacionais versus dados Analíticos

O interesse pela área de análise de dados é grande, e isso está levando diversos profissionais optar pela migração de carreira total ou parcial. As empresas, por sua vez,  necessitam estruturar constantemente seus projetos de analytics para enfrentar as mudanças trazidas pelas demandas de informação da Indústria 4.0Para ajudá-los neste processo, escrevemos este artigo baseado-se em diversas ocasiões em que trabalhamos na formação e treinamento de equipes de análise de dados. O objetivo aqui é apresentar as diferenças conceituais de sistemas transacionais (que geram dados transacionais) em relação aos sistemas analíticos (que geram dados analíticos).

“Tenho visto nas consultorias da Aquarela Advanced Analytics – VORTX que um dos maiores degraus que as empresas estão enfrentando na escalada dos níveis maturidade de dados é conseguir que todos os envolvidos (cientistas, analistas, diretores) saibam a diferença entre sistemas transacionais e sistemas analíticos. Há um grande problema de comunicação acontecendo nas empresas. Sem isso, os times não só trabalham em páginas diferentes, como também arrisco dizer, em livros diferentes.” (Joni Hoppen – Sócio Fundador da Aquarela)

Dados Transacionais

Quando realizamos uma transferência bancária, a transação do dinheiro da nossa conta para o estabelecimento gera um Dado Transicional ou Operacional.  Eles são caracterizados pela realização de transações com curta duração e pequeno volume de dados manipulados. O foco dos mesmos é “escrever” informações.

A transferência gera uma transação que tem um valor, uma origem, limite de tempo, etc. São sistemas que dão garantia de integridade, ordem temporal de cada uma das transações. Um dos principais requisitos dos sistemas transacionais é a performance, ou seja, é necessário que a transação ocorra no momento em que foi requerida. Também podemos imaginá-los como sistemas de controle em tempo real (sistemas on-online) ou quase real.

Abaixo apresentamos alguns exemplos destes sistemas:

  1. Sistemas bancários: cada transação, pagamento ou saque realizado gera um registro da ação que você fez de forma segura, e normalmente distribuída em diversos sistemas.
  2. Sistemas ERP: geralmente, empresas que realizam vendas de produtos e serviços mantém seus sistemas de gestão operando 24×7 a fim de receber e integrar as transações de compra, venda e estocagem dos seus produtos, até fazer a interligação dessas informações com o site de E-commerce.
  3. Na área de marketing digital podemos destacar o RD Station, ferramenta desenvolvida pela Resultados Digitais que utilizamos para gerir o marketing digital da nossa operação. Ele é uma ferramenta transacional, que também realiza funções analíticas, coletando em tempo real informações sobre acessos, conversões, e-mails e leads que interagem com nossos sites, formulários e redes sociais.

Dados Analíticos

Os dados analíticos são informações geradas a partir dos sistemas transacionais. Ou seja, é o conjunto das transações coletadas para fins de decisões administrativas pontuais ou até para definição de políticas de longo termo. Os dados analíticos são o principal insumo para o planejamento, respondendo perguntas como:

  • Quais são os produtos mais vendidos em uma determinada época?
  • Como é o comportamento dos clientes da região X em relação aos clientes da região Y?
  • Quais são os fatores que mais influenciam o aumento de vendas durante o inverno?

O trabalho sobre os dados analíticos acontece de modo off-line e engloba a análise dos dados transacionais agrupados de acordo com o tipo de pergunta feita pelos analistas de negócio. Os dados analíticos necessitam ser estruturados em datasets de análise. (O que são Datasets e como utilizá-los). A obtenção dos dados analíticos se dá de diversas formas, mas principalmente por extrações dos bancos de dados em arquivos no formato .CSV ou .XLSX.

Recomendação importante, não realize análises de dados em dados transacionais, sob pena de interrupção nos serviços on-line.

Nesse contexto de análise, incluímos o uso constante de algoritmos de Inteligência Artificial, estatística, matemática e modelos econométricos, dependendo do setor de negócio – (14 Setores para aplicação de Data Analytics) . Com estas ferramentas, conseguimos estruturar análises que possibilitem a geração de insights ou novos dados que são importantes para aumentar a eficiência do negócio.  O foco dos dados analíticos é a leitura e o estudo dos padrões acumulado nos sistemas transacionais. Uma lista dos tipos de análises foram descritos neste artigo sobre análise descritiva, prescritiva, e cenarização.

Exemplos de Sistemas Analíticos

  1. Sistemas de Business Intelligence (BI´s): são sistemas que podem ser utilizados para extrair os dados transacionais e gerar visualizações simples e intuitivas para gestão. Existem diversas opções no mercado e a sua utilização permite o acesso das empresas ao nível 3 de maturidade de analytics (DCIM).
  2. Google Analytics (GA): agrega diversas informações sobre o comportamento de vistas ao site da empresa, informando por exemplo o número de acessos, páginas visitadas, tempo de visita e diversas outros indicadores. Esta ferramenta é bastante importante para as equipe de marketing e vendas.
  3. Aquarela VORTX: esta é uma ferramenta de análise de dados que permite a inserção de datasets de diversos setores para detecção de outliers ( leia aqui o que são outliers e como tratá-los ), mensuração das forças de fatores em relação a determinados resultados, geração de ações preventivas em logística, cobrança, fraudes e manutenção de equipamentos.     

Sistemas Híbridos

O grande valor extraído dos dados analíticos ocorre quando há uma integração estruturada dos dados transacionais com os conhecimentos gerados pelas análise de dados. Este processo pode ocorrer de forma manual, descobrindo os padrões e ajustando o sistema transacional, ou de forma automática, na situação onde ele questiona a base analítica antes de apresentar uma resposta aos usuários. Alguns exemplos disso são:

  • Agendamentos médicos: no caso de um hospital, o sistema transacional de agendamento de consultas médicas recebe o pedido de um novo agendamento de consulta em tempo real e é capaz de questionar a base analítica em tempo real para inferir a probabilidade do paciente de faltar neste agendamento. Se, por exemplo, há uma alta probabilidade de falta na consulta (informado pelas ferramentas de Inteligência Artificial), a administração poderia aplicar uma regra para que ele(a) seja obrigado a fazer duas confirmações ou mesmo escolher a data com menor chances de falta antes da consulta ser agendada – mais informações neste link.
  • Netflix: Este é um exemplo clássico de um modelo de negócio disruptivo que une os dados transacionais da entrega de vídeos com alta qualidade em tempo real, associado a um conjunto de regras e heurísticas computacionais geradas pela Inteligência Artificial que garantem recomendações de alto nível de filmes de acordo com os perfis de usuários da ferramenta. Não ache estranho que todos os tipos de filmes que você mais gosta são os que estão na primeira página da sua televisão.

Na tabela abaixo, elencamos alguns exemplos práticos e como o tipo de informação (dado) é classificado:

Tipo de operação Tipo de dado (informação)
Transacional Analítico Híbrido
Transferência bancária X
Compra no site da loja X
Registros de compra do mês anterior salvos em planilha excel X
Sistema de agendamento de consultas médicas X
Dataset contendo todas as consultas médicas realizadas X
Modelo preditivo de faltas em agendamentos X
Sistema de agendamento de consultas médicas inteligente X
Modelo preditivo de recomendação de filmes X
Recomendação de filmes em tempo real aos usuários Netflix X

Projetos Analytics – Conclusão

Como vimos, é de grande importância que as pessoas envolvidas nas iniciativas de análise de dados estejam a par das diferenças conceituais envolvidas, e na própria infra-estrutura de informação montada para tal. O não entendimento desses conceitos pode provocar dificuldades de alinhamento, expectativas e frustrações entre os times que operam dados transacionais e/ou analíticos.

Ao final vemos que o grande objetivo, ou o caminho que todos buscam em analytics, é chegar a sistemas híbridos cada vez mais autônomos para atender seus clientes, como o extraordinário caso da Netflix, que indiscutivelmente se enquadra no nível 5 de maturidade de dados da metodologia DCIM. Para que as empresas e os profissionais tenham uma visão dos níveis de maturidade das empresas brasileiras em termos de analytics, sugerimos conferir esta pesquisa que realizamos:

Pesquisa sobre a qualidade dos dados empresariais no Brasil.

O futuro da área de analytics é a automação de comportamentos inteligentes, apoiados por Inteligência Artificial em todos os setores onde há informação, gerando um nível de otimização e personalização dos serviços em grande escala, sem paralelos na história.

Assista aqui um Webinar sobre os impactos da Inteligência Artificial nos negócios.