Há quase um ano atrás tivemos o primeiro casamento de um colaborador da Aquarela, nosso CTO Joni Hoppen trocou alianças no dia 25 de novembro de 2017, e como bom cientista de dados que é, não pode deixar sua profissão de fora! Neste artigo, Joni conta como utilizou Advanced Analytics e Inteligência Artificial para encontrar padrões nas mais de 80 mil mensagens trocadas pelo whatsapp entre ele e sua esposa ao longo de 32 meses.

Esperamos que gostem e que se sintam incentivados a casar, ou pelo menos conhecer mais um pouco sobre Advanced Analytics e como isso já está mudando a forma que vivemos, boa leitura!

O casamento

A cerimônia aconteceu no dia 25 de novembro de 2017 em Santa Catarina. Nos conhecemos no famoso “bloco dos sujos” do carnaval de Florianópolis no dia 14 de fevereiro de 2015. Na ocasião eu estava vestido a caráter, ou seja, de mulher (como manda a tradição desse bloco de carnaval) e ela de pirata (mal sabia eu que ela iria roubar meu coração).

Durante 2 anos e 8 meses foram trocadas mais de 85 mil mensagens,até eu me surpreendi, sério! Após o processo de limpeza de dados para conformação Dataset de análise (O que são datasets e como utilizá-los?) sobraram 78550 mensagens válidas, que são mais ou menos como os votos válidos das eleições que excluem brancos, nulos e justificativas. Destas mensagens, foram excluídas todos os emojis. Por falar em emojis, eles dariam certamente uma análise por si só, já que hoje já é até possível fazer buscas no youtube a partir de emojis no celular (experimenta lá e sinta-se um porta-voz egípcio). 

Além das mensagens, houve também um total de 2.324 itens compartilhados, sendo:

  • Fotos – 807
  • Vídeos – 86
  • Áudios – 1431

Que resultam em 723 Megabytes de história.

Apresentação surpresa das análises :)

Apresentação surpresa das análises 🙂

 

Um dia depois do primeiro encontro começamos a trocar mensagens pelo Whatsapp começando por esta:

A primeira mensagem:

15/02/15 08:08:19: Joni: Oi Nubi
15/02/15 08:08:30: Joni: Bom dia

A resposta só veio perto do meio dia:

15/02/15 11:58:29: Nubia : Bom dia!! :).
15/02/15 12:00:26: Joni: Oi bom dia dois minutos antes do meio dia tá valendo.
15/02/15 12:09:26: Nubia: Kkkkk mas eu acordei faz tempo.

Bom, isso foi só o começo, o que escrevo no artigo foram um parte da apresentação dos votos de casamento (foi surpresa para todos), além do objetivo de conquistar o “Sim” da noivíssima, também poderia de alguma forma explicar para as duas famílias o que eu faço na minha vida profissional. Quem é analista sabe como é difícil explicar que o que se faz nessa área é abstrato. Pelas pesquisas, acredito que este trabalho tenha sido uma iniciativa pioneira no mundo. se alguém encontrar algo semelhante, nos avise, somos curiosos!

Análise exploratória

Como alguns já sabem, ninguém chega a receber apoio da Inteligência Artificial se não começar pelas análises estatísticas básicas de exploração dos dados. Assim, com tantas mensagens, o que poderia ser extraído de interessante?

Os metadados são informações que ajudam a explicar a natureza dos dados. Apenas como exemplo, a resolução de uma foto é o metadado da foto. Neste caso estamos falando de mais informações sobre os textos e aqui vão mais alguns números.

Qual comprimento médio das mensagens?


Considerando a contagem de cada dígito das mensagens, chegamos a uma média de 19 letras por mensagem trocada. Porém, essa informação não traz algo muito relevante. Assim, montei um gráfico com a contagem de mensagens em relação com a contagem das letras.

No gráfico abaixo vemos que a Nubia tende a escrever mais mensagens curtas de até 4 letras, ao passo que as minhas mensagens são mais longas (acima de 6 letras). Olhando os dados, alguém pode dizer que ela é mais direta e eu prolixo, será? Ainda, verifica-se uma tendência clara e esperada da correlação entre o tamanho das mensagem e a quantidade delas, ou seja, quanto maior o texto, menos mensagens ocorriam e assim por exemplo, pouquíssimas mensagens ultrapassaram 60 caracteres. Contudo, o que chama a atenção neste gráfico é o surgimento de um padrão nas mensagens de 40 letras que são muito mais frequentes do que na série. O que será que foi escrito com 40 caracteres?

Quantidade de mensagens por quantidade de letras

Quantidade de mensagens por quantidade de letras

Verificando o histórico e filtrando somente mensagens com 40 letras, descobri que o Whatsapp gera um texto no envio de mídias, fotos, vídeos e etc. Esses comportamentos geram pistas para que os algoritmos de Machine Learning consigam descobrir o padrão de comportamento de envios de mídia.

Metadados das mídias

Metadados das mídias

Quantas mensagens são trocadas por mês em média?

Até aquele momento, havia uma média de 88 mensagens por dia, que somando geram 613 por semana e uma média de 2450 mensagens por mês. O total acumulado dos 32 meses de análise foi de 78550 mensagens.  No gráfico de densidade abaixo é possível ver alguns padrões interessantes, como por exemplo, no início eu mandava consistentemente mais mensagens do que ela proporcionalmente. Já a partir do fim de 2015 ela virou o jogo.

Densidade das mensagens

Densidade das mensagens

 

Uma das coisas mais legais de se trabalhar com analytics é conseguir reconstruir a história a partir dos dados. Nesse caso, ficou bem evidente no gráfico uma situação na qual fomos assaltados e um dos celulares foi levado, fato que impactou diretamente no volume de mensagens trocadas em outubro de 2016. Felizmente não foi nada mais sério além dos bens materiais, e assim que substituímos pelo novo aparelho, a quantidade de mensagens voltou aos patamares anteriores. De agosto de 2017 em diante o número de mensagens foi baixando, explicado principalmente pela quantidade de trabalho envolvido nos preparativos do casamento.

Dados absolutos das mensagens

De forma sumarizada, a tabela traz a contagem de mensagens do casal e a soma, sendo classificadas por mensagens afirmativas e sem risos, seguida por afirmativas com risos. Para responder às seguintes questões:

  • Quem escreve mais?
  • Quem faz mais perguntas?
  • Quem dá mais mais risadas?
  • Qual o tipo de mensagem menos comum para cada autor?
Contagem de mensagens

Contagem de mensagens

 

Nota-se claramente que escrevi alguma pergunta contendo risos apenas 36 vezes. Que cara sério! Bom, se vocês estão conseguindo entender a análise, parabéns e bem-vindos ao mundo dos analistas de dados!

Somando as mensagem com risos em afirmações e perguntas, Eu ri 5103 vezes contra 5016 mensagens da Nubia. Achei bem equilibrado até, ainda bem :). Este poderia ser um bom indicador de equilíbrio entre casais. Se alguém ri muito mais do que o outro pode haver algo de errado ou seria certo.

Dados relativos Joni vs Nubia

Os valores absolutos apresentados acima são úteis para diversas perguntas, porém em muitos casos fica um pouco mais difícil responder comportamento em uma análise comparativa entre os autores. Por exemplo: Entre Joni e Núbia quem faz mais perguntas?

Para uma melhor compreensão deste tipo de pergunta, sempre recomendamos que os analistas façam modelagens comparativas usando proporcionalidade, vejam abaixo como fica o mesmo quadro comparando as proporções das respostas entre a Nubia e eu.

Quantidade de respostas

Quantidade de respostas

Fica bastante evidente quem é mais o mais curioso do casal?

Dados relativos aos próprios autores

Agora, aplicando a proporção distribuída pelas colunas temos o comportamento proporcional de cada autor, ou seja, 80% das minhas mensagens eram afirmativas e sem risos, já para a Núbia apenas 67%, sendo que quase 20% das mensagens dela eram perguntas sem risos. E eu sempre achando que eu era mais curioso :).

Quantidade de perguntas

Quantidade de perguntas

 

Interessante que a proporção de perguntas e risadas ficou a mesma, praticamente 13% das mensagens foram risadas, ou seja, grande parte das mensagens são afirmações! Que gente séria, não? Até seria interessante saber qual o padrão nacional e internacional.

As Top 15 palavras mais usadas

Abaixo estão elencadas, como normalmente se faz em análises textuais, as palavras mais frequentes em todas as mensagens trocadas. Importante lembrar que antes de gerar esta análise, foi necessário executar procedimentos de normalização do texto. Esta normalização significa transformar todas as letras em minúsculas e remover todos os acentos e outros “paranauês” de modo que a palavra “Não” seja igual a “não”. Caso contrário a lista conteria “tá” e em segundo lugar em “ta” em oitavo atrás de outras combinações. Essas decisões da preparação são bastante importantes em todo tipo de análise e é um dos motivos pelo qual cientistas de dados altamente qualificados são valorizados no mercado de trabalho no Brasil e principalmente fora dele.

Ranking Termo Aparições
ta 4667

 

bom 4562
vou 3730
nao 3628
to 3618
eu 3071
voce 2768
bem 2721
te 2468
10º oi 2427
11º ja 2118
12º tambem 2091
13º beijinhos 1899
14º gatinha 1730
15º nubi 1706

 

Detecção de padrões com Inteligência Artificial

A Inteligência Artificial pode ser utilizada de muitas formas, seu poder está em detectar comportamentos nos dados de forma automática, e até de forma mais profunda do que um ser humano seria capaz. Neste caso, escolhi fazer o seguinte teste, deixar a máquina ler todas as mensagens por algumas horas e descobrir qual é o comportamento mais típico das minhas mensagens em relação às mensagens da Núbia.

Se questionado, o modelo de IA apresentou uma precisão de 70% de acerto para descobrir quem é o Joni ou a Núbia. Em outras palavras, se apresentar uma nova mensagem para ele, ele acertaria 70% das vezes. Um dos motivos pelo qual o sistema se torna menos preditivo (confuso) sobre a decisão da autoria, foram mensagens em que ambos autores utilizavam as mesmas palavras com a mesma intensidade, como por exemplo:

  • bom dia
  • boa noite
  • agora
  • acho
  • vamos
  • almoço
  • saudades

Perguntando a IA

Quando que você acha que uma mensagem é do Joni?

Resposta:
Quando estão escritas algumas destas palavras na seguinte ordem:

-gatinha,
-trabalho,
-beijos,
-nubi,
-tomar,
-casa,
-linda,
-foto,
-minha,
-adoro

Quando você acha que uma mensagem é da Núbia?

Resposta:

Quando estão escritas algumas destas palavras na seguinte ordem:

-aham,
-quando é uma pergunta,
-baby,
-pela quantidade de letras,
-vou,
-beijos,
-também,
-mimir,
-quero,
-beijinhos,
-ainda,
-só,
-amanhã,
-ta,
-sim,
-eu

 

Conclusões e recomendações

Esse foi um retrato de uma aplicação Outlier de Data Analytics na vida real, que mostra como é possível fazer história apenas conversando no celular. Também mostra como é possível ensinar as máquinas a interpretarem padrões de comportamento em mensagens escritas em português. Pode ser também uma dica para quem está pensando em casar, porque não? Felizmente o “Sim” foi alcançado, e agora o relacionamento mudou de status. Quem sabe futuramente novas análises serão feitas, mas o que importa é conversar pela via real.

Este tipo de análise sobre linguagem natural é um dos tópicos mais difíceis de se abordar, tanto pela complexidade linguística como também pela explosão combinatória que rapidamente ocorrem em textos, aliado aos limites de processamento das máquinas. Logicamente que centenas de outros tipos de análises poderiam ser feitas sobre os mesmos dados, a grande limitação deste projeto foi em relação ao tempo disponível para as análises, já que cada nova ideia acaba demandando testes e avaliações. A área de linguagem natural (estudo de textos) é ampla e complexa, e com grande campo de aplicação no contexto da indústria 4.0 descrita aqui (Indústria 4.0 na visão da Aquarela) . Uma demonstração mais pragmática do impacto dessas abordagens em negócios e pesquisas foram escritas neste artigo (O que é a web 3.0 e sua importância para os negócios ). Essas tecnologias já são amplamente utilizadas nas principais ferramentas de redes sociais, disponíveis para inferir padrões de comportamento para compra, venda, conversão e etc, de modo a gerar a automação de gatilhos de ações preventivas nas bases de clientes.

 

Autores
Joni Hoppen
Fundador da Aquarela, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação, focado em processos de rápida prototipação de Big Data Analytics e cultura de dados.

Informações para referenciação: Gostou do material? Caso queira enriquecer sua pesquisa ou relatório (seja blog post ou artigo acadêmico), referencie nosso conteúdo como: Aquarela 2018 - Inteligência Artificial para negócios (www.aquare.la).