Análise: Bike elétrica dobrável e a mobilidade urbana no Brasil.

Análise: Bike elétrica dobrável e a mobilidade urbana no Brasil.

Mês passado comprei uma bike dobrável (cabe no porta-malas) e elétrica (250W) com bateria de lítio – o nome dela é “Alinda” – e, junto com a facilidade do UBER, elevou meu índice de mobilidade a patamares que nem a moto chegava. Também sinto ganhos na satisfação pessoal e profissional. É uma solução de engenharia que faz um hacking na estrutura social, tal como o bitcoin.  

Contexto da decisão

Se você está lendo essa mensagem é estatisticamente provável que você tenha um problema de mobilidade, talvez tenha um dinheiro para investir e também possivelmente tem um perfil outlier (para mais informações sobre o que é um outlier – leia este artigo –  O que são Outliers e como tratá-los.

O problema é que a mobilidade urbana no Brasil é “um filhote de vários pais”, inclusive da crise de 2008, quando o governo resolveu baixar os impostos dos carros, fomentar o crédito e assim manter indústria automotiva aquecida. Como as cidades não estavam preparadas para isso – e para várias outras coisas – chegamos onde estamos (chaos loaded).

Hoje quem mora em qualquer cidade média/grande, e até em algumas pequenas, sofre um problema típico de mobilidade que afeta as várias facetas da vida pessoal e profissional. É também um tipo de problema interessante por ser bem socializado entre toda a população, não estendendo-se apenas aos mais pobres, como é o caso da saúde e educação.

O objetivo aqui é contar minha experiência pessoal de decisão da compra de uma bike elétrica dobrável, dado o cenário de incoerência administrativa do país. Como cientista de dados com background em contabilidade, economia e governança, vou detalhar ao máximo essa decisão que está me trazendo grande mobilidade e, principalmente, qualidade de vida.

Evolução das Taxa de Motorização (automóveis) (2001-2012)

Segundo o Instituto Nacional de Ciência e Tecnologia, o crescimento da taxa de motorização do país tem tido, ao longo dos anos, o padrão demonstrado nas imagens a seguir. Para informações mais detalhadas sugiro a leitura desta publicação oficial – http://www.observatoriodasmetropoles.net/download/auto_motos2013.pdf

Situação atual do país.

Utilizando dados do DENATRAN, somei todos os registros de veículos automotores no Brasil. Isso inclui caminhões, carros, motos e liquidificadores (opa, o último não).  Ao total são 135.508.450 veículos e 207.660.929 pessoas, gerando uma taxa aproximada de uma pessoa e meia para cada veículo.

Separando por estados e pela situação cadastral de cada carro, gerei o seguinte gráfico para demonstrar como estão as proporções dos veículos por estado e por tipo de restrição, sendo mais de 90 milhões de veículos sem nenhuma restrição e mais de 32 milhões financiados.

Apenas a título de curiosidade, ainda recortei os dados para verificar como são as proporções das restrições por estados. Deixo as interpretações do gráfico com os leitores.

 

Em resumo, são muitos veículos, e é bem provável que você tenha um parente ou amigo que já tenha morrido no trânsito. Esta é uma tatuagem que todo brasileiro tem, pois nosso trânsito mata mais do que muitas doenças ou guerras, eliminando mais de 40 mil pessoas jovens ao ano, no auge de suas vidas profissionais.

Bikes elétricas e dobráveis

Segundo o estudo feito pela Prourbe, que criou o perfil do ciclista brasileiro, os dois fatores mais relevantes de motivação ao uso da bike são a praticidade e a manutenção da saúde. Mais informações e detalhes por capitais, neste pdf infográfico – http://ta.org.br/perfil/perfil.pdf

Bom, como há muita curiosidade no tema de bikes elétricas, explico um pouco mais isso. Vamos lá.

Bike com ou sem motor, dobrável e não dobrável

Primeiro vamos falar do motor. Imagine que no gráfico abaixo seja uma medição de esforço físico para subir e descer as ladeiras. Existem vários momentos onde é exigido muito e há uma grande oscilação, gerando desconfortos, como no caso de utilizar a bike como um meio de transporte com a roupa de trabalho e etc.

No caso da “Alinda”, não existe um acelerador, ela só te ajuda com energia se você pedalar, também fazendo com que tudo fique bem mais fácil, leve e suave. É um conceito de parceria para chegar do ponto A até o ponto B no tempo planejado (independentemente do tráfego) com o menor esforço e sem suar. O gráfico seria mais ou menos como na figura abaixo. Você ainda precisa movimentar o corpo, mas é algo bem mais tranquilo.

Uma outra forma de ver é imaginar que o motor faz o trajeto se tornar plano e sem vento. Quando vivia na Holanda, usava uma bike bem simples e velha que me permitia ir a outras cidades e até na vizinha Alemanha. Diria que o motor elétrico dá uma Holandizada no Brasil, sem tirar a beleza fantástica do nosso relevo e ainda emitindo um barulho parecido com o do Robocop (sim, o motor no eixo faz um barulho bem legal).

O motor te ajuda a manter uma velocidade constante entre 10 e 15 km/h, ou seja, você não vai ficar muito devagar mas também não vai muito rápido. A autonomia varia de acordo com a força que você ajuda no pedal e pode chegar até aproximadamente 35km, e o tempo de recarga é de 5 horas na tomada. Às vezes recarrego em casa, outras no escritório. A bateria desencaixa e o carregador é igual ao do laptop. No meu caso, recarrego a cada 3 ou 4 dias. Pensando bem, ela tem um desempenho melhor até do que dos celulares – pelo menos no meu caso.

O trajeto diário (casa – trabalho – casa)  que eu faço não é muito longo (3km), mas tem um morro com mais de 60 m de altura em relação ao nível do mar e isso fica bem puxado sem motor, que aí faz toda a diferença. O motor de 250W é um dos mais fracos e leves e ainda assim já ajuda bastante. Existem alguns de 800W a 1000W, mas aí você teria praticamente uma moto e também um peso extra de baterias.

Dobrável vs não dobrável

Com relação à questão de dobrar a Alinda, acontecem algumas coisas interessantes. Uma delas é a integração de modais. Com o Uber ou o carro dos amigos, hoje posso ir até um lugar e voltar tranquilamente ou vice-versa. Posso também entrar com ela no shopping como se fosse um carrinho de bebê, pegar ônibus e tudo isso usando uma roupa normal.

Como ela tem as rodas menores, cabe dentro do escritório e até no elevador, as pessoas acham muito legal e ficam curiosas. As crianças ficam muito curiosas. Existem diversos vídeos no youtube com demonstrações da praticidade destes modelos.

Relação do uso da bike versus índice de presenteísmo

Com a bike, não apenas a elétrica, sinto que há uma grande melhoria do índice de presenteísmo, que é aquela sensação de você estar com a cabeça exatamente dentro do que você está fazendo. O próprio exercício de estar no movimento da rua te obriga a trazer sua mente para dentro do corpo e depois, no trabalho, isso parece que continua até o final da manhã e tem ajudado bastante no encaminhamento das tarefas do dia a dia. Parece que diminui bastante o stress. Reforço que esta é uma opinião bastante pessoal.

Resumo da experiência

Vantagens

  • Melhora do condicionamento físico, mesmo não sendo distâncias grandes.
  • Aumenta a disposição no trabalho.
  • Elimina a preocupação com engarrafamentos e é interessante que, quanto mais engarrafada está a via, mais seguro fica para o ciclista.
  • Melhora o planejamento do tempo entre ponto A e B, que se torna muito mais preditivo.
  • Aumenta a concentração nas atividades de raciocínio intensivo e analítico, como a análise de dados, algo muito alinhado com o post que escrevemos sobre o perfil dos analistas de dados neste link.
  • Melhora o sono, o que também é fundamental para trabalhos cognitivos.
  • Elimina completamente o problema de estacionamento e pode ser colocada no bagageiro de um carro pequeno, como o Fox por exemplo.
  • Elimina a angústia de pagar preços abusivos de gasolina, riscos de adulteração da gasolina e o risco de pagar imposto por tudo isso.
  • Sublima a necessidade de emplacamento ou visitas no DETRAN, onde estão a maioria dos seus amigos na fila.
  • Exercita todo o corpo e faz você beber mais líquidos, prevenindo também a pressão alta e outros males malandros.

Desvantagens

Claro que esse investimento apresenta algumas desvantagens, então vamos a elas:

  • Quando chove fica mais perigoso e complica a logística;
  • Não é o ideal para longas distâncias ou lugares sem infraestrutura ciclística ou regiões com baixo IDH, com motoristas absolutamente despreparados psicologicamente para o trânsito e o seu stress inerente. Já fizemos um estudo sobre IDH dos países (Big Data na descoberta dos fatores chaves de IDH.
  • A bike tem um pequeno TCO (Total Cost of Ownership – Custo Total de Propriedade) – exige manutenção periódica e há desvalorização ao longo do tempo, especialmente da bateria de lítio.
  • No caso da Alinda, ela não tem amortecedor e é menos confortável do que as mountain bikes.

Conclusões e recomendações

O Brasil perde muito da sua competitividade pela amarração do fluxo de pessoas e falta de infraestrutura de um modo geral e em específico à infraestrutura ciclista, já dada como prioritária em vários outros países.

A decisão de compra de uma bike é ainda uma solução individual para um problema coletivo nacional (bem coletivo). Por isso quando analisar o ROI – Retorno do Investimento, procure analisar aspectos financeiros subjacentes ao retorno direto, como a manutenção da saúde no médio longo prazo e o ganho na produtividade profissional pelo aumento da sensação de presenteísmo.

O nível de desenvolvimento humano (IDH) e a infraestrutura podem interferir bastante no nível de segurança do ciclista e na decisão. Em Florianópolis, por exemplo, existem diversas ciclovias, algumas levam até quase a cidade vizinha no continente, atravessando a ponte que liga a ilha ao continente, e várias pessoas já estão aderindo ao pedal para ir ao trabalho. Existem, no entanto, lugares perigosíssimos, como a SC 401, que liga o centro da ilha até o norte da ilha. Ali é praticamente suicida a decisão.

Existem diversos tipos de bikes elétricas e dobráveis, alguns sites com modelos interessantes são:

Essa foi a experiência. Espero que os dados levantados ajudem vocês a se tornarem mais móveis, mais independentes, mais saudáveis e com mais ânimo para enfrentar o dia a dia. Só o conhecimento poderá gerar mais infraestrutura ciclística no nosso país.

Um forte abraço a todos vocês outliers! 

Quer receber mais conteúdo exclusivo? Assine nossa Newsletter aqui.

7 dicas de ouro sobre Design de indicadores

7 dicas de ouro sobre Design de indicadores

No artigo sobre Indicadores de desempenho: de KPI dashboards a prescrições com IA apresentamos como surgiram os indicadores de desempenho, algumas áreas de aplicação e como a Inteligência Artificial pode ser utilizada na gestão destes. Neste artigo vamos falar um pouco sobre aquela que é considerada por alguns como arte e outros como ciência, o design de indicadores.

Peter Drucker já dizia:

(mais…)

Inteligência Artificial aplicada ao casamento: até que os dados não nos separem!

Inteligência Artificial aplicada ao casamento: até que os dados não nos separem!

Há quase um ano atrás tivemos o primeiro casamento de um colaborador da Aquarela, nosso CTO Joni Hoppen trocou alianças no dia 25 de novembro de 2017, e como bom cientista de dados que é, não pode deixar sua profissão de fora! Neste artigo, Joni conta como utilizou Advanced Analytics e Inteligência Artificial para encontrar padrões nas mais de 80 mil mensagens trocadas pelo whatsapp entre ele e sua esposa ao longo de 32 meses.

Esperamos que gostem e que se sintam incentivados a casar, ou pelo menos conhecer mais um pouco sobre Advanced Analytics e como isso já está mudando a forma que vivemos, boa leitura!

O casamento

A cerimônia aconteceu no dia 25 de novembro de 2017 em Santa Catarina. Nos conhecemos no famoso “bloco dos sujos” do carnaval de Florianópolis no dia 14 de fevereiro de 2015. Na ocasião eu estava vestido a caráter, ou seja, de mulher (como manda a tradição desse bloco de carnaval) e ela de pirata (mal sabia eu que ela iria roubar meu coração).

Durante 2 anos e 8 meses foram trocadas mais de 85 mil mensagens,até eu me surpreendi, sério! Após o processo de limpeza de dados para conformação Dataset de análise (O que são datasets e como utilizá-los?) sobraram 78550 mensagens válidas, que são mais ou menos como os votos válidos das eleições que excluem brancos, nulos e justificativas. Destas mensagens, foram excluídas todos os emojis. Por falar em emojis, eles dariam certamente uma análise por si só, já que hoje já é até possível fazer buscas no youtube a partir de emojis no celular (experimenta lá e sinta-se um porta-voz egípcio). 

Além das mensagens, houve também um total de 2.324 itens compartilhados, sendo:

  • Fotos – 807
  • Vídeos – 86
  • Áudios – 1431

Que resultam em 723 Megabytes de história.

Apresentação surpresa das análises :)

Apresentação surpresa das análises 🙂

 

Um dia depois do primeiro encontro começamos a trocar mensagens pelo Whatsapp começando por esta:

A primeira mensagem:

15/02/15 08:08:19: Joni: Oi Nubi
15/02/15 08:08:30: Joni: Bom dia

A resposta só veio perto do meio dia:

15/02/15 11:58:29: Nubia : Bom dia!! :).
15/02/15 12:00:26: Joni: Oi bom dia dois minutos antes do meio dia tá valendo.
15/02/15 12:09:26: Nubia: Kkkkk mas eu acordei faz tempo.

Bom, isso foi só o começo, o que escrevo no artigo foram um parte da apresentação dos votos de casamento (foi surpresa para todos), além do objetivo de conquistar o “Sim” da noivíssima, também poderia de alguma forma explicar para as duas famílias o que eu faço na minha vida profissional. Quem é analista sabe como é difícil explicar que o que se faz nessa área é abstrato. Pelas pesquisas, acredito que este trabalho tenha sido uma iniciativa pioneira no mundo. se alguém encontrar algo semelhante, nos avise, somos curiosos!

Análise exploratória

Como alguns já sabem, ninguém chega a receber apoio da Inteligência Artificial se não começar pelas análises estatísticas básicas de exploração dos dados. Assim, com tantas mensagens, o que poderia ser extraído de interessante?

Os metadados são informações que ajudam a explicar a natureza dos dados. Apenas como exemplo, a resolução de uma foto é o metadado da foto. Neste caso estamos falando de mais informações sobre os textos e aqui vão mais alguns números.

Qual comprimento médio das mensagens?


Considerando a contagem de cada dígito das mensagens, chegamos a uma média de 19 letras por mensagem trocada. Porém, essa informação não traz algo muito relevante. Assim, montei um gráfico com a contagem de mensagens em relação com a contagem das letras.

No gráfico abaixo vemos que a Nubia tende a escrever mais mensagens curtas de até 4 letras, ao passo que as minhas mensagens são mais longas (acima de 6 letras). Olhando os dados, alguém pode dizer que ela é mais direta e eu prolixo, será? Ainda, verifica-se uma tendência clara e esperada da correlação entre o tamanho das mensagem e a quantidade delas, ou seja, quanto maior o texto, menos mensagens ocorriam e assim por exemplo, pouquíssimas mensagens ultrapassaram 60 caracteres. Contudo, o que chama a atenção neste gráfico é o surgimento de um padrão nas mensagens de 40 letras que são muito mais frequentes do que na série. O que será que foi escrito com 40 caracteres?

Quantidade de mensagens por quantidade de letras

Quantidade de mensagens por quantidade de letras

Verificando o histórico e filtrando somente mensagens com 40 letras, descobri que o Whatsapp gera um texto no envio de mídias, fotos, vídeos e etc. Esses comportamentos geram pistas para que os algoritmos de Machine Learning consigam descobrir o padrão de comportamento de envios de mídia.

Metadados das mídias

Metadados das mídias

Quantas mensagens são trocadas por mês em média?

Até aquele momento, havia uma média de 88 mensagens por dia, que somando geram 613 por semana e uma média de 2450 mensagens por mês. O total acumulado dos 32 meses de análise foi de 78550 mensagens.  No gráfico de densidade abaixo é possível ver alguns padrões interessantes, como por exemplo, no início eu mandava consistentemente mais mensagens do que ela proporcionalmente. Já a partir do fim de 2015 ela virou o jogo.

Densidade das mensagens

Densidade das mensagens

 

Uma das coisas mais legais de se trabalhar com analytics é conseguir reconstruir a história a partir dos dados. Nesse caso, ficou bem evidente no gráfico uma situação na qual fomos assaltados e um dos celulares foi levado, fato que impactou diretamente no volume de mensagens trocadas em outubro de 2016. Felizmente não foi nada mais sério além dos bens materiais, e assim que substituímos pelo novo aparelho, a quantidade de mensagens voltou aos patamares anteriores. De agosto de 2017 em diante o número de mensagens foi baixando, explicado principalmente pela quantidade de trabalho envolvido nos preparativos do casamento.

Dados absolutos das mensagens

De forma sumarizada, a tabela traz a contagem de mensagens do casal e a soma, sendo classificadas por mensagens afirmativas e sem risos, seguida por afirmativas com risos. Para responder às seguintes questões:

  • Quem escreve mais?
  • Quem faz mais perguntas?
  • Quem dá mais mais risadas?
  • Qual o tipo de mensagem menos comum para cada autor?
Contagem de mensagens

Contagem de mensagens

 

Nota-se claramente que escrevi alguma pergunta contendo risos apenas 36 vezes. Que cara sério! Bom, se vocês estão conseguindo entender a análise, parabéns e bem-vindos ao mundo dos analistas de dados!

Somando as mensagem com risos em afirmações e perguntas, Eu ri 5103 vezes contra 5016 mensagens da Nubia. Achei bem equilibrado até, ainda bem :). Este poderia ser um bom indicador de equilíbrio entre casais. Se alguém ri muito mais do que o outro pode haver algo de errado ou seria certo.

Dados relativos Joni vs Nubia

Os valores absolutos apresentados acima são úteis para diversas perguntas, porém em muitos casos fica um pouco mais difícil responder comportamento em uma análise comparativa entre os autores. Por exemplo: Entre Joni e Núbia quem faz mais perguntas?

Para uma melhor compreensão deste tipo de pergunta, sempre recomendamos que os analistas façam modelagens comparativas usando proporcionalidade, vejam abaixo como fica o mesmo quadro comparando as proporções das respostas entre a Nubia e eu.

Quantidade de respostas

Quantidade de respostas

Fica bastante evidente quem é mais o mais curioso do casal?

Dados relativos aos próprios autores

Agora, aplicando a proporção distribuída pelas colunas temos o comportamento proporcional de cada autor, ou seja, 80% das minhas mensagens eram afirmativas e sem risos, já para a Núbia apenas 67%, sendo que quase 20% das mensagens dela eram perguntas sem risos. E eu sempre achando que eu era mais curioso :).

Quantidade de perguntas

Quantidade de perguntas

 

Interessante que a proporção de perguntas e risadas ficou a mesma, praticamente 13% das mensagens foram risadas, ou seja, grande parte das mensagens são afirmações! Que gente séria, não? Até seria interessante saber qual o padrão nacional e internacional.

As Top 15 palavras mais usadas

Abaixo estão elencadas, como normalmente se faz em análises textuais, as palavras mais frequentes em todas as mensagens trocadas. Importante lembrar que antes de gerar esta análise, foi necessário executar procedimentos de normalização do texto. Esta normalização significa transformar todas as letras em minúsculas e remover todos os acentos e outros “paranauês” de modo que a palavra “Não” seja igual a “não”. Caso contrário a lista conteria “tá” e em segundo lugar em “ta” em oitavo atrás de outras combinações. Essas decisões da preparação são bastante importantes em todo tipo de análise e é um dos motivos pelo qual cientistas de dados altamente qualificados são valorizados no mercado de trabalho no Brasil e principalmente fora dele.

Ranking Termo Aparições
ta 4667

 

bom 4562
vou 3730
nao 3628
to 3618
eu 3071
voce 2768
bem 2721
te 2468
10º oi 2427
11º ja 2118
12º tambem 2091
13º beijinhos 1899
14º gatinha 1730
15º nubi 1706

 

Detecção de padrões com Inteligência Artificial

A Inteligência Artificial pode ser utilizada de muitas formas, seu poder está em detectar comportamentos nos dados de forma automática, e até de forma mais profunda do que um ser humano seria capaz. Neste caso, escolhi fazer o seguinte teste, deixar a máquina ler todas as mensagens por algumas horas e descobrir qual é o comportamento mais típico das minhas mensagens em relação às mensagens da Núbia.

Se questionado, o modelo de IA apresentou uma precisão de 70% de acerto para descobrir quem é o Joni ou a Núbia. Em outras palavras, se apresentar uma nova mensagem para ele, ele acertaria 70% das vezes. Um dos motivos pelo qual o sistema se torna menos preditivo (confuso) sobre a decisão da autoria, foram mensagens em que ambos autores utilizavam as mesmas palavras com a mesma intensidade, como por exemplo:

  • bom dia
  • boa noite
  • agora
  • acho
  • vamos
  • almoço
  • saudades

Perguntando a IA

Quando que você acha que uma mensagem é do Joni?

Resposta:
Quando estão escritas algumas destas palavras na seguinte ordem:

-gatinha,
-trabalho,
-beijos,
-nubi,
-tomar,
-casa,
-linda,
-foto,
-minha,
-adoro

Quando você acha que uma mensagem é da Núbia?

Resposta:

Quando estão escritas algumas destas palavras na seguinte ordem:

-aham,
-quando é uma pergunta,
-baby,
-pela quantidade de letras,
-vou,
-beijos,
-também,
-mimir,
-quero,
-beijinhos,
-ainda,
-só,
-amanhã,
-ta,
-sim,
-eu

 

Conclusões e recomendações

Esse foi um retrato de uma aplicação Outlier de Data Analytics na vida real, que mostra como é possível fazer história apenas conversando no celular. Também mostra como é possível ensinar as máquinas a interpretarem padrões de comportamento em mensagens escritas em português. Pode ser também uma dica para quem está pensando em casar, porque não? Felizmente o “Sim” foi alcançado, e agora o relacionamento mudou de status. Quem sabe futuramente novas análises serão feitas, mas o que importa é conversar pela via real.

Este tipo de análise sobre linguagem natural é um dos tópicos mais difíceis de se abordar, tanto pela complexidade linguística como também pela explosão combinatória que rapidamente ocorrem em textos, aliado aos limites de processamento das máquinas. Logicamente que centenas de outros tipos de análises poderiam ser feitas sobre os mesmos dados, a grande limitação deste projeto foi em relação ao tempo disponível para as análises, já que cada nova ideia acaba demandando testes e avaliações. A área de linguagem natural (estudo de textos) é ampla e complexa, e com grande campo de aplicação no contexto da indústria 4.0 descrita aqui (Indústria 4.0 na visão da Aquarela) . Uma demonstração mais pragmática do impacto dessas abordagens em negócios e pesquisas foram escritas neste artigo (O que é a web 3.0 e sua importância para os negócios ). Essas tecnologias já são amplamente utilizadas nas principais ferramentas de redes sociais, disponíveis para inferir padrões de comportamento para compra, venda, conversão e etc, de modo a gerar a automação de gatilhos de ações preventivas nas bases de clientes.

 

O que é ciência de dados (data science) e como aplicá-la nos negócios?

O que é ciência de dados (data science) e como aplicá-la nos negócios?

Neste artigo vamos mostrar o que é ciência de dados, uma área que tem chamado cada vez mais atenção no mundo corporativo e universitário. É crescente o número de empresas buscando por aplicações de data science para negócios, bem como o número de profissionais que estão migrando para a área de ciência de dados e ajudando a democratizar o uso e a aplicação da matemática e estatística.

Popularidade da área de ciência de dados

Em outubro de 2012 a Harvard Business Review publicou um artigo intitulado “Data Scientist: The Sexiest Job of the 21st Century”, o qual foi muito falado ao redor do mundo e ajudou a enfatizar a relevância da área de ciência de dados.

Se a área de data science ganhou espaço em boa parte por ser uma área “atraente” – que chama atenção pelos belos gráficos, análises feitas com algoritmos complexos e métodos modernos –, hoje em dia o campo de ciência de dados tem aumentado ainda mais o seu espaço pela possibilidade de gerar valor às organizações, entregando resultados de forma rápida e objetiva como solução de problemas complexos.

A seguir apresentamos um gráfico com dados extraídos do Google Trends, que mostra a evolução das buscas pelo termo “data science” no Brasil e no mundo, de outubro de 2012 até julho de 2018. O gráfico mostra a popularidade das buscas, sendo 100 o momento de maior popularidade, 50 média popularidade e 0 nenhuma popularidade.

Popularidade das buscas por data science

Popularidade das buscas por data science

O gráfico mostra que a popularidade da área de ciência de dados cresce cada vez mais, estando no seu auge. Vemos que no Brasil há um certo “delay” em relação às buscas gerais em todo o mundo. As quedas sazonais no mundo são mais marcantes em dezembro ao passo que no Brasil não há um padrão bem definido da demanda.

O que é ciência de dados?

Ciência de dados é um campo interdisciplinar de investigação de dados que resolve problemas reais de negócios, com o uso de método científico e técnicas avançadas de análise de dados, machine learning e inteligência artificial. Esta é uma área essencial para posicionar as organizações no cerne da Indústria 4.0.

Uma das características marcantes da área de ciência de dados é a conexão que ela cria entre o mundo acadêmico e o mundo de negócios. Na academia muito se aprende sobre o método científico e a estruturação de pesquisas e análises. No mundo dos negócios, por sua vez, há um forte apelo pela rápida resolução de problemas práticos nos diversos setores das organizações.

“A ciência de dados pode resolver problemas simples e complexos, não apenas complexos. Existem problemas simples que geram grandes impactos nas operações e até nas estratégias de longo prazo.” Joni Hoppen

Com aplicações de data science é possível unir estes dois mundos, resolvendo problemas simples e complexos de forma estruturada, gerando impactos nos negócios. Estes impactos vão depender do tipo de problema que está sendo resolvido, e o fluxo de dados podendo abranger desde o nível operacional da empresa até a descoberta de novas regras de negócio (insights) para mudar decisões estratégicas de longo prazo.

Em termos de “campos de conhecimento”, a área de ciência de dados é uma intersecção entre ciência da computação, engenharias, matemática e estatística com áreas de negócio, que envolve conhecimentos de economia e administração, de forma geral.

Aplicando data science para negócios

O profissional que irá executar “data science” no dia a dia é o cientista de dados, e para aplicar data science para negócios é necessário um envolvimento tanto de áreas mais técnicas, quanto de áreas mais de negocio. A separação dos profissionais técnicos dos analistas de negócio tem se mostrado um fator crítico de sucesso desta natureza de projeto.

Na parte mais técnica, os cientistas de dados se relacionam com setores como: business intelligence (BI) / inteligência de mercado; tecnologia de informação (TI); administração de banco de dados (DBA).

Já nas áreas de negócio, os cientistas de dados irão se relacionar com profissionais que possuem domínio do negócio a respeito de cada problema específico que busca-se resolver, em outras palavras, são os profissionais que entendem as regras do jogo e jogam diariamente. Por exemplo: se o cientista de dados irá resolver um problema de gestão de estoque, então profissionais da área de logística e até mesmo da contabilidade poderão ser alocados para fazer parte do projeto.  

Neste artigo elaboramos de forma resumida 14 áreas de aplicação de ciência de dados e as recomendações necessárias para começar a estruturar análises em cada área.

Etapas para desenvolver projetos de ciência de dados com sucesso nos negócios

Para aplicar projetos de ciência de dados em negócios, é fundamental cumprir algumas etapas, as quais são descritas a seguir.

Desenvolver projetos de ciência de dados envolve muito mais do que o conhecimento de linguagens de programação, como Python e R, ou de saber como aplicar algoritmos complexos de machine learning e inteligência artificial.

Para colocar em prática projetos envolvendo ciência de dados que obtenham sucesso e agreguem valor para as empresas, é preciso ter uma metodologia, para mapear o problema a ser resolvido e definir métricas de sucesso do projeto.

Conheça a DCIM, metodologia desenvolvida pela Aquarela para implementar a cultura de Data Analytics nas organizações.

De forma geral, as seguintes etapas precisam ser cumpridas:

1. Definição de problema e métrica de sucesso

O ponto inicial para aplicar ciência de dados nas organizações é identificar qual é a dor de negócio, e qual é o indicador que realça essa dor na prática. Alguns exemplos de problemas que a já auxiliamos no processo de definição do caminho para a solução são:

  • Logística: como reduzir a taxa de entregas não efetuadas? Como otimizar as rotas e as cargas enviadas?
  • Marketing digital e sistemas online: como reduzir a taxa de churn de clientes?
  • Manutenção industrial (Embraer): como melhorar a assertividade na troca de peças para resolver defeitos de equipamentos de alto custo?
  • Gestão de estoque: como reduzir o provisionamento contábil de estoques e otimizar o deslocamento do patrimônio.
  • Área comercial: Como aumentar o ticket médio das vendas com a recomendação de produtos? Como antecipar a compra de produtos que invariavelmente seriam comprados pelo cliente?
  • Saúde: Como reduzir em 50% a taxa de faltas nos agendamentos médico? (Leia mais aqui).
  • Marketing: Como inferir motivos de perda de market-share e gerar recomendações de ações por produto.
  • Cobrança: Como antecipar o contato com clientes com mais probabilidade de pagamento das dívidas?

Clique aqui e conheça mais sobre as soluções da Aquarela.

2. Definição do dataset analítico a ser utilizado

O dataset (conjunto de dados) a ser utilizado pelo cientista de dados, não é uma simples extração de uma enorme massa de dados diretamente do banco transacional pelas queries SQL. (Saiba mais sobre projetos analytics de alto nível aqui.)

O dataset analítico é construído a partir da definição do problema, e precisa conter todas as variáveis (colunas) necessárias para que o problema em questão possa ser respondido.

Este conjunto de dados normalmente é uma mescla de variadas bases de dados, tanto internas (da própria organização), quanto externas. Nas fontes de dados externas entram bases compradas de fornecedores específicos, ou até bases públicas, que têm o fim de enriquecer os dados e melhorar a assertividade dos modelos que serão aplicados.

Veja aqui em detalhes o que é e como construir um dataset analítico.

3. Transformação e higienização de dados

Umas das etapas que mais exige horas de trabalho em ciência de dados é a transformação e higienização de dados.

Este processo inclui pontos que envolvem técnicas estatísticas, como tratamento de dados faltantes e tratamento de outliers. Outros procedimentos também são realizados nesta etapa, como: “merge” ou concatenação de colunas, enriquecimento de dados com bases externas (dados de latitude e longitude, temperatura, macroeconômicos, entre outros) e diversas outras reestruturações necessárias para que os modelos de inteligência artificial consigam trazer a resposta desejada.

4. Mineração de dados e modelagem com inteligência artificial

Um dos pontos mais importantes no processo de gerar valor para as companhias na área de ciência de dados é o processo de modelagem. Nesta etapa diversos modelos (centenas ou milhares) são treinados com o uso de diversas técnicas de inteligência artificial.

O propósito de todas essas modelagens é encontrar as inter-relações entre as variáveis (colunas) com o uso de inteligência artificial, e gerar outputs como:

  • predições: probabilidade de ocorrência de um evento dado um conjunto de características (leia mais sobre análise preditiva);
  • previsões: projeções de como será o futuro de séries temporais;
  • análise de perfis: identificação de personas, categorização entre indivíduos similares dentro do conjunto de dados, o que permite encontrar também grupos de outliers, os quais possuem características muito diferentes dos demais;
  • criação de cenários: identificar grupos que impactam positiva ou negativamente em um target, uma variável a ser explicada.

Saiba mais sobre data mining (mineração de dados) em nosso artigo.

Ao final, os modelos escolhidos serão colocados em produção e monitorados pelos sistemas de acompanhamento, normalmente sistemas de BI ou mesmo planilhas de excel dependendo do nível de maturidade da organização. Veja aqui os 5 níveis de maturidade de dados da metodologia DCIM Aquarela.  

Veja também – Resultados da pesquisa sobre a qualidade dos dados empresariais no Brasil

5. Comunicação dos resultados obtidos em linguagem de negócio

A comunicação dos resultados dos projetos de ciência de dados deve ser feita em linguagem de negócios, com foco na objetividade e na agilidade, mostrando os KPI’s que foram impactados com o projeto e qual será o retorno financeiro obtido. Além disso, se recomenda apresentar a visão de futuro dos sistemas integrados, e uma lista com as oportunidades adjacentes, descobertas durante o processo (está última parte é a que consideramos mais disruptiva para os negócios).

Conclusão

Mostramos neste artigo o que é ciência de dados, uma área de grande interesse que está promovendo a democratização da matemática e estatística no mundo. Evidenciamos algumas características deste tipo de trabalho e apresentamos alguns exemplos de projetos que já realizamos em diversos setores.

Em nossa visão, a ciência de dados vai muito além das questões técnicas, pois aplicar ciência de dados na prática é saber o problema de negócio será atacado, descobrir quais dados estão disponíveis, quais indicadores existem ou precisam ser desenvolvidos. Além disso é necessário desempenhar um papel ponderador das avaliações qualitativos e quantitativos das tecnologias que serão utilizadas na resolução do problema, utilizando boa comunicação, sensibilidade técnica e de negócios. E, ao fim, ser capaz de colocar em produção as análises e partir para o monitoramento de desempenho.

Por fim, a área de ciência de dados é um dos principais motores que está moldando as organizações na era da informação, sendo capaz de gerar conhecimento em diferentes níveis do comportamento interno e até externo das organizações. Com o ganho em poder computacional, e também na capacidade de coleta e armazenamento de dados, há uma crescente demanda por profissionais fluentes nestes processos de análise, os cientistas de dados.

“Ciência de dados vai muito além dos algoritmos!”

A tendência para o futuro é que ciência de dados passe a ser cada vez mais relevante para os negócios, não apenas por ser uma área “sexy” – como tratada pelo artigo da HBR, citado anteriormente –, mas, principalmente, por gerar valor em análises que antes eram inviáveis (mesmo as mais simples) de serem realizadas.

Veja mais conteúdos relacionados em nosso blog:

Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios

Análise descritiva, preditiva, prescritiva e cenarização: como gerar valor nos negócios

A quantidade de dados gerados em um mercado altamente competitivo, fez com que as empresas se esforcem cada vez mais para oferecer produtos e serviços personalizados aos seus clientes.  Por isso, compreender o que é análise descritiva, prescritiva, preditiva e cenarização, bem como as diferenças entre estes termos, é um importante passo para os profissionais e empresas que desejam alcançar vantagens competitivas aplicando técnicas de Advanced Analytics.

Além disso, ao levarmos em conta o contexto empresarial da Indústria 4.0, para o qual estamos caminhando, gerar valor por meio de análises de dados descritivas, preditivas,  prescritivas e cenarização se torna imperativo.

O que é análise descritiva (exploratória)?

Análise descritiva ou exploratória de dados é uma forma de utilizar métricas e técnicas estatísticas simples ou avançadas para entender e explicar como os dados são, podendo ser:

  • univariada – investigação do comportamento de uma única variável (ou coluna);
  • bivariada – investigação de como duas variáveis se relacionam;
  • multivariada – investigação do comportamento de diversas variáveis, análise multi-colunar.

A análise descritiva é o processo mais básico para qualquer tipo de análise de dados, embora simples em diversas ocasiões é um processo que, quando aliado a uma metodologia consistente de Analytics pode responder importantes perguntas gerenciais de maneira quase imediata. Como por exemplo: Qual a flutuação das vendas ao longo do ano?

Análise descritiva univariada

Na análise descritiva univariada, é analisado o comportamento estatístico de apenas uma variável (ou coluna). Neste processo entram cálculos de média, mediana, moda, máximo, mínimo, desvio-padrão, variância, segregações de dados em percentis (quartis, decis, etc), entre outros.

Um dos gráficos mais comuns da análise descritiva univariada é o histograma e/ou gráfico de densidade. Veja um exemplo.

Exemplo de análise descritiva com histograma e gráfico de densidade

O histograma é um dos gráficos estatísticos mais simples, mas já é poderoso para fornecer insights nas análises. No exemplo a seguir é utilizado dados de comparecimento em agendamentos médicos na saúde pública da cidade de Vitória/ES. O histograma a seguir, por exemplo, já permite tirar conclusões como:

  • Os homens se preocupam muito menos em agendar consulta do que as mulheres;
  • Os homens vão mais ao médico quando são crianças e adolescentes, depois disso passam a ir ao médico mais próximo aos 50 anos, mas ainda com menos intensidade que quando eram crianças;
  • Mulheres também não vão muito ao médico pouco antes do 20 anos, mas depois frequentam as consultas com uma frequência muito superior aos homens.
Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (histograma)

O gráfico de densidade, por sua vez, é complementar ao histograma, mostrando a distribuição de uma única variável por vez, sem ser afetado pelo número de “bins” do histograma.

A principal diferença entre o histograma e o gráfico de densidade é que o histograma apresenta valores absolutos, enquanto o gráfico de densidade apresenta valores relativos à própria variável. Por ser um gráfico relativo, o eixo Y do gráfico de densidade possui uma interpretação que nem sempre é tão clara, mas ele viabiliza compreender onde estão as maiores e menores concentrações em cada variável.

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)

Agendamentos em consultas médicas na cidade de Vitória/ES, classificados por gênero (Densidade)

Se por um lado, o gráfico de densidade deixa mais evidentes as tendências de comportamento e descoberta de padrões, o histograma traz dados mais precisos no ponto de vista de tomada de decisão permitindo alterações no tamanho das barras conforme cada caso. Por exemplo: A partir do histograma, o gestor pode afirmar que mais de 3000 meninos com menos de 10 foram atendidos durante o período da análise, já no gráfico de densidade pode se dizer que houve uma intensidade maior de atendimentos de meninos até 10 anos durante o período em relação a todos os indivíduos do sexo masculino. Portanto, a escolha do tipo de gráfico fica a critério do analista e dos objetivos de negócio associados a decisão.

Análise descritiva bivariada

Na análise descritiva bivariada adicionam cálculos de investigação do relacionamento de  duas variáveis, como coeficientes de correlação e covariância, bem como a criação de indicadores percentuais, obtidos por meio da divisão de uma variável pela outra.

Também entram aqui as chamadas tabelas dinâmicas dos softwares de planilhas eletrônicas, como o Excel (curiosidade: na estatística estas tabelas são chamadas de tabelas de contingência).

Entre os gráficos mais comuns da análise descritiva bivariada está o diagrama de dispersão (scatter plot).

No diagrama de dispersão a seguir mostramos um exemplo do mercado de ações brasileiro, relacionando os retornos diários obtidos de ações de empresas listadas na Bolsa com o principal índice de mercado, o IBovespa (mais detalhes aqui).

Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA (Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)

Gráfico de dispersão ações da bolsa de valores em relação ao IBOVESPA
(Em ordem: Embraer vs Ibovespa e Vale do Rio Doce vs Ibovespa)

O que é análise preditiva?

Análise preditiva é a utilização de modelos estatísticos para apontar como serão os dados no futuro, ou como se comportam em condições diversas. Utiliza-se para tal modelos de machine learning e inteligência artificial, que vão desde modelos clássicos de regressão até modelos e algoritmos complexos que envolvem deep learning, métodos de redução de dimensionalidade, ensemble learning e swarm intelligence – conheça o VORTX. Atenção: Não há como fazer análises preditivas sem dados passados.

Diferença entre predição e previsão

Aqui vale um parênteses sobre a diferença entre predição e previsão. Entendemos a previsão como um subconjunto da predição. Enquanto a predição trata de dizer, de forma genérica, como um fato seria antes de sua ocorrência, a previsão parte do mesmo princípio, mas apenas aplica-se a fatos que estão vinculados ao tempo.

Exemplos de resultado de uma análise preditiva:

Por exemplo: um indivíduo de 30 anos, sexo masculino, solteiro, desempregado, possui uma probabilidade de atrasar o pagamento de uma fatura de 32%. Já uma senhora de 65 anos, viúva, aposentada, possui uma probabilidade de atrasar o pagamento de uma fatura de 4%. Ou seja, as alterações nas características alteram as probabilidades.

Segue figura de um exemplo de painel preditivo que trabalha justamente com a probabilidade de pagamento ou não de um indivíduo, dadas algumas circunstâncias.

Exemplo de painel preditivo

Exemplo de painel preditivo

A validação dos modelos preditivos são um tópico à parte, porém, em simples termos, é necessário que o modelo preditivo seja capaz de acertar pelo menos de 70% a 90% em das tentativas. Caso ele acerte menos de 50%, seria o mesmo que competir com a predição de cara ou coroa. Já se ele conseguir atingir 100% ou acima de 95%, pode ser que exista alguma variável no modelo comprometida.

Algumas limitações típicas de modelos preditivos são a dificuldade de fazer predições sobre categorias múltiplas ou invés de prever se o cliente vai pagar não. Digamos que os clientes podem: “Pagar à vista”, “Pagar a prazo”, “Pagar por cartão”, “Pagar por boleto”, “Não vai pagar”. As taxas de assertividade por categoria podem ser muito discrepantes. Para superar essa limitação é preciso construir algoritmos específicos para o problema além de efetuar transformações no dataset (O que são datasets e como utilizá-los? – https://www.aquare.la/datasets-o-que-sao-e-como-utiliza-los/) na fase de preparação dos dados.

Exemplos de análise preditiva com previsão:

Dada a oscilação histórica de indicadores da economia de um país, uma análise preditiva envolvendo previsão pode fazer uma inferência de como será a movimentação da taxa básica de juros do país ao longo dos próximos 6 meses. Ou seja, é a utilização de análise preditiva em séries temporais, como séries financeiras, econômicas, dados clima, dados de marketing digital, entre outros. É a previsão que viabiliza capturar efeitos temporais, como a sazonalidade, por exemplo.

A figura a seguir mostra um exemplo de previsão de série temporal sobre o indicador FipeZap, um índice de preços do mercado brasileiro de construção civil. O modelo utilizado neste exemplo utiliza as próprias variações do indicador para prever ele mesmo. Existe, porém, uma série de modelos bastante complexos envolvendo análises de séries temporais e demandam uma avaliação criteriosa caso a caso.

Exemplo de previsão (forecast) de série temporal

Exemplo de previsão (forecast) de série temporal

O que é análise prescritiva?

Análise prescritiva (de recomendação) é a utilização de ferramentas estatísticas (tanto de análise descritiva quanto preditiva), alinhadas à gestão de negócios, para gerar recomendações de ações a serem tomadas de forma automáticas ou semiautomáticas, com o fim de otimizar as estratégias adotadas pelas empresas e alcançar melhores resultados no menor espaço de tempo.

Enquanto a análise preditiva se limita a dizer como provavelmente será o futuro, a análise prescritiva fornece subsídios para tomar decisões que irão alterar o futuro. Em outras palavras, o que deve ser feito para que o futuro desejado se realize. Ou seja, no exemplo abaixo, quais são as recomendações de manutenção para que a troca das peças seja a melhor possível?

Exemplo de painel prescritivo de recomendações em manutenção industrial

Exemplo de painel prescritivo de recomendações em manutenção industrial

O que é análise de cenarização?

A análise de cenarização (descoberta de cenários de negócio) é uma análise multivariada que serve para descobrir as combinações sistêmicas de variáveis que levam a um determinado resultado.

A título de exemplo realizamos os seguintes testes:

Levando-se em consideração que um dos maiores problemas históricos do Brasil é a desigualdade social, medida pelo Coeficiente de Gini – que consiste em um número entre 0 e 1, sendo que 0 corresponde à completa igualdade (no caso do rendimento, por exemplo, toda a população recebe o mesmo salário) e 1 corresponde à completa desigualdade (onde uma pessoa recebe todo o rendimento e as demais nada recebem). Fonte.

Assim:

  • Quais das variáveis (fatores) têm a maior influência na variação do índice de desigualdade?
  • Quais são as características mais marcantes dos cenários de desigualdade social baixa e alta?

Utilizamos um dataset com 188 países e  64 indicadores macroeconômicos, entre os quais encontram-se  PIB, taxa de eletrificação da população, índice de desenvolvimento humano e outros. Chegamos aos seguintes resultados a partir do cenarizador Aquarela VORTX.

As variáveis com mais influência, ordenadas de forma decrescente, são:

variáveis com mais influência, ordenadas de forma decrescente

variáveis com mais influência, ordenadas de forma decrescente

Visualização multivariada dos cenários de baixa desigualdade social da Islândia.

Visualização multivariada dos cenários de baixa desigualdade social da Islândia.

No cenário Islandês temos uma baixa população carcerária em relação à população total em baixo investimento externo em relação ao PIB e uma escolaridade alta.

População carcerária média, escolaridade baixa e, muito capital privado. e alto fluxo de alunos no ensino superior.

Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos

Visualização multivariada dos cenários de baixa desigualdade social onde se encontram diversos países Africanos

Apesar do Brasil ser um dos países mais desiguais do mundo ele se encontra em um cenário intermediário quando consideramos os 65 indicadores. Em diversas outras análises que já realizamos o mesmo dataset é possível afirmar que a média Brasileira é muito próxima a média mundial. E que o padrão internacional de países extremamente desenvolvidos e igualitários são situações de outliers ou se agrupados, se tornam cenários pequenos.

Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.

Visualização multivariada dos cenários de alta desigualdade social onde se encontra o Brasil.

Como gerar valor ao negócio com análise de dados?

Qualquer tipo de análise de dados somente fará sentido se for possível extrair ações e medir o impacto das ações tomadas. Para isso, nem mesmo os melhores e mais complexos modelos de machine learning são suficientes se não houver um alinhamento de negócio.

Por isso a Aquarela desenvolveu a DCIM (Data Culture Introduction Methodology), uma metodologia de desenvolvimento de projetos de Analytics, inspirada nos modelos de business CANVAS. Veja mais.

De forma resumida, para gerar valor com análises de dados (análise descritiva, preditiva, prescritiva e de cenarização) em negócios é preciso ter:

  • um objetivo definido, com meta de aumento ou redução atrelada a pelo menos um indicador, já considerando que já existem um trabalho de harmonização dos indicadores;
  • os diferentes tipos de análises suprem necessidades em níveis diferentes, como por exemplo: a cenarização serve para questões estratégicas ao passo que as análises descritivas e preditivas estão mais próximas da operação;
  • perguntas-chave: perguntas de negócio que, ao serem respondidas, vão auxiliar a atingir o objetivo;
  • levantamento de fontes de dados internas e externas que serão necessárias para o projeto de Analytics;
  • testes a serem realizados utilizando tanto análises descritivas, preditivas ou prescritivas, que serão ou não validados.

Por fim, mais importante do que os métodos de análise utilizados, ou o tipo de análise que será feita, é resolver os problemas de negócio e gerar valor!