Outliers, o que são e como tratá-los em uma análise de dados?

Outliers, o que são e como tratá-los em uma análise de dados?

Os outliers são dados que se diferenciam drasticamente de todos os outros, são pontos fora da curva. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.

Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:

  1. os outliers podem viesar negativamente todo o resultado de uma análise;
  2. o comportamento dos outliers pode ser justamente o que está sendo procurado.

Os outliers possuem diversos outros nomes, como: dados discrepantes, pontos fora da curva, observações fora do comum, anomalias, valores atípicos, entre outros.

A seguir elencamos algumas situações comuns em que os outliers surgem na análise de dados e apontamos sugestões de como lidar com eles em cada caso.

Como identificar quais são os dados outliers?

Encontrar os outliers utilizando tabelas

A forma mais simples de encontrar dados outliers é olhar diretamente para a tabela ou planilha de dados – o dataset, como chamam os cientistas de dados.

O caso da tabela a seguir exemplifica claramente um erro de digitação, ou seja, de input dos dados. O campo da idade do indivíduo Antônio Silveira certamente não representa a idade de 470 anos. Olhando para a tabela é possível identificar o outlier, mas fica difícil afirmar qual seria a idade correta. Existem várias possibilidades que podem se referir a idade certa, como: 47, 70 ou ainda 40 anos.

Em uma pequena amostra a tarefa de encontrar outliers com o uso de tabelas pode ser fácil. Porém, quando a quantidade de observações passa para a casa dos milhares ou milhões fica impossível de encontrar quais são os dados que destoam do geral. Essa tarefa fica ainda mais difícil quando muitas variáveis (as colunas da planilha) são envolvidas. Para isso existem outros métodos.

Encontrar os outliers utilizando gráficos

Uma das melhores formas de identificar dados outliers é utilizando gráficos. Ao plotar um gráfico o analista consegue claramente perceber que existe algo diferente. Veja a seguir alguns cases que exemplificam a visualização de outliers com gráficos.

Case: outliers no sistema de saúde brasileiro

Em um estudo já publicado em nosso blog analisamos os fatores que levam as pessoas a não comparecem em consultas agendadas no sistema público de saúde da cidade de Vitória/ES.

No dataset, diversos padrões foram encontrados, como por exemplo: crianças praticamente não faltam às consultas; e mulheres comparecem muito mais às consultas do que os homens.

Porém, um caso curioso foi o de uma senhora “outlier”, que com 79 anos agendou uma consulta com 365 dias de antecedência e de fato compareceu à consulta. Este é um caso, por exemplo, de um dado outlier que merece ser estudado, pois o comportamento dessa senhora pode trazer informações relevantes de medidas que podem ser adotadas para aumentar a taxa de assiduidade nos agendamentos. Veja o caso no gráfico a seguir.

Case: outliers no mercado financeiro brasileiro

No dia 17 de maio de 2017 as ações da Petrobrás caíram 15,8% e o índice da bolsa (IBOVESPA) teve uma queda de 8,8% em um único dia. A maioria das ações da bolsa brasileira viram seu preço despencar neste dia. Essa forte variação negativa teve como principal motivação a delação de Joesley Batista, um dos eventos políticos mais impactantes que aconteceram no primeiro semestre de 2017.

Esse caso representa um outlier para o analista que, por exemplo, deseja saber qual foi a média de retornos diários das ações da Petrobrás nos últimos 180 dias. Certamente o dia da delação de Joesley afetou fortemente a média para baixo.

Ao analisar o gráfico a seguir, mesmo diante de diversas observações, fica fácil identificar o ponto que destoa dos demais.

O dado do exemplo acima pode ser chamado de outlier, mas se levado ao pé da letra, não pode necessariamente ser considerado um “ponto fora da curva”. A “curva” no gráfico acima, apesar de contra-intuitivo, é representada pela linha reta que corta os pontos. Ainda pelo gráfico acima é possível perceber que apesar de diferente dos demais, o dado não está exatamente fora da curva. Um modelo preditivo poderia facilmente inferir, com alta precisão, que uma queda de cerca de 9% no índice da Bolsa representaria uma queda de cerca de 15% no preço das ações da Petrobrás.

Em outro caso, ainda com dados do mercado financeiro de ações brasileiro, a ação da empresa Magazine Luiza teve valorização de 30,8% em um dia em que o índice da Bolsa subiu apenas 0,7%. Esse dado, além de ser um ponto atípico, distante dos demais, representa também um ponto fora da curva. Veja o gráfico:

Este é um caso de outlier que pode prejudicar não apenas cálculos de estatística descritiva, como média e mediana, por exemplo, mas afeta também a calibração de modelos preditivos.

Encontrar os outliers utilizando métodos estatísticos

Uma maneira mais complexa, porém bastante precisa, de encontrar outliers em uma análise de dados é encontrar a distribuição estatística que mais se aproxima à distribuição dos dados e utilizar métodos estatísticos para detectar os pontos discrepantes.

O exemplo a seguir representa o histograma da conhecida métrica dos motoristas “quilômetros por litro”. O dataset utilizado para este exemplo é um conjunto de dados público bastante explorado em testes estatísticos pelos cientistas de dados. O dataset é composto por dados extraídos da “Motor Trend US magazine” de 1974 e compreende diversos aspectos acerca da performance de 32 modelos de automóveis da época. Mais detalhes neste link.

O histograma é uma das principais e mais simples ferramentas gráficas para o analista de dados utilizar na compreensão do comportamento dos dados que está analisando.

No histograma abaixo a linha azul representa como seria a distribuição normal (gaussiana) baseada na média, desvio-padrão e tamanho da amostra, e está contraposta com o histograma em barras. As linhas verticais vermelhas representam as unidades de desvio-padrão. Percebe-se que os carros com performance “outlier” para a época conseguiam fazer uma média maior que 14 quilômetros por litro, o que corresponde à mais de 2 desvios padrões em relação à média.

Pela distribuição normal, os dados que estão a menos de duas vezes do desvio-padrão correspondem a 95% de todos os dados; os outliers representam, nesta análise, 5%.

Conclusões: o que fazer com os outliers?

Vimos ao longo deste artigo que é imprescindível dar atenção aos outliers, pois eles podem viesar toda a análise de dados. Porém, além de identificar, o que é preciso fazer para tratar os pontos fora da curva?

Existem diversas saídas, algumas delas são:

  • excluir as observações discrepantes da amostra de dados: quando o dado discrepante é fruto de um erro de input dos dados, então ele precisa ser removido da amostra;
  • realizar uma análise separada apenas com os outliers: esta abordagem é útil quando se quer investigar casos extremos, como alunos que só tiram notas boas, empresas que apresentam lucro mesmo em tempos de crise, casos de fraudes, entre outros.
  • utilizar métodos de clusterização para encontrar uma aproximação que corrige e dá um novo valor aos dados outliers: em casos de erros no input dos dados, ao invés de excluir e perder uma linha inteira de registros devido a uma única observação outlier, uma solução é utilizar algoritmos de clusterização que encontram o comportamento das observações mais próximas ao dado outlier e fazem inferência de qual seria o melhor valor aproximado.

Por fim, a principal conclusão sobre os outliers pode ser resumida da seguinte forma: um dado outlier pode ser o que mais atrapalha sua análise, mas também pode ser exatamente aquilo que você está procurando.

Semanalmente postamos conteúdos relacionados a análise de dados, indústria 4.0, Big data e Advanced Analytics, cadastre-se em nossa newsletter e fique por dentro.

Mercado financeiro e Inteligência artificial – O início da recomendação inteligente?

Mercado financeiro e Inteligência artificial – O início da recomendação inteligente?

Contexto

      Na minha trajetória (Leonardo) como estudioso e pesquisador na área de economia, observei que existe um certo glamour entre o público médio em relação ao investimento (mercado financeiro) em ações em situações semelhantes a estas:

“Vou juntar dinheiro para investir em ações”,

ou

“Eu não tenho conhecimento para investir em ações”.

Os profissionais da área, como agentes de investimento e corretores, tentam demonstrar entendimento, e quiçá um certo controle sobre – como veremos a frente – o cavalo bravo que é o mercado de ações. Sua missão como especialista é aparentemente simples: indicar aos seus clientes a compra de ativos que vão subir, e recomendar a venda dos ativos que vão descer.

A frente faremos um breve tour pelos estudos teóricos que arguem sobre a possibilidade de prever o movimento do mercado financeiro, onde argumento que o retorno de ativos financeiros é aleatório e imprevisível através de análises tradicionais – até mesmo para os profissionais de investimento. E possíveis caminhos para o uso de Inteligência Artificial no mercado de capitais.

Um pouco de história

   Já no ano de 1900, com a tese de doutorado de Louis Bachelier, este sugeriu que o mercado financeiro parecia seguir um passeio aleatório, ou um “caminhar de bêbado”, onde estando o bêbado em uma posição qualquer, não se pode prever a direção do próximo passo. Tal constatação empírica foi explicada na década de 50 por Eugene Fama com a sua hipótese dos mercados eficientes. Tal hipótese sugere que os ativos financeiros são sempre “apostas justas”, ou seja: a expectativa de ganho ao se comprar um ativo financeiro é exatamente igual a expectativa de perda a qualquer momento. Tal ideia é justificada pelo princípio de arbitragem, onde os investidores – de conhecimento de toda a informação disponível, e inseridos em um mercado com muitos compradores e vendedores, reagem tão rapidamente a uma possibilidade de ganho ou perda, que fazem com que os preços se corrijam quase que instantaneamente para o novo preço justo, onde novamente, a chance de ganho e perda se equivalem.

A hipótese dos mercados eficientes

A hipótese dos mercados eficientes possui três versões: a fraca, a semiforte, e a forte.

  • Na versão fraca, os mercados já incorporam toda a informação pública disponível no passado, e logo, não é possível prever o mercado com base nas séries de dados passadas utilizando métodos estatísticos.
  • A versão semiforte adiciona a ideia de que qualquer nova informação pública é precificada instantaneamente, de modo que não se pode lucrar com ela. Por exemplo, se é lançada uma notícia pública de que a Rússia passará a importar minério de ferro exclusivamente do Brasil, no tempo necessário para a compra de ações de uma mineradora, os preços dessa já terão subido expressando a nova expectativa de rentabilidade da empresa, e a oportunidade de ganho não mais existe.
  • Na sua versão forte, considera que até mesmo a informação privilegiada já está incorporada nos preços. É importante mencionar que a hipótese dos mercados eficientes é amplamente aceita entre os acadêmicos de finanças.

Dentre outras teorias rivais na explicação da inexplicabilidade do comportamento de séries financeiras, destacamos a abordagem através da teoria do caos, que sugere que séries financeiras são imprevisíveis devido a apresentarem sensibilidade às condições iniciais.

Demonstração

      Vamos ilustrar os conceitos tratados através de alguns experimentos numéricos. Primeiro, vamos observar as cotações diárias de preços da Petrobrás (PETR4) entre 17/07/2018 e 26/10/2018.

cotações diárias de preços da Petrobrás (PETR4)

cotações diárias de preços da Petrobrás (PETR4)

Agora vamos simular o comportamento de um passeio aleatório utilizando planilhas, e faremos a comparação com a série original. Começamos inserindo um número inicial em uma célula, digamos, o preço inicial na nossa série da PETR4 (R$18,27). Agora definimos a próxima observação como sendo igual a R$18,27, adicionado de um choque aleatório contínuo de amplitude arbitrária. Vamos desta forma, calcular uma sequência de 90 números. Após algumas tentativas, chegamos na série simulada em laranja:

Real vs Simulada

Real vs Simulada

Podemos observar semelhanças qualitativas no comportamento do preço da ação real, e da nossa simulação do “caminhar do bêbado”. Argumento aqui que com o número suficiente de tentativas, podemos chegar em séries virtualmente idênticas à qualquer série financeira real, utilizando somente variações aleatórias. Veja outro exemplo abaixo:

Real vs Simulada 2

Real vs Simulada 2

É comum dentre investidores privados e profissionais, assim como nos canais jornalísticos, a racionalização a posteriori do comportamento de séries financeiras, e mesmo a observação de padrões geométricos: “A ação caiu por causa da alta do petróleo”, ou “O ativo caiu devido à instabilidade política”, ou ainda “a ação está na sua resistência de baixo, e por isso deve subir”, quando de fato, não existe evidência qualquer que sugira que tal comportamento teve qualquer determinante acessível à nossa razão, e nem de que terá o comportamento previsto pelo analista no futuro. Em outras palavras:

depois do fato é fácil buscar o motivo. O desafio em ciência de dados e o verdadeiro diferencial competitivo na área financeira é exatamente o oposto.

Outra forma de pensarmos sobre a hipótese da eficiência de mercado, é observando a influência da variação passada dos preços nos preços futuros. Vamos medir a correlação (ou como as variáveis cô-variam em média) dos retornos diários da PETR4 considerando doze defasagens: isso é, o quanto a variação de preço de hoje sofre influência do preço do dia anterior, de dois dias anteriores, de três, e assim sucessivamente. Por exemplo, o fato de uma ação ter subido no dia anterior sugere que ela tem uma maior ou menor chance de aumentar hoje? No correlograma linear abaixo, as relações são tão ínfimas que mal podem ser vistas no gráfico, de modo que podemos aceitar confortavelmente a hipótese de que os retornos da série em questão não está associados aos seus valores passados, e logo, não podem ser usados para prever os valores futuros.

correlograma linear

Correlograma linear

 

Essas são as razões que me fazem relutante quanto a alguns pontos que parecem fazer parte do senso comum referente aos “etéreos” investimentos em ações. Acredito que alguns dos maiores mitos são:

  1. que o desconhecimento sobre o investimento em ações é uma grande perda para a pessoa média;
  2. os especialistas fazem previsões consistentemente corretas sobre os preços futuros; e por último,
  3. que a estratégia de investimento especulativos de curto prazo sejam recomendáveis, consistentes ou seguras, especialmente para o cidadão médio que deseja “sofisticar” os seus investimentos..

A estruturação de projetos de data analytics, não apenas para o mercado de ações mas de modo geral, consome mais de 80% do tempo no levantamento das fontes, limpeza e integração e dicionarização dos dados de análise. Somente depois da conformação do modelo Dataset (O que é dataset de análise?).

O estado da arte em algoritmos de inteligência artificial aponta para sistemas capazes de fazer a descoberta de padrões não lineares. Mas por que a não linearidade dos modelos é tão importante? Em breve vamos escrever sobre as diferentes perspectivas das análises econométricas tradicionais vs análises com advanced analytics.

Estado da Arte

Existem muitas aplicações no mercado até onde se estendem nossas pesquisas, contudo, verifica-se que a grande maioria das soluções auxiliam os contornos do trabalho de ações, e não diretamente a predição de acontecimentos, por exemplo:

  • Automação do processo de decisão com apoio de máquina;
  • Sistemas de apoio à;
  • Prevenção a fraude;
  • Sistemas avançados de detecção de comportamentos outliers (O que são outliers?);
  • Sistema de prevenção a fraudes.

Hoje um dos trabalhos mais importantes das corretoras é fazer a associação do perfil dos investidores das carteiras com base em combinações complexas de investimentos. Este é um dos pontos mais viáveis da integração dos mecanismos de inteligência artificial com o mercado, e é uma das funcionalidades desenvolvidas pela aquarela na plataforma VORTX. Que traz um contraponto importante de negócio, por ser capaz de capturar situações de não linearidade, e de gerar recomendações extremamente personalizadas de investimento totalmente baseadas em dados, numa espécie de Netflix do setor financeiro.

Outra funcionalidade da plataforma VORTX, que está na vanguarda da aplicação de inteligência artificial no setor financeiro, é a incorporação de análise semântica nas análises. De maneira semelhante ao que ficou consagrado no google analytics, informações textuais podem ser computacionalmente analisadas e transformadas em informação potencialmente utilizável em predições. Um exemplo é o uso de palavras chave em buscadores como o google e meios de comunicação como jornais e blogs (mais sobre análise semântica e a web 3.0).

Conclusões

Mas o que podemos dizer em relação ao futuro das análises financeiras? Embora os métodos estatísticos tradicionais tenham se mostrado ineficazes na predição de séries financeiras, o desenvolvimento e redução do custo de aplicações de analytics, – e em especial de inteligência artificial – permitem um vislumbre do momento em que os algoritmos possam captar a sutileza e complexidade dos dados financeiros de forma suficientemente rápida, e com um retorno superior ao seu custo de implementação. Mercados completamente eficientes – assim como a impossibilidade cabal de previsão – podem ser idealizações teóricas, todavia uma breve análise dos dados nos permite ver a complexidade envolvida em apreender um potencial pequeno componente preditivo de séries altamente aleatórias.

A comunidade acadêmica se mostra otimista, sendo que apenas nos últimos 30 dias, no momento da redação desse texto, mais de 30 artigos associando machine learning à previsão de séries financeiras foram publicados em periódicos científicos internacionais. Se tais métodos irão conquistar, mesmo que em parte, o aparente caos dos mercados de ativos financeiros, é uma previsão que não me arrisco a fazer.

Diferente de espíritos brilhantes do passado, que como Aldous Huxley e Jules Verne, tentaram com sucesso imaginar o futuro, mantenho-me humilde em relação a violência do acaso, e termino com uma fala do Economista ganhador do Prêmio Nobel de ciências econômicas, Friedrich Hayek: “The curious task of economics is to demonstrate to men how little they really know about what they imagine they can design”.

Como estruturar projetos Analytics de alto nível –  Dados Transacionais versus dados Analíticos

Como estruturar projetos Analytics de alto nível – Dados Transacionais versus dados Analíticos

O interesse pela área de análise de dados é grande, e isso está levando diversos profissionais optar pela migração de carreira total ou parcial. As empresas, por sua vez,  necessitam estruturar constantemente seus projetos de analytics para enfrentar as mudanças trazidas pelas demandas de informação da Indústria 4.0Para ajudá-los neste processo, escrevemos este artigo baseado-se em diversas ocasiões em que trabalhamos na formação e treinamento de equipes de análise de dados. O objetivo aqui é apresentar as diferenças conceituais de sistemas transacionais (que geram dados transacionais) em relação aos sistemas analíticos (que geram dados analíticos).

“Tenho visto nas consultorias da Aquarela Advanced Analytics – VORTX que um dos maiores degraus que as empresas estão enfrentando na escalada dos níveis maturidade de dados é conseguir que todos os envolvidos (cientistas, analistas, diretores) saibam a diferença entre sistemas transacionais e sistemas analíticos. Há um grande problema de comunicação acontecendo nas empresas. Sem isso, os times não só trabalham em páginas diferentes, como também arrisco dizer, em livros diferentes.” (Joni Hoppen – Sócio Fundador da Aquarela)

Dados Transacionais

Quando realizamos uma transferência bancária, a transação do dinheiro da nossa conta para o estabelecimento gera um Dado Transicional ou Operacional.  Eles são caracterizados pela realização de transações com curta duração e pequeno volume de dados manipulados. O foco dos mesmos é “escrever” informações.

A transferência gera uma transação que tem um valor, uma origem, limite de tempo, etc. São sistemas que dão garantia de integridade, ordem temporal de cada uma das transações. Um dos principais requisitos dos sistemas transacionais é a performance, ou seja, é necessário que a transação ocorra no momento em que foi requerida. Também podemos imaginá-los como sistemas de controle em tempo real (sistemas on-online) ou quase real.

Abaixo apresentamos alguns exemplos destes sistemas:

  1. Sistemas bancários: cada transação, pagamento ou saque realizado gera um registro da ação que você fez de forma segura, e normalmente distribuída em diversos sistemas.
  2. Sistemas ERP: geralmente, empresas que realizam vendas de produtos e serviços mantém seus sistemas de gestão operando 24×7 a fim de receber e integrar as transações de compra, venda e estocagem dos seus produtos, até fazer a interligação dessas informações com o site de E-commerce.
  3. Na área de marketing digital podemos destacar o RD Station, ferramenta desenvolvida pela Resultados Digitais que utilizamos para gerir o marketing digital da nossa operação. Ele é uma ferramenta transacional, que também realiza funções analíticas, coletando em tempo real informações sobre acessos, conversões, e-mails e leads que interagem com nossos sites, formulários e redes sociais.

Dados Analíticos

Os dados analíticos são informações geradas a partir dos sistemas transacionais. Ou seja, é o conjunto das transações coletadas para fins de decisões administrativas pontuais ou até para definição de políticas de longo termo. Os dados analíticos são o principal insumo para o planejamento, respondendo perguntas como:

  • Quais são os produtos mais vendidos em uma determinada época?
  • Como é o comportamento dos clientes da região X em relação aos clientes da região Y?
  • Quais são os fatores que mais influenciam o aumento de vendas durante o inverno?

O trabalho sobre os dados analíticos acontece de modo off-line e engloba a análise dos dados transacionais agrupados de acordo com o tipo de pergunta feita pelos analistas de negócio. Os dados analíticos necessitam ser estruturados em datasets de análise. (O que são Datasets e como utilizá-los). A obtenção dos dados analíticos se dá de diversas formas, mas principalmente por extrações dos bancos de dados em arquivos no formato .CSV ou .XLSX.

Recomendação importante, não realize análises de dados em dados transacionais, sob pena de interrupção nos serviços on-line.

Nesse contexto de análise, incluímos o uso constante de algoritmos de Inteligência Artificial, estatística, matemática e modelos econométricos, dependendo do setor de negócio – (14 Setores para aplicação de Data Analytics) . Com estas ferramentas, conseguimos estruturar análises que possibilitem a geração de insights ou novos dados que são importantes para aumentar a eficiência do negócio.  O foco dos dados analíticos é a leitura e o estudo dos padrões acumulado nos sistemas transacionais. Uma lista dos tipos de análises foram descritos neste artigo sobre análise descritiva, prescritiva, e cenarização.

Exemplos de Sistemas Analíticos

  1. Sistemas de Business Intelligence (BI´s): são sistemas que podem ser utilizados para extrair os dados transacionais e gerar visualizações simples e intuitivas para gestão. Existem diversas opções no mercado e a sua utilização permite o acesso das empresas ao nível 3 de maturidade de analytics (DCIM).
  2. Google Analytics (GA): agrega diversas informações sobre o comportamento de vistas ao site da empresa, informando por exemplo o número de acessos, páginas visitadas, tempo de visita e diversas outros indicadores. Esta ferramenta é bastante importante para as equipe de marketing e vendas.
  3. Aquarela VORTX: esta é uma ferramenta de análise de dados que permite a inserção de datasets de diversos setores para detecção de outliers ( leia aqui o que são outliers e como tratá-los ), mensuração das forças de fatores em relação a determinados resultados, geração de ações preventivas em logística, cobrança, fraudes e manutenção de equipamentos.     

Sistemas Híbridos

O grande valor extraído dos dados analíticos ocorre quando há uma integração estruturada dos dados transacionais com os conhecimentos gerados pelas análise de dados. Este processo pode ocorrer de forma manual, descobrindo os padrões e ajustando o sistema transacional, ou de forma automática, na situação onde ele questiona a base analítica antes de apresentar uma resposta aos usuários. Alguns exemplos disso são:

  • Agendamentos médicos: no caso de um hospital, o sistema transacional de agendamento de consultas médicas recebe o pedido de um novo agendamento de consulta em tempo real e é capaz de questionar a base analítica em tempo real para inferir a probabilidade do paciente de faltar neste agendamento. Se, por exemplo, há uma alta probabilidade de falta na consulta (informado pelas ferramentas de Inteligência Artificial), a administração poderia aplicar uma regra para que ele(a) seja obrigado a fazer duas confirmações ou mesmo escolher a data com menor chances de falta antes da consulta ser agendada – mais informações neste link.
  • Netflix: Este é um exemplo clássico de um modelo de negócio disruptivo que une os dados transacionais da entrega de vídeos com alta qualidade em tempo real, associado a um conjunto de regras e heurísticas computacionais geradas pela Inteligência Artificial que garantem recomendações de alto nível de filmes de acordo com os perfis de usuários da ferramenta. Não ache estranho que todos os tipos de filmes que você mais gosta são os que estão na primeira página da sua televisão.

Na tabela abaixo, elencamos alguns exemplos práticos e como o tipo de informação (dado) é classificado:

Tipo de operação Tipo de dado (informação)
Transacional Analítico Híbrido
Transferência bancária X
Compra no site da loja X
Registros de compra do mês anterior salvos em planilha excel X
Sistema de agendamento de consultas médicas X
Dataset contendo todas as consultas médicas realizadas X
Modelo preditivo de faltas em agendamentos X
Sistema de agendamento de consultas médicas inteligente X
Modelo preditivo de recomendação de filmes X
Recomendação de filmes em tempo real aos usuários Netflix X

Projetos Analytics – Conclusão

Como vimos, é de grande importância que as pessoas envolvidas nas iniciativas de análise de dados estejam a par das diferenças conceituais envolvidas, e na própria infra-estrutura de informação montada para tal. O não entendimento desses conceitos pode provocar dificuldades de alinhamento, expectativas e frustrações entre os times que operam dados transacionais e/ou analíticos.

Ao final vemos que o grande objetivo, ou o caminho que todos buscam em analytics, é chegar a sistemas híbridos cada vez mais autônomos para atender seus clientes, como o extraordinário caso da Netflix, que indiscutivelmente se enquadra no nível 5 de maturidade de dados da metodologia DCIM. Para que as empresas e os profissionais tenham uma visão dos níveis de maturidade das empresas brasileiras em termos de analytics, sugerimos conferir esta pesquisa que realizamos:

Pesquisa sobre a qualidade dos dados empresariais no Brasil.

O futuro da área de analytics é a automação de comportamentos inteligentes, apoiados por Inteligência Artificial em todos os setores onde há informação, gerando um nível de otimização e personalização dos serviços em grande escala, sem paralelos na história.

Assista aqui um Webinar sobre os impactos da Inteligência Artificial nos negócios.

 

Inteligência Artificial em análises georreferenciadas

Inteligência Artificial em análises georreferenciadas

Geografia é uma área de conhecimento que estuda a Terra e sua ocupação pelo homem. Os campos de estudo variam em geografia física (relevo, clima, vegetação, etc) e análise de relacionamento (população e ambientes que ocupam).

Dentro da Geografia existe a cartografia, que é uma ciência para representação gráfica da superfície terrestre, tendo como finalidade a criação de mapas para diversos objetivos. Ou seja, procura produzir, difundir, utilizar e estudar os mapas utilizando símbolos, cores, linhas, hachuras, entre outros tipos de representações. Isso tudo é muito importante para entendermos o ambiente em que vivemos.

E a Inteligência Artificial?

Hoje vivemos uma cartografia digital interconectada, para um âmbito mais minucioso e urbano, que permite localizar os estabelecimentos mais próximos (com telefone e horário de funcionamento) e ainda por cima saber qual a melhor rota para se chegar lá, seja a pé, ônibus ou carro. Tudo em questão de segundos, fazendo a vida muito mais fácil por tecnologias utilizadas pelo Waze e Google Maps, por exemplo. Isso é a Inteligência Geográfica baseada em dados, e estes são passíveis de aplicação de Inteligência Artificial (Advanced Analytics, termo sucessor do Big Data).

A Inteligência Geográfica é um termo utilizado pelas empresas para basear suas tomadas de decisões de uma perspectiva que envolve latitudes e longitudes. Estas variáveis são tão importantes para decisões quanto a perspectiva de tempo (minutos, horas, dias), pois todos os negócios ou projetos são pautados em algum lugar e em algum tempo.

Hoje, tornou-se difícil imaginar alguma informação do dia a dia sem algum componente geográfico. A Inteligência Geográfica pode revelar padrões e aspectos fundamentais do comportamento do negócio de modo muito mais rápido e intuitivo do que qualquer texto, ou seja, uma imagem pode valer mais do que mil palavras.

Análises georreferenciadas nos negócios

Existem várias maneiras de se introduzir as análises geográficas no campo profissional. Uma delas, é o uso de softwares de BI (Business Intelligence) que tenham essa solução embutida e de fácil usabilidade, permitindo que os usuários visualizem o negócio de forma sistêmica, sem nenhuma linha de código e com diversos níveis de audiência e filtros (vale a leitura de nosso artigo sobre as diferenças entre BI, data mining e big data).

Em resumo uma plataforma de BI com funcionalidades de georreferência, bem customizada e com os dados coletados de forma adequada vão permitir descobrir:

  • Onde estão os principais clientes?
  • Onde atua a concorrência com mais ou menos intensidade?
  • Qual a rentabilidade e resultado das campanhas de marketing por região?
  • Qual o potencial de mercado ou de fraudes de determinada região?

Limitações dos sistemas de BIs

Com as soluções de BI já é possível criar valor ao negócio em muito pouco tempo, porém há momentos em que os analistas de dados e gestores chegam ao que chamamos de “Stress do Modelo”. O ponto de stress é uma situação típica que acontece quando são feitas centenas de combinações manuais de variáveis durante dias – e até meses – e não surgem novos insights para melhorias de processos do negócio. Isso aumenta o nível de frustração sobre o investimento em análise de dados, na plataforma e às vezes até questiona-se a qualidade do analista de BI, em respeito a sua capacidade de pilotar a plataforma, o que raramente é o caso.

Quando a equação não fecha?

A equação não fecha quando as possibilidades de análise crescem muito mais rápido do que a capacidade dos analistas de testar as hipóteses. Chegar a conclusões cresce, na melhor hipóteses, em escala linear. No gráfico abaixo, demonstramos esse padrão que inicialmente é dominado pela grande área de curiosidade (quadrante 1) que vai se reduzindo ao longo do tempo com os investimentos em análise de dados e ferramentas. Com o tempo, novos dados são gerados e incorporados nas análises fazendo com que se multiplique as oportunidades de cruzamento dos mesmos. Apenas como exemplo: se introduzirmos a variável gênero “Masculino e Feminino” no conjunto de dados podemos dobrar os tipos de análise, se introduzirmos mais 30 bairros e 200 tipos de profissão, há uma explosão combinatória analítica.

Este espaço entre a capacidade de análise e a complexidade dos dados (quadrante 2) é onde há muita frustração e um desconforto generalizado, por que é difícil apontar de forma precisa um culpado pelos ausência de novos insights. Resultado, as empresas estão buscando nas tecnologias de inteligência artificial uma forma de mitigação drástica da complexidade de análise. Uma das principais barreiras para rápida adoção de IA é a falta de uma cultura de dados, algo que é anterior às ferramentas. O quadrante 3 representa o espaço do senso comum ou do conhecimento já incorporando pela organização em seus processos de gestão do conhecimento. 

Para ajuda-lo a quebrar essas barreiras no processo de adoção da cultura de dados, nós desenvolvemos um ebook que descreve as etapas e desafios na implementação do Data Analytics, baixe agora e descubra como sair na frente nesta que já é considerada a quarta grande revolução tecnológica!

Inteligência Artificial aplicada em dados geográficos.

O mercado de Inteligência Artificial está em franca expansão. No que tange às estratégias de negócio baseadas em geografia, existem alguns fatores propulsores desse movimento:

  • maior abundância de dados;
  • sistemas de informação cada vez mais integrados;
  • geolocalização democratizada pelos dispositivos móveis;
  • custo de computação cada vez menor.

O valor das soluções de Inteligência Artificial está no fato delas serem  uma espécie de “turbo” que pode ser adaptado aos sistemas tradicionais de BI, e/ou  um tipo de “prótese cognitiva” para os analistas de dados. Possibilitando que estes descubram padrões relevantes em menos tempo e também evitem navegar por muito tempo em lugares virtuais (combinações de variáveis) que não fazem sentido pro negócio e despendem recursos.

Nos links abaixo demonstramos na prática dois casos de estudo de aplicação da inteligência artificial geográfica:

Exemplo da Secretaria da Fazenda de Santa Catarina

Para exemplificar melhor como é utilizado a Inteligência Geográfica dentro do VORTX, elaboramos uma pesquisa com os dados financeiros de todas as obras executadas pelo estado de Santa Catarina a partir do ano de 2006. Essa pesquisa está neste link – Inteligência Artificial aplicada as obras de Santa Catarina.

Abaixo segue uma prévia e logo na primeira imagem temos uma visão geral do estado de Santa Catarina, como também as proporções dos tipos de obras executadas nos últimos 5 anos. Assim, conseguimos ver que no lado esquerdo existem grupos que vão de 1 até 17, representando tipos diferentes de obras.

Quem descobre os tipos das obras e as proporções?

As descobertas não são feitas por pessoas, mas sim por máquina – por várias máquinas, para ser mais específico. A tecnologia da Aquarela consegue fazer com que os dados geográficos e das obras sejam sintetizados correlacionando e levando em consideração todos os pesos de todas as células da uma planilha com mais de 6.000 linhas e com mais de 20 colunas, o que logicamente seria um trabalho quase que humanamente impossível.

Como ficam as visualizações?

Todas as obras que fazem parte do mesmo grupo podem ser chamadas de obras gêmeas. Assim, torna-se fácil descobrir quais tipos de empreendimentos correspondem a 80% dos investimentos do estado, onde estão distribuídas e também encontrar casos discrepantes/outliers (mais informações sobre eles neste post – O que são outliers).

Aproximando um pouco mais o mapa, conseguimos ter uma visão das proporções de cidade e não região, dependendo do quão preciso é a pesquisa geográfica, isso pode ser uma arma muito importante nas futuras decisões e políticas públicas.

Na terceira imagem aproximamos um pouco mais da região de Florianópolis (onde se encontra a Aquarela), conseguimos ter uma visão mais detalhada, conseguindo pegar regiões de uma cidade e não de um estado, vendo quais semelhanças são mais fortes.

Onde estão os detalhes de cada um dos tipos de obras?

Para entender o comportamento de cada um dos grupos de modo a poder dar nomes a eles. A ferramenta traz sumários estatísticos e visualizações multifacetas como estas abaixo do grupo 5, que são obras com custo total em torno de 60 a 70 milhões de reais e uma média de 121 dias de paralisação, dentre outros valores.

Recomendações

Negócios baseados em estratégias geográficas apresentam um grande potencial de mercado. Profissionais experientes nestas área são escassos e existem expectativas e frustrações não mapeadas. Neste artigo, analisamos importantes da integração da Inteligência Artificial com análises geográficas e demonstrações destes usos em análises exploratórias.

Devido as diferenças entre as projeções da complexidade dos dados e a capacidade de execução do time de BI ao longo do tempo, há falsas expectativas que devem ser contornadas e tratadas pelo time de gestão. Nossa recomendação é cuidar bem dos especialistas de BI. O trabalho destes(as) profissionais chega a ser heroico (carregando, transformando, processando e limpando dados) para gerar visualizações relevantes e, as vezes, isso não é possível sem a ajuda de ferramentas de IA na área de Machine Learning.

O nível de maturidade de dados conta muito para que ferramentas de Inteligência Artificial possam ser utilizadas na prática. Por exemplo, os dados disponibilizados pela Secretaria da Fazenda de Santa Catarina, além de estarem completos e organizados, ainda continham todas as coordenadas geográficas de cada uma das obras. Esse nível de qualidade dos dados infelizmente ainda é algo incomum em nosso país.

Como última recomendação: coletem as latitudes e longitudes de seus dados, isso proporcionará o desenvolvimento de projetos com alto valor agregado com a Inteligência Geográfica.

Para receber mais posts sobre Inteligência Artificial é só assinar nossa Newsletter aqui.

 

Análise: Bike elétrica dobrável e a mobilidade urbana no Brasil.

Análise: Bike elétrica dobrável e a mobilidade urbana no Brasil.

Mês passado comprei uma bike dobrável (cabe no porta-malas) e elétrica (250W) com bateria de lítio – o nome dela é “Alinda” – e, junto com a facilidade do UBER, elevou meu índice de mobilidade a patamares que nem a moto chegava. Também sinto ganhos na satisfação pessoal e profissional. É uma solução de engenharia que faz um hacking na estrutura social, tal como o bitcoin.  

Contexto da decisão

Se você está lendo essa mensagem é estatisticamente provável que você tenha um problema de mobilidade, talvez tenha um dinheiro para investir e também possivelmente tem um perfil outlier (para mais informações sobre o que é um outlier – leia este artigo –  O que são Outliers e como tratá-los.

O problema é que a mobilidade urbana no Brasil é “um filhote de vários pais”, inclusive da crise de 2008, quando o governo resolveu baixar os impostos dos carros, fomentar o crédito e assim manter indústria automotiva aquecida. Como as cidades não estavam preparadas para isso – e para várias outras coisas – chegamos onde estamos (chaos loaded).

Hoje quem mora em qualquer cidade média/grande, e até em algumas pequenas, sofre um problema típico de mobilidade que afeta as várias facetas da vida pessoal e profissional. É também um tipo de problema interessante por ser bem socializado entre toda a população, não estendendo-se apenas aos mais pobres, como é o caso da saúde e educação.

O objetivo aqui é contar minha experiência pessoal de decisão da compra de uma bike elétrica dobrável, dado o cenário de incoerência administrativa do país. Como cientista de dados com background em contabilidade, economia e governança, vou detalhar ao máximo essa decisão que está me trazendo grande mobilidade e, principalmente, qualidade de vida.

Evolução das Taxa de Motorização (automóveis) (2001-2012)

Segundo o Instituto Nacional de Ciência e Tecnologia, o crescimento da taxa de motorização do país tem tido, ao longo dos anos, o padrão demonstrado nas imagens a seguir. Para informações mais detalhadas sugiro a leitura desta publicação oficial – http://www.observatoriodasmetropoles.net/download/auto_motos2013.pdf

Situação atual do país.

Utilizando dados do DENATRAN, somei todos os registros de veículos automotores no Brasil. Isso inclui caminhões, carros, motos e liquidificadores (opa, o último não).  Ao total são 135.508.450 veículos e 207.660.929 pessoas, gerando uma taxa aproximada de uma pessoa e meia para cada veículo.

Separando por estados e pela situação cadastral de cada carro, gerei o seguinte gráfico para demonstrar como estão as proporções dos veículos por estado e por tipo de restrição, sendo mais de 90 milhões de veículos sem nenhuma restrição e mais de 32 milhões financiados.

Apenas a título de curiosidade, ainda recortei os dados para verificar como são as proporções das restrições por estados. Deixo as interpretações do gráfico com os leitores.

 

Em resumo, são muitos veículos, e é bem provável que você tenha um parente ou amigo que já tenha morrido no trânsito. Esta é uma tatuagem que todo brasileiro tem, pois nosso trânsito mata mais do que muitas doenças ou guerras, eliminando mais de 40 mil pessoas jovens ao ano, no auge de suas vidas profissionais.

Bikes elétricas e dobráveis

Segundo o estudo feito pela Prourbe, que criou o perfil do ciclista brasileiro, os dois fatores mais relevantes de motivação ao uso da bike são a praticidade e a manutenção da saúde. Mais informações e detalhes por capitais, neste pdf infográfico – http://ta.org.br/perfil/perfil.pdf

Bom, como há muita curiosidade no tema de bikes elétricas, explico um pouco mais isso. Vamos lá.

Bike com ou sem motor, dobrável e não dobrável

Primeiro vamos falar do motor. Imagine que no gráfico abaixo seja uma medição de esforço físico para subir e descer as ladeiras. Existem vários momentos onde é exigido muito e há uma grande oscilação, gerando desconfortos, como no caso de utilizar a bike como um meio de transporte com a roupa de trabalho e etc.

No caso da “Alinda”, não existe um acelerador, ela só te ajuda com energia se você pedalar, também fazendo com que tudo fique bem mais fácil, leve e suave. É um conceito de parceria para chegar do ponto A até o ponto B no tempo planejado (independentemente do tráfego) com o menor esforço e sem suar. O gráfico seria mais ou menos como na figura abaixo. Você ainda precisa movimentar o corpo, mas é algo bem mais tranquilo.

Uma outra forma de ver é imaginar que o motor faz o trajeto se tornar plano e sem vento. Quando vivia na Holanda, usava uma bike bem simples e velha que me permitia ir a outras cidades e até na vizinha Alemanha. Diria que o motor elétrico dá uma Holandizada no Brasil, sem tirar a beleza fantástica do nosso relevo e ainda emitindo um barulho parecido com o do Robocop (sim, o motor no eixo faz um barulho bem legal).

O motor te ajuda a manter uma velocidade constante entre 10 e 15 km/h, ou seja, você não vai ficar muito devagar mas também não vai muito rápido. A autonomia varia de acordo com a força que você ajuda no pedal e pode chegar até aproximadamente 35km, e o tempo de recarga é de 5 horas na tomada. Às vezes recarrego em casa, outras no escritório. A bateria desencaixa e o carregador é igual ao do laptop. No meu caso, recarrego a cada 3 ou 4 dias. Pensando bem, ela tem um desempenho melhor até do que dos celulares – pelo menos no meu caso.

O trajeto diário (casa – trabalho – casa)  que eu faço não é muito longo (3km), mas tem um morro com mais de 60 m de altura em relação ao nível do mar e isso fica bem puxado sem motor, que aí faz toda a diferença. O motor de 250W é um dos mais fracos e leves e ainda assim já ajuda bastante. Existem alguns de 800W a 1000W, mas aí você teria praticamente uma moto e também um peso extra de baterias.

Dobrável vs não dobrável

Com relação à questão de dobrar a Alinda, acontecem algumas coisas interessantes. Uma delas é a integração de modais. Com o Uber ou o carro dos amigos, hoje posso ir até um lugar e voltar tranquilamente ou vice-versa. Posso também entrar com ela no shopping como se fosse um carrinho de bebê, pegar ônibus e tudo isso usando uma roupa normal.

Como ela tem as rodas menores, cabe dentro do escritório e até no elevador, as pessoas acham muito legal e ficam curiosas. As crianças ficam muito curiosas. Existem diversos vídeos no youtube com demonstrações da praticidade destes modelos.

Relação do uso da bike versus índice de presenteísmo

Com a bike, não apenas a elétrica, sinto que há uma grande melhoria do índice de presenteísmo, que é aquela sensação de você estar com a cabeça exatamente dentro do que você está fazendo. O próprio exercício de estar no movimento da rua te obriga a trazer sua mente para dentro do corpo e depois, no trabalho, isso parece que continua até o final da manhã e tem ajudado bastante no encaminhamento das tarefas do dia a dia. Parece que diminui bastante o stress. Reforço que esta é uma opinião bastante pessoal.

Resumo da experiência

Vantagens

  • Melhora do condicionamento físico, mesmo não sendo distâncias grandes.
  • Aumenta a disposição no trabalho.
  • Elimina a preocupação com engarrafamentos e é interessante que, quanto mais engarrafada está a via, mais seguro fica para o ciclista.
  • Melhora o planejamento do tempo entre ponto A e B, que se torna muito mais preditivo.
  • Aumenta a concentração nas atividades de raciocínio intensivo e analítico, como a análise de dados, algo muito alinhado com o post que escrevemos sobre o perfil dos analistas de dados neste link.
  • Melhora o sono, o que também é fundamental para trabalhos cognitivos.
  • Elimina completamente o problema de estacionamento e pode ser colocada no bagageiro de um carro pequeno, como o Fox por exemplo.
  • Elimina a angústia de pagar preços abusivos de gasolina, riscos de adulteração da gasolina e o risco de pagar imposto por tudo isso.
  • Sublima a necessidade de emplacamento ou visitas no DETRAN, onde estão a maioria dos seus amigos na fila.
  • Exercita todo o corpo e faz você beber mais líquidos, prevenindo também a pressão alta e outros males malandros.

Desvantagens

Claro que esse investimento apresenta algumas desvantagens, então vamos a elas:

  • Quando chove fica mais perigoso e complica a logística;
  • Não é o ideal para longas distâncias ou lugares sem infraestrutura ciclística ou regiões com baixo IDH, com motoristas absolutamente despreparados psicologicamente para o trânsito e o seu stress inerente. Já fizemos um estudo sobre IDH dos países (Big Data na descoberta dos fatores chaves de IDH.
  • A bike tem um pequeno TCO (Total Cost of Ownership – Custo Total de Propriedade) – exige manutenção periódica e há desvalorização ao longo do tempo, especialmente da bateria de lítio.
  • No caso da Alinda, ela não tem amortecedor e é menos confortável do que as mountain bikes.

Conclusões e recomendações

O Brasil perde muito da sua competitividade pela amarração do fluxo de pessoas e falta de infraestrutura de um modo geral e em específico à infraestrutura ciclista, já dada como prioritária em vários outros países.

A decisão de compra de uma bike é ainda uma solução individual para um problema coletivo nacional (bem coletivo). Por isso quando analisar o ROI – Retorno do Investimento, procure analisar aspectos financeiros subjacentes ao retorno direto, como a manutenção da saúde no médio longo prazo e o ganho na produtividade profissional pelo aumento da sensação de presenteísmo.

O nível de desenvolvimento humano (IDH) e a infraestrutura podem interferir bastante no nível de segurança do ciclista e na decisão. Em Florianópolis, por exemplo, existem diversas ciclovias, algumas levam até quase a cidade vizinha no continente, atravessando a ponte que liga a ilha ao continente, e várias pessoas já estão aderindo ao pedal para ir ao trabalho. Existem, no entanto, lugares perigosíssimos, como a SC 401, que liga o centro da ilha até o norte da ilha. Ali é praticamente suicida a decisão.

Existem diversos tipos de bikes elétricas e dobráveis, alguns sites com modelos interessantes são:

Essa foi a experiência. Espero que os dados levantados ajudem vocês a se tornarem mais móveis, mais independentes, mais saudáveis e com mais ânimo para enfrentar o dia a dia. Só o conhecimento poderá gerar mais infraestrutura ciclística no nosso país.

Um forte abraço a todos vocês outliers! 

Quer receber mais conteúdo exclusivo? Assine nossa Newsletter aqui.