A distribuição normal em Data Analytics

A distribuição normal em Data Analytics

Encontrar a normalidade e as anormalidades (outliers) nos processo de negócio, tais como vendas, compras, cadeias de distribuição e precificação dinâmica é tarefa fundamental na ciência de dados.

Neste artigo, explicamos e mostramos como a estatística aborda a descoberta da normalidade. Também vamos mostrar algumas distribuições normais associadas aos negócios, dentro de estratégias de data analytics, visando ajudar os leitores a converterem suas análises em resultados tangíveis.

O que é a distribuição normal ou curva normal?

A distribuição Normal também é conhecida como distribuição Gaussiana, em homenagem ao “príncipe da matemática”, o alemão Johann Carl Friedrich Gauss, que contribuiu para diversas áreas da ciência.

Sua utilização da distribuição normal vai além da determinação da probabilidade entre valores numa distribuição, ela também é recorrentemente utilizada como indicativo de qualidade de modelos estatísticos, como o Método dos Mínimos Quadrados, por exemplo. Caso a distribuição de erros do modelo apresente distribuição não normal, supõe-se então que o modelo está viesado, ou seja, não confiável.

Exemplos de Distribuição Normal estão presentes em nosso cotidiano, seja na distribuição de peso de recém nascidos, notas de acadêmicos, Quociente Intelectual (QI), tamanho de sapatos e velocidade de veículos em uma rota, isso para citar alguns dos mais comuns. 

A distribuição normal na visão matemática

Podemos defini-la como uma distribuição de probabilidade contínua com esperança matemática (μ) e desvio padrão (σ). A função densidade de uma distribuição Normal segue a seguinte equação:

Sendo assim, poderíamos dizer que X~N(μ, σ2). Ou seja, uma variável qualquer X segue uma distribuição Normal com média (μ) e variância (σ2). Além disso, uma distribuição normal deve possuir média, mediana e moda iguais, ser assimétrica e leptocúrtica.

Distribuição normal de forma didática

Mal começamos o artigo e já estamos com uma baita fórmula cheia de letras gregas na cabeça. Mas calma. Seremos mais didáticos daqui em diante e, falando nisso, sabiam que o conceito de distribuição normal pode ser demonstrado fisicamente? Dá uma olhada nesse gif:

As bolinhas caem aleatoriamente entre os pinos até formar a distribuição normal.

Contudo, há algo que as pessoas costumam confundir com frequência e devemos deixar claro aqui:

Distribuição Normal e Normal padrão, apesar de serem bastante semelhantes, não são exatamente a mesma coisa. Então:

  • Distribuição normal pode possuir qualquer valor como média e desvio padrão.
  • Distribuição normal padrão sempre terá média igual a zero (0) e desvio padrão igual a um (1). Costuma ser bastante utilizada para facilitar cálculos de probabilidade.

Por que algumas distribuições não são normais?

  • Outliers: Valores muito altos ou muito baixos podem distorcer a curva, a média é especialmente sensível aos extremos. Sugerimos remover os outliers e verificar como ficou a distribuição. Temos um artigo que aborda mais aprofundadamente o que são outliers e como tratá-los
  • Distribuições misturadas: Podem haver casos onde duas ou mais distribuições podem ser combinadas em seus dados. Se desenharmos um gráfico de distribuição com esses dois grupos, podem aparecer duas curvas misturadas, e quando são muitos grupos fica até difícil visualizar o que está acontecendo, e a análise pode demandar o uso de filtros complexos. 
  • Poucos dados: Dados insuficientes podem fazer com que uma distribuição normal pareça completamente deformada. Por exemplo, os resultados da idade dos pacientes de um hospital são distribuídos normalmente. Mas se você escolher três deles aleatoriamente, não obterá uma distribuição normal. Se você estiver em dúvida se possui um tamanho de amostra suficiente para ter resultados robustos, confira esse outro artigo no qual disponibilizamos uma calculadora de amostragem – O que é amostragem e como fazer o cálculo amostral?  
  • Coleta incorreta dos dados: Se em um dataset (o que são datasets) existe uma coluna na qual é esperada uma curva normal, e esta fica deformada, verifique se não há filtros aplicados, ou se a coleta está sendo feita de forma adequada. 
  • Distribuição não normal: Por vezes, a distribuição pode simplesmente ser de outra natureza. A quantidade de vezes que a face de um dado se repete em jogadas seguidas, por exemplo, se comportaria de maneira uniforme. Ou seja, suas faces se repetiriam um número de vezes virtualmente igual. Classificaríamos sua distribuição, então, como uniforme.

Tratamentos

Contudo, bem sabemos que nem tudo se mostra normal nessa terra. Muitas vezes a variável deverá passar por algum tipo de tratamento para ser considerada normal, outras vezes nem mesmo com os tratamentos mais robustos isso será possível. 

Frequentemente encontramos em nossas análises variáveis que se distribuem de maneira logarítmica, por exemplo. Apenas ao observar essa característica já nos damos conta do tratamento mais adequado para este tipo de caso, a aplicação de logaritmo (de base 10). Dessa maneira, teríamos então uma distribuição log-normal. Confira o exemplo abaixo:

Cálculo de probabilidade na prática

Digamos que uma máquina que preenche água em garrafas plásticas de uma determinada fábrica encha as garrafinhas em média 300 ml. Após verificar a distribuição da quantidade de água preenchida por essa máquina, percebe-se que a mesma preenche as garrafinhas com um desvio padrão de 6 ml. Logo:

Qual a probabilidade desta máquina preencher uma garrafinha menos que 295 ml?

Bom, na academia, recorrentemente utilizamos a tabela de distribuição normal padrão para calcularmos algo nesse sentido. Calcularíamos o valor Z e procuraríamos na tabela para determinar a probabilidade de evento como este acontecer. Entretanto, considerando que esse método é apenas utilizado para facilitar o cálculo e o mesmo pode ser estimado através da densidade abaixo da curva, podemos fazer uso da calculadora que desenvolvemos. Veja e tente você mesmo:

Se você chegou a um valor de aproximadamente 20%, parabens! Você acertou!
Fique a vontade para utilizá-la em outros exercícios. Temos certeza que ela pode lhe ser útil em diversos outros experimentos.

Distribuições na Aquarela 

Na Aquarela, utilizamos diariamente a ideia de distribuição, seja para validar a qualidade do dado, da captura do dado ou mesmo entender a natureza dos fenômenos que estamos estudando. Contudo, as demandas que atendemos nos diversos setores industriais de serviço exigem muito mais do que isso para criar predições, prescrições e cenarização de negócio. 

Ao atuar diretamente com analytics na indústria, necessitamos criar e aplicar algoritmos de inteligência artificial para descobrir múltiplas combinações probabilísticas de diversas distribuições que, por sua vez, gerarão recomendações tais como:

  • preço dinâmico;
  • horário de melhor atendimento;
  • níveis de risco de entrega de produtos;
  • riscos de falhas em equipamentos em produção. 

Conclusões e recomendações

Entender o conceito da distribuição normal e seu papel no processo da análise de probabilidades é muito importante. Nesse sentido, com a transformação digital que está em curso, cada dia mais, existirão dados disponíveis para análises. 

Neste artigo vimos:

  • O que é uma distribuição normal e como diferenciar ela das demais;
  • Por que algumas curvas ou distribuições não são normais;
  • Como o conceito de distribuição pode ser demonstrado de forma física; 
  • Como descrevemos a distribuição de probabilidade Normal e como calcular a probabilidade entre intervalos de valores;
  • Demonstramos como proceder tratamentos logarítmicos para transformar a distribuição.

Concluímos que, o conhecimento da distribuição de probabilidade é fundamental para a condução de procedimentos estatísticos. A partir daí, podemos calcular parâmetros, estimar intervalos de confiança e investigar hipóteses. A distribuição mais relevante dentre as possíveis, sem dúvidas, é distribuição normal, tendo enorme importância para a validade de diversos modelos estatísticos aplicados à economia e negócios. 

Fique atento às futuras publicações assinando nossa newletter!

Precificação dinâmica: o case do metrô de Londres.

Precificação dinâmica: o case do metrô de Londres.

A Precificação dinâmica e inteligente vem se tornando cada vez mais importante para os setores da indústria que caminham rumo a personalização em massa de produtos e serviços, como já falamos neste outro artigo: A Indústria 4.0 na visão da Aquarela. No Brasil, diversas indústrias, comércios e serviços já utilizam estratégias e soluções de precificação dinâmica; os mais avançados utilizam Inteligência Artificial (I.A) para otimizar ainda mais a escolha dos preços das transições com alto grau de complexidade. 

Vamos apresentar pontos importantes do tema de precificação no ponto de vista de data analytics (O que é Data Analytics?), nos seus diferentes níveis de maturidade e na definição das estratégias em setores tradicionais.

Tipos de precificação

A precificação é um tema onipresente em negócios, sendo recorrentemente discutido nas áreas de contabilidade e finanças, onde se busca constantemente responder às seguintes perguntas: 

  • Como definir o preço de um produto e/ou serviço de modo que faça sentido tanto para o vendedor como para o comprador?
  • Como obter o melhor rendimento financeiro em médio longo prazo por cliente?
  • Como trabalhar as margens e o mix de produtos de modo que o ganho geral seja alavancado? 

Abaixo apresentamos um resumo dos conceitos.


Preço fixoPreço dinâmicoPreço inteligente
DefiniçãoO preço é único para todos os consumidores, independente da situação.O preço dinâmico é uma personalização do valor pré-fixado, ajustado ao contexto da transação.  A definição do preço é feita com base nas características dos consumidores, além de levar em conta o contexto em que a transação foi efetuada
ExemplosToda e qualquer passagem no sistema será sempre R$ 5,19 com reajuste anual de x%.
Exemplo:Transporte em cidades pequenas
Para a situação “A” o valor é R$ 3,25. Já para a situação “B” o preço é R$5,85. E assim por diante. Ou seja, um valor para cada caso.
Exemplo: Sistemas Integrados de Transporte
Considerando o clima, padrões da demanda, sazonalidades, perfil do passageiro e eventos acontecendo na região o valor pode flutuar entre  “A” será R$ 5 a R$10 e B de R$ 8 a R$10.
Exemplo: Uber e passagens aéreas.   

Qual o preço mais justo para uma passagem? 

Se a resposta for de um morador de Londres, ele dirá: depende! 

Então é aqui que começamos o estudo das precificação fixa, dinâmica e dinâmica inteligente. 

Sistema de transporte londrino   

Escolhemos como exemplo o sistema de transporte de Londres, que integra trens, metrô e ônibus e gera valores diferentes dependendo da escolha do usuário, da hora do dia e diversos outros fatores. Um ótimo estudo de caso dos elementos de uma precificação dinâmica. 

A cidade de Londres é uma das maiores da Europa, e um dos maiores centros financeiros do mundo. Atualmente conta com uma população de aproximadamente 8 milhões de habitantes (1 milhão e meio a mais do que o estado de Santa Catarina). A maioria dos londrinos usa um cartão chamado de Oyster para pagar todas das despesas, inclusive  transporte público. Com ele é possível usar o metrô, trem, ônibus, Vlts (Veículo Leve sobre Trilhos), submarinos, jet skis e carros drones. Bem, os últimos ainda não.

Cultura de dados

Um bom processo de precificação obrigatoriamente necessita de um bom nível de maturidade de dados que reflete trabalhos visionários em longo prazo. Abaixo cito alguns dos principais movimentos, que ajudam a explicar o nível de maturidade da Inglaterra.

  • Aquele país já possui uma longa tradição nas ciências naturais e na estatística, tanto que os relógios do mundo sincronizam com a hora zero associada ao bairro londrino de Greenwich.
  • A enfermeira inglesa Florence Nightingale revolucionou a estratégia das guerras e a saúde mundial com o uso da estatística a partir da guerra da Crimeia (1853-1856) quando criou o diagrama da rosa.
  • Durante a segunda guerra, os matemáticos ingleses conseguiram decifrar os códigos criptografados pela Alemanha utilizando Inteligência Artificial como descrito no filme O jogo da imitação.
  • Ainda, na época do Titanic (1912), os ingleses catalogaram todos os passageiros de tal forma que hoje este conjunto de dados é um dos mais conhecidos na área de machine learning (Aprendendo com o desastre do titanic). 

Desafios geográficos e outros

Como melhorar o transporte de uma cidade milenar, sem remover quarteirões e construções, e ainda suportar de modo eficiente eventos de grande escala, como os jogos olímpicos, com uso de tecnologia e técnicas de precificação? 

Na figura a seguir, está o mapa das ruas da cidade a partir do google maps só para se ter uma noção do quão retalhada é a cidade. O Mapa a seguir dá uma noção do quão complexa é a malha viária da cidade de Londres

A evolução do sistema de precificação

Antigamente as passagens para viagens de trem na Grande Londres eram compradas em uma base “ponto a ponto” entre duas estações, como um bilhete único, de retorno ou de temporada; e foram precificados de acordo com a distância percorrida (precificação fixa).

Durante o início dos anos 80, o Executivo de Transportes de Londres (literalmente o Senhor dos Anéis), fez uma série de revisões das tarifas para então criar os anéis (zonas tarifárias) com o objetivo de simplificar as tarifas e agilizar o processo de compra e uso dos bilhetes.  Os primeiros foram introduzidos em outubro de 1981 em toda a grande Londres. Os ônibus vermelhos utilizam preço fixo através de todos os anéis, e o usuário pode pegar qualquer veículo durante um espaço determinado de tempo. A cidade foi dividida em zonas de ônibus onde as tarifas simples eram aplicadas. No metrô, a área que hoje é a zona 1 foi dividida em duas áreas sobrepostas, chamadas City e West End.

No gráfico abaixo temos a divisão das zonas em camadas que permitem uma cobrança diferenciada do usuário. Se o usuário trafega da zona 5 para 6 então o preço é x. 

Estas mudanças trouxeram mais flexibilidade para os usuários gerando maior dinamicidade no transporte. Com a integração dos bancos de dados dos diversos modais, o usuário ainda pode optar por trocar o seu tempo por dinheiro ao escolher uma forma mais barata só que mais lenta de se locomover. Tanto o sistema de transporte como o usuário podem trabalhar visando a otimização de seus recursos.   

Origem das regras de definição de pesos de precificação 

As regras e os pesos de ponderação dos preços podem se originar de diversas fontes, desde a experiência dos gestores com conhecimento tácito do negócio até de algoritmos de Inteligência Artificial que podem reconhecer padrões até então não conhecidos pela gestão. O importante é que nenhum sobrepõe o outro totalmente. Abaixo mostramos uma tabela que compara algumas das diferentes abordagens com seus devidos prós e contras. 


PositivosNegativos
Experiência do time de gestãoA experiência dos gestores trás um conjunto de regras muito rico dependendo da vivência de cada pessoa com o processo em questão e são normalmente baseados em dados de relatórios contábeis e financeiros estáticos.  O conhecimento tácito das regras de precificação pode ser difícil de replicar dependendo do contexto da precificação.
Não permite um alto grau de personalização e automação do processo de precificação.
Machine Learning / Modelagem estatísticaAs regras de comportamentos de preço são gerados a partir de inferências estatísticas e aprendizado de máquina de um número muito grande de perfis e contextos, permitindo recomendações de preço personalizadas.A análise de treinamento das bases demanda profissionais qualificados com boa noção de estatística e fundamentalmente conhecimento sobre o negócio em que será aplicado o modelo. Também, modelos mal treinados podem gerar preços incoerentes e replicar comportamentos do passado que são indesejados. 
Benchmarking de mercadoPermite nivelar as melhores práticas do mercado em questão que variam desde diferenciação de valores como também regras de segmentação de valores. Podem não trazer o racional que define preço do produto ou serviço. 

Técnicas de analytics

A área de análises avançadas de dados (Data Analytics) é muito rica em técnicas e tecnologias criadas especificamente para detectar padrões em grandes massas de dados, e assim auxiliar os gestões nos testes das abordagens de precificação.

Para a questão do transporte, as georeferências são muito importantes para avaliar os fluxos dos usuários dos sistemas, e até resultados obtidos ao longo do tempo de novas políticas de precificação. Abaixo, os cientistas britânicos elaboram um gráfico de calor (heat map) mostrando a intensidade de usuários nos diversos pontos da cidade, onde as linhas brancas mostram o espaço que uma pessoa pode se transportar a cada 10 minutos no horário de pico. Sem dúvida uma análise muito rica e alinhada ao contexto.

Fonte – Departamento de Transportes – 100020237 2006

Um dos pontos mais importantes das equipes de precificação é o tamanho, qualidade, acurácia e precisão do arcabouço de técnicas de analytics para mensuração e acompanhamento dos resultados. 

Como são os preços atualmente?

Com a integração dos sistemas de precificação é possível digitalizar também a consulta dos valores pelos usuários. Abaixo está o preço gerado pelo sistema após informar os pontos A, B e o perfil do usuário (estudante, aposentado e etc). 

https://tfl.gov.uk/fares/find-fares/tube-and-rail-fares/single-fare-finder

Vemos que existe um incentivo financeiro relevante para que os usuários utilizem o cartão “Oyster” ao invés do dinheiro. Além disso, as combinações proporcionadas para cada fluxo entre as diferentes zonas aumentam a complexidade da gestão dos fluxos, já que cada usuário pode utilizar o sistema de um modo particular.  

Resultados da gestão e dos usuários 

Segundo a pesquisa trimestral realizada pela prefeitura, os usuários têm demonstrado uma maior satisfação da qualidade dos serviços. Na tabela abaixo, quanto mais intenso a cor verde maior é o índice de satisfação dos clientes. 

Em relação ao tempo médio da compra dos tickets também vemos uma considerável melhora dos serviços ao longo do tempo. Quando mais intenso a cor vermelha na tabela, maior o tempo de espera.

Conclusões da precificação dinâmica

Como vimos, existem diversos tipos de precificação, tais como a base fixa, dinâmica e a inteligente, que utiliza a Inteligência Artificial e que tem um impacto bastante relevante na transformação digital da indústria e dos serviços. Dado isso, a complexidade dos projetos de precificação pode variar conforme a cultura de dados e estratégia comercial de cada organização.

Atualmente, os sistemas de e-commerce são os que mais utilizam as técnicas de precificação inteligente, pelo fato de serem soluções já nascidas no mundo digital. No caso londrino, vimos a transformação digital do sistema graças a uma base histórica robusta de projetos analíticos, onde a cidade conseguiu construir uma boa coleta e integração de dados, possibilitando gerar um sistema de precificação dinâmica de transporte que privilegia a mobilidade, e com altos níveis de liberdade dos usuários, ao mesmo tempo que pode cobrir os custos da operação dos trens.

Com a popularização de sistemas de informação coletando dados em vários setores da economia, como na indústria, comércio e serviços, teremos cada vez mais insumos para a construção de sistemas de precificação que respondem em tempo real de forma cada vez mais inteligente. A Inteligência Artificial hoje já nos permite chegar a modelos de precificação com base em estimativas de acontecimentos futuros, e mais personalizados do que a precificação puramente dinâmica, devido a existência de múltiplos padrões de comportamento passados.

O caso de Londres demonstra o caminho evolucionário da tecnologia, e o potencial dos conceitos de precificação no ambiente cada vez mais digital em que as cidades e organizações estão entrando. Acreditamos que sempre haverá demanda para profissionais de tecnologia, matemática, estatística e outros para trabalhar nas parametrizações (leis, climas, tempos, distâncias e etc) de projetos de precificação nos diversos setores econômicos. 

O tema de precificação é fascinante e ao mesmo tempo complexo. Felizmente com o crescimento do poder computacional e melhoria dos sistemas de comunicação, abre-se um novo e amplo campo de trabalho para mentes inquietas. 

O que você não sabia sobre I.A para conversão de leads

O que você não sabia sobre I.A para conversão de leads

Estamos passando por um rápido e profundo processo de digitalização da economia, fato este que muda não só nossa forma de pensar, mas também o conjunto de ferramentas com as quais trabalhamos. Neste artigo falamos sobre I.A para conversão de leads, baseado na experiência da Aquarela sobre a importância do uso dos recursos de Inteligência Artificial e Data Analytics para aumentar consideravelmente a efetividade dos times de marketing no processo de aquisição (conversão) de clientes em plataformas digitais, como redes sociais, e-commerces, blogs e sites de notícias.

(mais…)

O perfil do Cientista de Dados na visão da Aquarela em 2017

O perfil do Cientista de Dados na visão da Aquarela em 2017

Como prometido, segue aqui nossas impressões sobre o processo de contratação de cientista de dados na Aquarela. Por que estamos fazendo isso? Porque sabemos o quão frustrante é não ter um retorno de nossas informações, ou pelo menos um feedback da submissão. Já vivemos muito disso em editais e na época de bolsas de estudo.

Este artigo é, sobretudo, para aqueles que nos confidenciaram suas informações da vida profissional em nosso processo de seleção 07 – 2017. Ainda, sendo bem transparentes, fomos surpreendidos com a quantidade de currículos enviados e isso nos causou um atraso considerável no processo. Queríamos garantir que todas as informações fossem analisadas e respondidos adequadamente. Nosso trabalho é analisar!

Principais percepções

  • Para vagas mais definidas, como para Back-end e Front-end, houveram candidatos com perfis muito similares, já para analista de dados, foi bem difícil encontrar parecidos pois é de fato algo ainda sem uma formação específica. Isso fez com que a tarefa de análise fosse ainda mais complexa.
  • Muitas vezes, o currículo que chega na nossa mão não expressa detalhadamente a vida profissional, acadêmica ou social do candidato. Assim, os perfis que mais nos chamaram a atenção foram aqueles que apresentaram claramente experiência nas tecnologias citadas e com publicações de estudos de caso reais. Também, alguns transformaram o próprio CV em um dashboard de habilidades (muito interessante).
  • Há uma grande tendência na migração de carreira para Data Science, mais de 85% dos candidatos se mostram dispostos a fazer este processo de troca de áreas técnicas e negócios para esse campo.
  • Nestes últimos anos trabalhando diretamente com Data Science, vemos que os perfis dos analistas advindos do quadrante de negócio apresentam uma curva menor para atingir o planalto de produtividade (plateau de produtividade) nas análise de dados em relação aos perfis do quadrante técnico, possivelmente pela prática de atividades de comunicação, redação de textos e apresentação de resultados e pelo salto na usabilidade das ferramentas de Analytics nos últimos meses.
  • Não foi possível (pelo menos ainda) afirmar algo consistente sobre uma formação (diploma) ideal para análise de dados, tivemos pessoas excelentes da engenharia, física, administração, estatística, etc. O que é mais aparente, usando uma metáfora, é que o os perfis mais desenvolvedores criam a guitarra e os perfis mais de negócio e de Data Science, tocam a guitarra e ainda cantam. Existem músicos que fazem a própria guitarra a própria músicas, mas são raros.
  • O inglês é um dos conhecimentos menos comuns dos candidatos, o mesmo continua sendo um diferencial. Data Science é um dos processos mais intensivos de comunicação na atualidade, sobre tudo na  tangibilidade de conceitos abstratos, o inglês é necessário em todos os aspectos e um ponto chave no processo de autodidatismo.
  • Alguns perfis se adaptam bem à vaga de análise de dados, mas não ao perfil de empresa startup (ver na continuação).

Perfil das Startups

Além dos conhecimentos básicos profissionais já amplamente conhecidos, vale a pena um parecer sobre as diferenças dos ambientes de trabalho corporativos e das startups.

  • Carreiras em startup não se encaixam em modelos acadêmicos e nem corporativos, havendo dificuldade até de atribuir cargos nas mesmas. Pois, as coisas acontecem de forma tão dinâmica que as funções ficam mais amarradas as tarefas definidas para semana do que algo planejado, sequencia em estruturas.
  • Risco da distância geográfica. O alto grau de complexidade do trabalho e dinâmicas com dados ainda exige (pelo menos para nós) muito a interação presencial já que grande parte do conhecimento está sendo desenvolvido internamente.
  • Para uma startup cada novo membro representa muito para o todo do grupo, se de um lado em grandes organizações alguns profissionais se sentem apenas um número, em startups eles se tornam praticamente membros da família. Por isso levamos tão a sério esse processo aqui.
  • Startups são times de vôlei de praia. Se necessário é preciso sacar, bloquear, se jogar na areia, pegar sol e chuva e como os recursos nem sempre são abundantes às vezes podem parecer até futevôlei que é a expressão máxima da habilidade dos jogadores se virando com o que tem. Quem o faz, é por pura paixão. Isso pode causar muitas e severas quebras de expectativas, além da insatisfação laboral. O quanto isso é importante pode ser percebido nesta análise, por meio de Data Analytics, de otimização de gestão de pessoas.
  • Startups, antes da tecnologia, são essencialmente empresas gestoras de conhecimento, só que de forma muito mais dinâmica e fragmentada do que ambientes de grande porte. No caso da Aquarela, estamos trabalhando na fronteira de processos de engenharia e machine learning no país e esse padrão de necessidade de gestão do conhecimento se repete continuamente. Neste artigo aqui escrevemos como funcionam os diferentes níveis de gerenciamento de dados até à sabedoria organizacional e o diferencial competitivo.

Recomendações

Dando um sul para aqueles que querem atuar como analistas de dados, seguem algumas sugestões de atividades:

  • Busque dados (datasets) públicos para gerar análises, preferencialmente com informações do nosso país para aprender e a ensinar.
  • Foque em conceitos mais do que em ferramentas, ferramentas mudam muito rápido, conceitos ficam com vocês.
  • Invista no inglês para que ele se torne seu amigo no longo prazo.
  • Refine sua redação e gramática, tanto em português como em inglês voltado a descrição de gráficos, tendências e possíveis interpretações.
  • Uma forma de facilitar o aprendizado é participando das comunidades de ciência de dados. Por exemplo Data Science Floripa.
  • Aprimore seus conhecimentos em R, Python ou Scala. Aqui um post falando sobre R e Python.
  • Defina uma área dentro de ciência de dados para produzir os cases, aqui no blog já escrevemos com algumas sugestões.
  • Estude seriamente o Linux, por quê? porque ele é muito legal e útil, nós usamos o Ubuntu e CentOS.
  • Procure estar próximo, fisicamente, dos ambientes das empresas de análise, por mais virtual que seja o mundo a conversa olho no olho ainda faz e fara toda a diferença.
  • Busque formas de comprovar seu perfil autodidata, transforme seu CV em um dashboard criativo usando técnicas de visualização.
  • Caso tiver um perfil apenas acadêmico ou apenas empresarial, sugerimos mesclar, só acadêmico ou só empresarial são perfis mais fracos.
  • Utilizar o processo de ensino para fixar conceitos e práticas com as ferramentas, conseguir expressão o conhecimento em linguagem clara e didática é fundamental. Tornar as coisas simples é o trabalho de todos os cientistas.

O nosso muito obrigado

Foi muito difícil fazer uma escolha com tantos candidatos ninjas e dispostos a crescer conosco. Encaramos este processo não somente como um preenchimento de uma vaga, mas um primeiro contato (em muitos casos) com pessoas de diversas partes do Brasil. A vontade era de poder admitir mais umas quinze pessoas pelo menos nesta onda de contratação, contudo, encaminhamos diversos currículos para nossos parceiros e alguns até já estão sendo empregados. Sim, queremos todos trabalhando e gerando riquezas para esse país!

Caso alguém não tenha sido contactado, por gentileza entre em contato conosco (pelo email daniela.zanesco@aquare.la ou redes sociais).

Desejamos manter contato com as pessoas, abertos para direcioná-las para um caminho de desenvolvimento pessoal e profissional, bem como potencializar os indivíduos que entraram para o nosso time.

Saudações do time de Gestão de Talentos da Aquarela!

Assine nossa Newsletter e fique por dentro dos nossos posts exclusivos.

Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

 

Com os feedbacks dos artigos relacionados ao projeto Serenata de Amor e a introdução dos conceitos de política supervisionada que eles estão ajudando a introduzir no país, descobrirmos que existem muitas pessoas curiosas (futuros cidadãos cientistas de dados) querendo informações mais detalhadas sobre o comportamento dos gastos dos parlamentares por partidos e por estados. Como não podemos responder a todos os questionamentos e hipóteses levantadas, vamos virar o jogo e facilitar a digestão dos dados de maneira que a grande massa consiga alcançar e replicar esses dados da maneira mais ampla e rápida possível para suas realidades.

Entraves técnicos do acesso aos dados públicos

A estratégia definida pelo time SERENATA foi utilizar tecnologias de ponta e utilizando o idioma inglês para a construção da plataforma de captura e disseminação dos dados. Estas duas medidas são absolutamente acertadas, pois assim, estão conseguindo que diversos programadores, cientistas e pesquisadores (Brasileiros ou não) de qualquer parte do mundo possam colaborar e manter o crescimento acelerado da plataforma. Só para se ter uma ideia, neste exato momento são 576 membros no grupo do Telegram discutindo melhorias do projeto, tudo em inglês.

Para fazer com que as informações geradas pelo projeto sejam mais acessíveis à população, levantei alguns pontos que considero como barreiras técnicas temporárias do processo:

  • Grande parte da população não é alfabetizada em inglês.
  • O conjunto de dados (1580942 linhas)  ultrapassa o limite de linhas que o Excel ou LibreOffice são capazes de processar – Mais informações neste post sobre os limites do Excel.
  • O repositório Github (onde ficam guardados todos os códigos e dados de forma pública 100% na nuvem) ainda é um mistério para muitos. E realmente não é fácil explicar como funciona um mecanismo de gestão de códigos capaz de manter a integridade do projeto com mais de 500 pessoas trabalhando 24×7.Imaginem que seria uma forma de organizar a edição de um documento do no Word de forma colaborativa e sem perder nenhuma informação.
  • Formatos de dados e códigos Python, assim como o inglês não são amplamente conhecidos.

Dos pontos levantados, gostaria de reafirmar que todas as decisões de projetos que visualizei e que criaram esses entraves são absolutamente necessários e sem eles não teríamos nada para discutir. Estamos ampliando um trabalho “semente”, e esse esforço é comum em todos os processos de inovação.

Processo de Facilitação

Para que mais pessoas possam inferir conhecimento a partir dos dados, gerei diversas versões recortadas dos dados traduzindo os nome das colunas para o português. Assim pessoas com noções mínimas de Excel possam usar filtros, planilhas dinâmicas e até gráficos para estudar esses dados 100% públicos da forma mais detalhada possível no menor tempo.

Abaixo está um printscreen da tela do super Ubuntu 17 tunado durante esse processo. Isso dá uma boa noção de como o trabalho sobre dados demanda processamento e memória RAM ou paciência.

Download dos arquivos

Neste link você deve ter acesso as pastas compartilhadas do Google Drive com as seguintes informações:

  • ArquivoCompleto – Contém todos os registros de reembolsos desde 2009 – não pode ser aberto em Excel.
  • RecortePeloAno – O arquivo completo foi retalhado em arquivos menores no formato Excel contendo todos os registros de reembolsos de todos os partidos e todos os estados, porém, fechados por cada ano desde 2009.
  • RecortePorEstado – Neste estão todos os lançamentos de todos os partidos de todos os anos, porém, isolados por estado da federação.

Recomendações

Este artigo tem um objetivo de disseminar o conhecimento tanto da complexidade geralmente não prevista em projetos de análise de dados (aspectos técnicos matam projetos caso não sejam bem arquitetados) e também promover o conceito da política supervisionada em nosso país, área que vai crescer muito nos próximos anos assim como o tema de análise avançada de dados (Advanced Analaytics).

Ao proporcionar dados fatiados e já tratados recomendo fortemente que profissionais de tecnologia, professores, alunos e cientistas façam o seguinte:

  • Encontrem padrões sozinhos nos dados e abram discussões com colegas e alunos;
  • Descubram novas ferramentas para analisar dados;
  • Divulguem as informações de forma abrangente, curtam e compartilhem os achados;
  • Apoiem o projeto Serenata de Amor;
  • Utilizem dados reais para testar seus algoritmos (geralmente os exemplos na internet são dados sintéticos que dão mais de 98% de acerto nas predições, na vida real essa taxa de acerto é bastante difícil se chegar).

Por hora é isso, um abraço a todos e ótimas análises! Seguimos!

Facebook, Twitter, Linkedin.

Assine nossa Newsletter aqui.