Tenho o perfil para trabalhar com Análise de Dados?

Tenho o perfil para trabalhar com Análise de Dados?

A área de análise de dados (o que é data analytics?) é ampla o suficiente para se encontrar uma posição de trabalho que seja capaz de gerar satisfação tanto para quem contrata e é contratado. Porém existem algumas características pessoais que valem uma atenção especial. Quais são? 

Neste artigo, apresento algumas dicas para profissionais e estudantes ou para quem está  buscando ter uma visão do encaixe do seu perfil dentro da área de análise de dados. Não encaixar em um perfil não significa necessariamente um problema, e sim uma oportunidade para continuar buscando aquele local ou tipo de trabalho que te realiza profissionalmente.  

Como chegamos até aqui?

Nos últimos 10 ou 15 anos houve uma grande transformação nas empresas na direção à indústria 4.0 (o que é a indústria 4.0). Foi nesse período que muitas organizações se informatizaram e entraram na internet. É este cenário de transformação digital que está gerando cada vez mais dados para análise, descobertas de padrões e automatização de rotinas. 

A nova indústria busca por soluções como: 

Então, o(a) profissional encarregado(a) de planejar e executar essas atividades pode ser chamado de analista de dados, cientista de dados e até engenheiro ou arquiteto de dados, dependendo do cenário de negócio. 

Existem muitas definições para cada um desses conceitos. Contudo, há algumas características gerais que valem uma atenção especial para quem está decidindo investir na carreira nessa área. 

Aprendizado 80 Execução 20 na análise de dados 

A área de dados é uma área voltada para processos contínuos de solução de problemas (problem solving). Como no Princípio de Pareto, a proporção de tempo dedicado ao estudo e treinamento pode ser muito superior à execução propriamente dita. É uma quebra de paradigma importante sobre como a gente deve olhar para esse tipo de trabalho. Por isso, se você gosta de iniciar atividades que tenham um fim previamente conhecido e com tudo planejado ao invés das incertezas, a área de análise de dados pode não ser a melhor escolha.  

Criatividade Gerenciada (gestão do conhecimento)

Análise de dados é um trabalho fundamentalmente criativo, porém ao mesmo tempo demanda autodisciplina. 

Os trabalhos de análise de dados são 99% digitais, salvo casos raros de visita a instalações e reuniões presenciais. Portanto, quanto mais bem documentados forem suas atividades criativas para solução de um problema analítico, mais valiosa é sua contribuição. A palavra “ciência” do termo “ciência de dados” faz referência aos processos científicos para se chegar ao resultado. 

Por outro lado, se você cria muita coisa mas não tem uma gestão eficiente e clara destas criações ou o hábito de documentar os caminhos realizados, fazer apresentações, relatórios e se expressar de uma forma baseada em fatos, provavelmente a análise de analytics pode não ser a melhor aposta. 

Curiosidade, Autodidatismo e Motivação

No mundo ideal, o trabalho demandaria um curso específico para cada desafio, mas os desafios analíticos raramente são iguais na vida real, o que torna impossível a publicação de cursos adequados para cada problema em tempo hábil. 

Para tratar de problemas analíticos, é necessário ser uma pessoa autodidata, curiosa por tecnologia e pelos comportamentos das coisas que estão sob análise, pois sem esse desejo pelo desconhecido, não faz sentido a investigação dos dados. 

Durante as fases de análise e dependendo da maturidade de analítica dos clientes ou do projeto, é absolutamente fundamental ter uma atitude positiva frente aos erros e falhas que normalmente acontecem. Essa postura contribui muito com o time para se chegar às melhores alternativas para cada problema.  

Trabalhar em times ágeis

É preciso gostar de trabalhar com diversas disciplinas e pessoas com diversas ideias, jeitos e até hábitos. A multidisciplinaridade que ocorre em projetos de dados é uma situação onde cada um pode agregar seus conhecimentos e habilidades ao todo. Por isso, busca-se um constante vórtex de conhecimento, onde tudo aquilo que é diferente trabalha junto, rumo a um objetivo único. 

Então, se o seu perfil é mais voltado para trabalhos individuais e/ou que não demandam grande quantidade de comunicação e empatia, provavelmente analytics não é uma área recomendada. 

Inglês como língua franca

Por último, mas não menos importante, está o conhecimento em inglês em todos os seus níveis. Mesmo que você não tenha planos de sair do país, a área de computação, sistemas de informação e Analytics são todas baseadas nesse idioma. Frequentemente, as primeiras publicações relevantes sobre cada tema são em inglês, além de grande parte das documentações. Por isso, estar apto a absorver conhecimentos novos é bastante importante. 

Se você não estiver disposto a enfrentar o ciclo de aprendizado rigoroso do idioma, esse será um ponto fraco na sua carreira profissional e isso estará sempre em evidência. Uma vez resolvido a questão do inglês, ele se tornará seu maior amigo e abrirá muitas portas a médio e longo prazo.  

Tenho o perfil para trabalhar com Análise de dados? – Conclusões

Bom, pessoal, com base em minha experiência de mais de 10 anos na ciência de dados, busquei trazer alguns pontos que considero importantes para quem está descobrindo área e tem interesse em encontrar seu lugar no mercado de trabalho. 

A área de dados mescla os verbos estudar e trabalhar, atividades que até então, nas outras fases da industrialização, eram facilmente separáveis. É de fato um mundo novo, com novas formas de trabalhar e que exige uma atenção especial ao perfil mais adequado para essa tarefa. Essa não é nem de perto uma atividade fácil tanto para quem contrata como para quem é contratado, por isso ficam aí algumas reflexões e o desejo de que tenham sucesso em suas escolhas, ou melhor “your choices”. Então, “Good Luck, folks”.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor

Outliers, o que são e como tratá-los em uma análise de dados?

Outliers, o que são e como tratá-los em uma análise de dados?

Os outliers são dados que se diferenciam drasticamente de todos os outros. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.

Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:

  1. os outliers podem viesar negativamente todo o resultado de uma análise;
  2. o comportamento dos outliers pode ser justamente o que está sendo procurado.

Os outliers presentes em datasets  (o que são datasets) possuem diversos outros nomes, como:

  • dados discrepantes;
  • pontos fora da curva; (o que é curva normal?)
  • observações fora do comum;
  • anomalias;
  • valores atípicos;
  • entre outros.

A seguir, elencamos algumas situações comuns em que os outliers surgem na análise de dados e apontamos sugestões de como lidar com eles em cada caso.

Como identificar quais são os dados outliers?

Existem diversas formas de encontrar outliers, aqui citamos algumas delas.

Encontrar os outliers utilizando tabelas

A forma mais simples de encontrar dados outliers é olhar diretamente para a tabela ou planilha de dados – o dataset como chamam os cientistas de dados.

O caso da tabela a seguir exemplifica claramente um erro de digitação, ou seja, de input dos dados. Logo, o campo da idade do indivíduo “Antônio Silveira” certamente não representa a idade de 470 anos.

Olhando para a tabela é possível identificar o outlier, mas fica difícil afirmar qual seria a idade correta. Existem várias possibilidades que podem se referir a idade certa, como: 47, 70 ou ainda 40 anos.

Em uma pequena amostra, a tarefa de encontrar outliers com o uso de tabelas pode ser fácil. Porém, quando a quantidade de observações (linhas) passa para a casa dos milhares ou milhões fica impossível de encontrar quais são os dados que destoam do geral.

Portanto, a tarefa de identificar anomalias pode se tornar difícil, principalmente quando mais variáveis (mais as colunas) são envolvidas. Para isso existem outros métodos.

Encontrar os outliers utilizando gráficos

Uma das melhores formas de identificar dados outliers é utilizando gráficos. Pois, ao plotar um gráfico o analista consegue claramente perceber que existe algo diferente.

Veja a seguir alguns cases que exemplificam a visualização de outliers com gráficos.

Case: outliers no sistema de saúde brasileiro

Em um estudo já publicado em nosso blog analisamos os fatores que levam as pessoas a não comparecem em consultas agendadas no sistema público de saúde da cidade de Vitória/ES.

No dataset, diversos padrões foram encontrados, como por exemplo: crianças praticamente não faltam às consultas; e mulheres comparecem muito mais às consultas do que os homens.

Porém, um caso curioso foi o de uma senhora “outlier”, que com 79 anos agendou uma consulta com 365 dias de antecedência e de fato compareceu à consulta.

Este é um caso, por exemplo, de um dado outlier que merece ser estudado, pois o comportamento dessa senhora pode trazer informações relevantes de medidas que podem ser adotadas para aumentar a taxa de assiduidade nos agendamentos.

Veja o caso no gráfico a seguir.

Identificação de um outlier com agendamento médico superior a 360 dias e com positivo para o comparecimento.
Agendamentos médicos na cidade de Vitória-ES

Case: outliers no mercado financeiro brasileiro

No dia 17 de maio de 2017 as ações da Petrobrás caíram 15,8% e o índice da bolsa (IBOVESPA) teve uma queda de 8,8% em um único dia. Neste caso, a maioria das ações da bolsa brasileira viram seu preço despencar neste dia.

Essa forte variação negativa teve como principal motivação a delação de Joesley Batista, um dos eventos políticos mais impactantes que aconteceram no primeiro semestre de 2017.

Esse caso representa um outlier para o analista que, por exemplo, deseja saber qual foi a média de retornos diários das ações da Petrobrás nos últimos 180 dias. Certamente o dia da delação de Joesley afetou fortemente a média para baixo.

Ao analisar o gráfico a seguir, mesmo diante de diversas observações, fica fácil identificar o ponto que destoa dos demais.

Posição das ações da PETR4

O dado do exemplo acima pode ser chamado de outlier, mas se levado ao pé da letra, não pode necessariamente ser considerado um “ponto fora da curva”. Portanto, a “curva” no gráfico acima, apesar de contra-intuitivo, é representada pela linha reta que corta os pontos.

Ainda pelo gráfico acima é possível perceber que apesar de diferente dos demais, o dado não está exatamente fora da curva. Neste sentido, um modelo preditivo poderia facilmente inferir, com alta precisão, que uma queda de cerca de 9% no índice da Bolsa representaria uma queda de cerca de 15% no preço das ações da Petrobrás.

Em outro caso, ainda com dados do mercado financeiro de ações brasileiro, a ação da empresa Magazine Luiza teve valorização de 30,8% em um dia em que o índice da Bolsa subiu apenas 0,7%.

Em suma, esse dado, além de ser um ponto atípico, distante dos demais, representa também um ponto fora da curva. Veja o gráfico:

Informações das ações MGLU3

Este é um caso de outlier que pode prejudicar não apenas cálculos de estatística descritiva, como média e mediana, por exemplo, mas afeta também a calibração de modelos preditivos.

Encontrar os outliers utilizando métodos estatísticos

Uma maneira mais complexa, porém bastante precisa, de encontrar outliers em uma análise de dados é encontrar a distribuição estatística que mais se aproxima à distribuição dos dados e utilizar métodos estatísticos para detectar os pontos discrepantes.

O exemplo a seguir representa o histograma da conhecida métrica dos motoristas “quilômetros por litro”.

O dataset utilizado para este exemplo é um conjunto de dados público bastante explorado em testes estatísticos por cientistas de dados e estudantes.

O dataset é composto por dados extraídos da “Motor Trend US magazine” de 1974 e compreende diversos aspectos acerca da performance de 32 modelos de automóveis da época. Mais detalhes neste link.

O histograma é uma das principais e mais simples ferramentas gráficas para o analista de dados utilizar na compreensão do comportamento dos dados que está analisando.

No histograma abaixo a linha azul representa como seria a distribuição normal (gaussiana) baseada na média, desvio-padrão e tamanho da amostra, e está contraposta com o histograma em barras.

As linhas verticais vermelhas representam as unidades de desvio-padrão. Percebe-se que os carros com performance “outlier” para a época conseguiam fazer uma média maior que 14 quilômetros por litro, o que corresponde à mais de 2 desvios padrões em relação à média.

Distribuição normal do consumo por litros

Pela distribuição normal, os dados que estão a menos de duas vezes do desvio-padrão correspondem a 95% de todos os dados; os outliers representam, nesta análise 5%.

Outliers em processo de agrupamentos (clustering)

Neste vídeo em inglês (com legendas) apresentamos a identificação de outliers de modo visual a lúdica com bandeira a partir do processo de agrupamentos (clustering). Mais informações sobre clustering neste artigo específico sobre o tema.

Conclusões: o que fazer com os outliers?

Vimos ao longo deste artigo que é imprescindível dar atenção aos outliers, pois eles podem viesar toda a análise de dados. Porém, além de identificar, o que é preciso fazer para tratar os pontos fora da curva?

Existem diversas saídas, algumas delas são:

  • excluir as observações discrepantes da amostra de dados: quando o dado discrepante é fruto de um erro de input dos dados, então ele precisa ser removido da amostra;
  • realizar uma análise separada apenas com os outliers: esta abordagem é útil quando se quer investigar casos extremos, como alunos que só tiram notas boas, empresas que apresentam lucro mesmo em tempos de crise, casos de fraudes, entre outros.
  • utilizar métodos de clusterização para encontrar uma aproximação que corrige e dá um novo valor aos dados outliers: em casos de erros no input dos dados, ao invés de excluir e perder uma linha inteira de registros devido a uma única observação outlier, uma solução é utilizar algoritmos de clusterização que encontram o comportamento das observações mais próximas ao dado outlier e fazem inferência de qual seria o melhor valor aproximado.

Por fim, a principal conclusão sobre os outliers pode ser resumida da seguinte forma:

um dado outlier pode ser o que mais atrapalha sua análise, mas também pode ser exatamente aquilo que você está procurando.

Ainda, estratégias de tratamento de outliers podem ter um impacto direto em negócios reduzindo custos de manutenção de equipamentos industriais com análises preditivas e prescritivas – Ler mais (Vortx Manutenção 4.0).

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores