O perfil do Cientista de Dados na visão da Aquarela em 2017

O perfil do Cientista de Dados na visão da Aquarela em 2017

Como prometido, segue aqui nossas impressões sobre o processo de contratação de cientista de dados na Aquarela. Por que estamos fazendo isso? Porque sabemos o quão frustrante é não ter um retorno de nossas informações, ou pelo menos um feedback da submissão. Já vivemos muito disso em editais e na época de bolsas de estudo.

Este artigo é, sobretudo, para aqueles que nos confidenciaram suas informações da vida profissional em nosso processo de seleção 07 – 2017. Ainda, sendo bem transparentes, fomos surpreendidos com a quantidade de currículos enviados e isso nos causou um atraso considerável no processo. Queríamos garantir que todas as informações fossem analisadas e respondidos adequadamente. Nosso trabalho é analisar!

Principais percepções

  • Para vagas mais definidas, como para Back-end e Front-end, houveram candidatos com perfis muito similares, já para analista de dados, foi bem difícil encontrar parecidos pois é de fato algo ainda sem uma formação específica. Isso fez com que a tarefa de análise fosse ainda mais complexa.
  • Muitas vezes, o currículo que chega na nossa mão não expressa detalhadamente a vida profissional, acadêmica ou social do candidato. Assim, os perfis que mais nos chamaram a atenção foram aqueles que apresentaram claramente experiência nas tecnologias citadas e com publicações de estudos de caso reais. Também, alguns transformaram o próprio CV em um dashboard de habilidades (muito interessante).
  • Há uma grande tendência na migração de carreira para Data Science, mais de 85% dos candidatos se mostram dispostos a fazer este processo de troca de áreas técnicas e negócios para esse campo.
  • Nestes últimos anos trabalhando diretamente com Data Science, vemos que os perfis dos analistas advindos do quadrante de negócio apresentam uma curva menor para atingir o planalto de produtividade (plateau de produtividade) nas análise de dados em relação aos perfis do quadrante técnico, possivelmente pela prática de atividades de comunicação, redação de textos e apresentação de resultados e pelo salto na usabilidade das ferramentas de Analytics nos últimos meses.
  • Não foi possível (pelo menos ainda) afirmar algo consistente sobre uma formação (diploma) ideal para análise de dados, tivemos pessoas excelentes da engenharia, física, administração, estatística, etc. O que é mais aparente, usando uma metáfora, é que o os perfis mais desenvolvedores criam a guitarra e os perfis mais de negócio e de Data Science, tocam a guitarra e ainda cantam. Existem músicos que fazem a própria guitarra a própria músicas, mas são raros.
  • O inglês é um dos conhecimentos menos comuns dos candidatos, o mesmo continua sendo um diferencial. Data Science é um dos processos mais intensivos de comunicação na atualidade, sobre tudo na  tangibilidade de conceitos abstratos, o inglês é necessário em todos os aspectos e um ponto chave no processo de autodidatismo.
  • Alguns perfis se adaptam bem à vaga de análise de dados, mas não ao perfil de empresa startup (ver na continuação).

Perfil das Startups

Além dos conhecimentos básicos profissionais já amplamente conhecidos, vale a pena um parecer sobre as diferenças dos ambientes de trabalho corporativos e das startups.

  • Carreiras em startup não se encaixam em modelos acadêmicos e nem corporativos, havendo dificuldade até de atribuir cargos nas mesmas. Pois, as coisas acontecem de forma tão dinâmica que as funções ficam mais amarradas as tarefas definidas para semana do que algo planejado, sequencia em estruturas.
  • Risco da distância geográfica. O alto grau de complexidade do trabalho e dinâmicas com dados ainda exige (pelo menos para nós) muito a interação presencial já que grande parte do conhecimento está sendo desenvolvido internamente.
  • Para uma startup cada novo membro representa muito para o todo do grupo, se de um lado em grandes organizações alguns profissionais se sentem apenas um número, em startups eles se tornam praticamente membros da família. Por isso levamos tão a sério esse processo aqui.
  • Startups são times de vôlei de praia. Se necessário é preciso sacar, bloquear, se jogar na areia, pegar sol e chuva e como os recursos nem sempre são abundantes às vezes podem parecer até futevôlei que é a expressão máxima da habilidade dos jogadores se virando com o que tem. Quem o faz, é por pura paixão. Isso pode causar muitas e severas quebras de expectativas, além da insatisfação laboral. O quanto isso é importante pode ser percebido nesta análise, por meio de Data Analytics, de otimização de gestão de pessoas.
  • Startups, antes da tecnologia, são essencialmente empresas gestoras de conhecimento, só que de forma muito mais dinâmica e fragmentada do que ambientes de grande porte. No caso da Aquarela, estamos trabalhando na fronteira de processos de engenharia e machine learning no país e esse padrão de necessidade de gestão do conhecimento se repete continuamente. Neste artigo aqui escrevemos como funcionam os diferentes níveis de gerenciamento de dados até à sabedoria organizacional e o diferencial competitivo.

Recomendações

Dando um sul para aqueles que querem atuar como analistas de dados, seguem algumas sugestões de atividades:

  • Busque dados (datasets) públicos para gerar análises, preferencialmente com informações do nosso país para aprender e a ensinar.
  • Foque em conceitos mais do que em ferramentas, ferramentas mudam muito rápido, conceitos ficam com vocês.
  • Invista no inglês para que ele se torne seu amigo no longo prazo.
  • Refine sua redação e gramática, tanto em português como em inglês voltado a descrição de gráficos, tendências e possíveis interpretações.
  • Uma forma de facilitar o aprendizado é participando das comunidades de ciência de dados. Por exemplo Data Science Floripa.
  • Aprimore seus conhecimentos em R, Python ou Scala. Aqui um post falando sobre R e Python.
  • Defina uma área dentro de ciência de dados para produzir os cases, aqui no blog já escrevemos com algumas sugestões.
  • Estude seriamente o Linux, por quê? porque ele é muito legal e útil, nós usamos o Ubuntu e CentOS.
  • Procure estar próximo, fisicamente, dos ambientes das empresas de análise, por mais virtual que seja o mundo a conversa olho no olho ainda faz e fara toda a diferença.
  • Busque formas de comprovar seu perfil autodidata, transforme seu CV em um dashboard criativo usando técnicas de visualização.
  • Caso tiver um perfil apenas acadêmico ou apenas empresarial, sugerimos mesclar, só acadêmico ou só empresarial são perfis mais fracos.
  • Utilizar o processo de ensino para fixar conceitos e práticas com as ferramentas, conseguir expressão o conhecimento em linguagem clara e didática é fundamental. Tornar as coisas simples é o trabalho de todos os cientistas.

O nosso muito obrigado

Foi muito difícil fazer uma escolha com tantos candidatos ninjas e dispostos a crescer conosco. Encaramos este processo não somente como um preenchimento de uma vaga, mas um primeiro contato (em muitos casos) com pessoas de diversas partes do Brasil. A vontade era de poder admitir mais umas quinze pessoas pelo menos nesta onda de contratação, contudo, encaminhamos diversos currículos para nossos parceiros e alguns até já estão sendo empregados. Sim, queremos todos trabalhando e gerando riquezas para esse país!

Caso alguém não tenha sido contactado, por gentileza entre em contato conosco (pelo email daniela.zanesco@aquare.la ou redes sociais).

Desejamos manter contato com as pessoas, abertos para direcioná-las para um caminho de desenvolvimento pessoal e profissional, bem como potencializar os indivíduos que entraram para o nosso time.

Saudações do time de Gestão de Talentos da Aquarela!

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

O que a Aquarela Advanced Analytics tem feito?

O que a Aquarela Advanced Analytics tem feito?

Nos últimos meses nós da Aquarela estivemos trabalhando pesado em uma série de projetos dentro e fora da empresa, como por exemplo, no desenvolvimento de novos cursos de capacitação, na finalização de projetos em clientes públicos/privados e até em participações voluntárias de apoio a projetos de Data Analytics como já relatei em nosso último artigo  OPERAÇÃO SERENATA DE AMOR CAPÍTULO FLORIANÓPOLIS.

Este artigo é um resumo dessas atividades aos curiosos leitores interessados no desenvolvimento da Aquarela no vasto tema de Data Analytics em nosso país.

1 – Capacitação e Palestras em Data Analytics

Depois de analisar o mercado nacional de TI, participar de dezenas de reuniões e verificar artigos como este “The rise of autonomous data platforms” que revela que menos de 4% dos projetos de Data Analytics têm sucesso. Assim chegamos a duas conclusões importantes:

Conceitos bem formados, simplificados e incorporados à cultura das empresas podem reduzir o tempo, o custo e os riscos de projetos de Data Analytics. Como resultado, há uma elevação no nível de maturidade da gestão de dados.

A fase de limpeza e organização dos dados é a parte mais trabalhosa e importante do processo de análise, porém tem o menor valor percebido pela gestão. Felizmente existem diversas plataformas gratuitas e maduras para essa atividade (vide: Saindo do limitado Excel para R ou Python).

Recentemente lançamos o curso “Introdução à Cultura de Dados com Inteligência Artificial” com um foco bastante introdutório e didático (mão na massa) para técnicos e gestores, com o objetivo de ajudá-los a estruturar e comunicar a estratégia de dados de acordo com seus níveis de maturidade de gestão de dados, tecnologias e modelos de negócio.

No vídeo gravado ao vivo compartilhado via Facebook, meu sócio, Marcos Santos apresenta os fundamentos da DCIM (Data Culture Introduction Methodology) que é uma metodologia que criamos para dar foco e robustez nos projetos de Data Analytics.

https://www.facebook.com/marcoshs/videos/10155143857313726/

Veja o vídeo.

2 – Aprimoramento da plataforma Aquarela VORTX Big Data Analytics

Antes de falar dos recentes aprimoramentos da plataforma VORTX, gostaria de fazer alguns esclarecimentos importantes baseado nas perguntas mais frequentes que recebemos, tais como:

De qual país é a plataforma VORTX? A Aquarela é a representante oficial do VORTX no Brasil?

Aquarela é a criadora do VORTX, plataforma que foi concebida totalmente em inglês visando o mercado internacional. Futuramente teremos ela disponibilizada em outros idiomas. Entendemos o estigma que existe em relação às ferramentas e tecnologias nacionais quase inexistentes a nível global, mas preferimos seguir a linha de pensamento e trabalho do querido Gustavo Kuerten aqui de Florianópolis. Assim, a Aquarela está se consolidando como referência e uma das poucas empresas (no Brasil e no mundo) que desenvolvem seus próprios algoritmos de base para uso geral na área de inteligência artificial. Parece um pouco complicado de entender, mas na verdade é mesmo. De maneira bem sucinta, grande parte das empresas de analytics atua na área de criação de modelos (planilhas) ou captura de dados e utilizam algoritmos open source disponibilizados em diversas plataformas de processamento como comentado no artigo anterior falando do termo “Repacking”.

Os algoritmos do VORTX são baseados em quais algoritmos?

Com os resultados de nossos testes em algoritmos open source, ainda na época das pesquisas de mestrado em 2008, verificamos uma grande incompatibilidade destes códigos abertos em relação aos problemas reais das empresas. Assim sendo, muito poucas empresas aplicam ou publicam de fato decisões tomadas a partir destes algoritmos. Quem chega de alguma forma a bons resultados de Analytics, por regra, não conta o segredo.

Nossa decisão foi então criar novos algoritmos do zero, baseados em paradigmas de Inteligência Artificial, ao invés de se basear em artefatos pré-fabricados. Também optamos por utilizar uma linguagem robusta e de alto desempenho chamada Scala que, uma vez compilada, roda na já consolidada infraestrutura do mundo Java, isso nos possibilitou ultrapassar barreiras técnicas impostas pelas limitações do paradigma de orientação a objetos que gera dois problemas importantes: i) o excesso verbosidade (burocracia na programação); e ii) a limitação de escalabilidade para processos paralelos e distribuídos (Não queria ser tão técnico, mas não tive como).

Quais paradigmas são utilizados pelo VORTX?

A plataforma usa técnicas de Swarm Intelligence, Ensemble Learning, Genetic Algorithms e IA Simbólica (falamos delas aqui), as quais permitem que um usuário com pouco ou nenhum conhecimento de Advanced Analytics consiga fazer análises avançadas de dados sem apertar muitos botões, aliás sem apertar mais do que 1 botão, chegando a resultados consistentes. Dentre os problemas que nossa plataforma resolve, estão:

  • Clustering – para descobrir registros gêmeos para chegar à uma segmentação ótima de mercado.
  • Scenario Discovering – Descobrir fatores que levam a determinados comportamentos do mercado e os caminhos que levam a determinados desfechos como a falta em um agendamento médico ou o surgimento de uma doênça como o câncer.
  • Datascoping – Visualização dinâmica com até mais de 400 variáveis dentro de um plano cartesiano (duas dimensões).
  • Prediction – Prever acontecimentos (em fase de experimentos laboratoriais)
  • Prescription – Sugerir ações administrativas autônomas a partir das ponderações dos dados (um conselheiro digital) (em fase de experimentos laboratoriais).
  • Deteção automática de outliers sistêmicos – registros que fogem da normalidade ponderando a combinação de todas suas características. Escrevemos neste link o que é um outlier.
  • Feedback da qualidade do dado de entrada no algoritmo, informar o usuário sobre a qualidade ou índice de previsibilidade de cada variável ajuda muito a não perder tempo com dados não relevantes.

A combinação destas técnicas permitem que a própria plataforma escolha a melhor abordagem ou algoritmo para cada análise de forma automática, bem como seus parâmetros. Essa inovações vão ao encontro da visão do senhor Thomas Davenport que relata sobre quão artesanal ainda são as análises de dados atualmente e a tendência de novos paradigmas para automação destes processos (Move Your Analytics Operation from Artisanal to Autonomous).

Vocês estão dizendo que possuem uma tecnologia que a Amazon, IBM e outras grandes não têm?

Sim, isso mesmo. Como já trabalhamos em empresas desse porte tanto eu como o Marcos, vemos que hoje grande parte destas empresas software ocupam grande parte do tempo em manutenção de processos ou fazendo pesquisas voltadas para o registro de patentes que são visões de longo prazo. As inovações de fato, hoje estão sendo bancadas pela coragem dos empreendedores mundo a fora (movimento startup). Quando uma solução sobrevive e emerge no mercado, os grandes preferem comprar ela pronta, mesmo pagando uma boa nota, acaba saindo mais barato no final.

Melhorias da plataforma

Das melhorias da plataforma em si, seguem algumas novidades importantes:

  • A partir de agora o VORTX permite que os conjuntos de dados (dataset) possam conter dados categóricos (campos de texto) e numéricos (escalares). Anteriormente o trabalho de transformação de dados era muito maior para gerar planilhas somente numéricas.
  • Integração do motor de inferência VORTX em sistemas parceiros, ou seja, já pode ser encapsulado a outras ferramentas para gerar produtos mais competitivos via API.
  • Aumento da velocidade de processamento com a otimização dos recursos em nuvem. Anteriormente um dataset que levava de 15 de a 24 horas para ser processado agora, o mesmo dataset está levando aproximadamente 30 minutos.
  • Processamento de dados georreferenciados com a criação automática de mapas.
  • Disponibilização do algoritmo Classifier que recebe novos registros do cliente e retorna automaticamente os cenários no qual o registro pertence.
  • Protótipo testado e validado aplicação da IA VORTX em redes sociais. Em breve mais informações.

3 – Demais atividades.

Dentre as diversas atividades também citamos:

Bom pessoal, obrigado pelo apoio de sempre em nosso trabalho. É um trabalho de formiga, mas acreditamos muito nele. Além disso, como foi exposto, são muitas as oportunidades sendo tratadas, cada uma ao seu tempo, para trazer inovações impactantes em nosso país. Um forte abraço e até o próximo artigo!

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor