Como prometido, segue aqui nossas impressões sobre o processo de contratação de cientista de dados na Aquarela. Por que estamos fazendo isso? Porque sabemos o quão frustrante é não ter um retorno de nossas informações, ou pelo menos um feedback da submissão. Já vivemos muito disso em editais e na época de bolsas de estudo.
Este artigo é, sobretudo, para aqueles que nos confidenciaram suas informações da vida profissional em nosso processo de seleção 07 – 2017. Ainda, sendo bem transparentes, fomos surpreendidos com a quantidade de currículos enviados e isso nos causou um atraso considerável no processo. Queríamos garantir que todas as informações fossem analisadas e respondidos adequadamente. Nosso trabalho é analisar!
Principais percepções
Para vagas mais definidas, como para Back-end e Front-end, houveram candidatos com perfis muito similares, já para analista de dados, foi bem difícil encontrar parecidos pois é de fato algo ainda sem uma formação específica. Isso fez com que a tarefa de análise fosse ainda mais complexa.
Muitas vezes, o currículo que chega na nossa mão não expressa detalhadamente a vida profissional, acadêmica ou social do candidato. Assim, os perfis que mais nos chamaram a atenção foram aqueles que apresentaram claramente experiência nas tecnologias citadas e com publicações de estudos de caso reais. Também, alguns transformaram o próprio CV em um dashboard de habilidades (muito interessante).
Há uma grande tendência na migração de carreira para Data Science, mais de 85% dos candidatos se mostram dispostos a fazer este processo de troca de áreas técnicas e negócios para esse campo.
Nestes últimos anos trabalhando diretamente com Data Science, vemos que os perfis dos analistas advindos do quadrante de negócio apresentam uma curva menor para atingir o planalto de produtividade (plateau de produtividade) nas análise de dados em relação aos perfis do quadrante técnico, possivelmente pela prática de atividades de comunicação, redação de textos e apresentação de resultados e pelo salto na usabilidade das ferramentas de Analytics nos últimos meses.
Não foi possível (pelo menos ainda) afirmar algo consistente sobre uma formação (diploma) ideal para análise de dados, tivemos pessoas excelentes da engenharia, física, administração, estatística, etc. O que é mais aparente, usando uma metáfora, é que o os perfis mais desenvolvedores criam a guitarra e os perfis mais de negócio e de Data Science, tocam a guitarra e ainda cantam. Existem músicos que fazem a própria guitarra a própria músicas, mas são raros.
O inglês é um dos conhecimentos menos comuns dos candidatos, o mesmo continua sendo um diferencial. Data Science é um dos processos mais intensivos de comunicação na atualidade, sobre tudo na tangibilidade de conceitos abstratos, o inglês é necessário em todos os aspectos e um ponto chave no processo de autodidatismo.
Alguns perfis se adaptam bem à vaga de análise de dados, mas não ao perfil de empresa startup (ver na continuação).
Perfil das Startups
Além dos conhecimentos básicos profissionais já amplamente conhecidos, vale a pena um parecer sobre as diferenças dos ambientes de trabalho corporativos e das startups.
Carreiras em startup não se encaixam em modelos acadêmicos e nem corporativos, havendo dificuldade até de atribuir cargos nas mesmas. Pois, as coisas acontecem de forma tão dinâmica que as funções ficam mais amarradas as tarefas definidas para semana do que algo planejado, sequencia em estruturas.
Risco da distância geográfica. O alto grau de complexidade do trabalho e dinâmicas com dados ainda exige (pelo menos para nós) muito a interação presencial já que grande parte do conhecimento está sendo desenvolvido internamente.
Para uma startup cada novo membro representa muito para o todo do grupo, se de um lado em grandes organizações alguns profissionais se sentem apenas um número, em startups eles se tornam praticamente membros da família. Por isso levamos tão a sério esse processo aqui.
Startups são times de vôlei de praia. Se necessário é preciso sacar, bloquear, se jogar na areia, pegar sol e chuva e como os recursos nem sempre são abundantes às vezes podem parecer até futevôlei que é a expressão máxima da habilidade dos jogadores se virando com o que tem. Quem o faz, é por pura paixão. Isso pode causar muitas e severas quebras de expectativas, além da insatisfação laboral. O quanto isso é importante pode ser percebido nesta análise, por meio de Data Analytics, de otimização de gestão de pessoas.
Startups, antes da tecnologia, são essencialmente empresas gestoras de conhecimento, só que de forma muito mais dinâmica e fragmentada do que ambientes de grande porte. No caso da Aquarela, estamos trabalhando na fronteira de processos de engenharia e machine learning no país e esse padrão de necessidade de gestão do conhecimento se repete continuamente. Neste artigo aqui escrevemos como funcionam os diferentes níveis de gerenciamento de dados até à sabedoria organizacional e o diferencial competitivo.
Recomendações
Dando um sul para aqueles que querem atuar como analistas de dados, seguem algumas sugestões de atividades:
Busque dados (datasets) públicos para gerar análises, preferencialmente com informações do nosso país para aprender e a ensinar.
Foque em conceitos mais do que em ferramentas, ferramentas mudam muito rápido, conceitos ficam com vocês.
Invista no inglês para que ele se torne seu amigo no longo prazo.
Refine sua redação e gramática, tanto em português como em inglês voltado a descrição de gráficos, tendências e possíveis interpretações.
Uma forma de facilitar o aprendizado é participando das comunidades de ciência de dados. Por exemplo Data Science Floripa.
Aprimore seus conhecimentos em R, Python ou Scala. Aqui um post falando sobre R e Python.
Defina uma área dentro de ciência de dados para produzir os cases, aqui no blog já escrevemos com algumas sugestões.
Estude seriamente o Linux, por quê? porque ele é muito legal e útil, nós usamos o Ubuntu e CentOS.
Procure estar próximo, fisicamente, dos ambientes das empresas de análise, por mais virtual que seja o mundo a conversa olho no olho ainda faz e fara toda a diferença.
Busque formas de comprovar seu perfil autodidata, transforme seu CV em um dashboard criativo usando técnicas de visualização.
Caso tiver um perfil apenas acadêmico ou apenas empresarial, sugerimos mesclar, só acadêmico ou só empresarial são perfis mais fracos.
Utilizar o processo de ensino para fixar conceitos e práticas com as ferramentas, conseguir expressão o conhecimento em linguagem clara e didática é fundamental. Tornar as coisas simples é o trabalho de todos os cientistas.
O nosso muito obrigado
Foi muito difícil fazer uma escolha com tantos candidatos ninjas e dispostos a crescer conosco. Encaramos este processo não somente como um preenchimento de uma vaga, mas um primeiro contato (em muitos casos) com pessoas de diversas partes do Brasil. A vontade era de poder admitir mais umas quinze pessoas pelo menos nesta onda de contratação, contudo, encaminhamos diversos currículos para nossos parceiros e alguns até já estão sendo empregados. Sim, queremos todos trabalhando e gerando riquezas para esse país!
Caso alguém não tenha sido contactado, por gentileza entre em contato conosco (pelo email daniela.zanesco@aquare.la ou redes sociais).
Desejamos manter contato com as pessoas, abertos para direcioná-las para um caminho de desenvolvimento pessoal e profissional, bem como potencializar os indivíduos que entraram para o nosso time.
Saudações do time de Gestão de Talentos da Aquarela!
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
People Manager na Aquarela Advanced Analytics. Graduada em Psicologia e entusiasta em novas tecnologias e como elas podem oferecer qualidade de vida para as pessoas.
Hoje 1º de maio, termino de compilar as informações geradas na operação Serenata de Amor – Capítulo Floripa, evento que iniciou na sexta-feira, dia 28 de abril de 2017. Neste artigo, descrevo minhas observações pessoais, fotos e vídeos sobre o evento/projeto como um todo, para que outros sintam-se motivados a meter a mão na massa também. Há tantas formas possíveis de contribuir.
Abaixo estão as informações da raiz do projeto Serenata!
Para que eventos como este aconteçam na sua cidade, sugiro:
Ter pelo menos um líder de projeto com profundo conhecimento da arquitetura do projeto. (Aqui tivemos apoio do pessoal da WEGOV subsidiando a vinda da Jessika Temporal de São Paulo).
Ter pelo menos um líder de infraestrutura do ambiente físico (gestor comunitário).
Ter um espaço físico que permita abstrair o mundo externo e que tenha todas as condições para o bem-estar dos participantes (temperatura, internet, alimentação e etc), mais ou menos como um ambiente de shopping.
Ter participantes altamente engajados pela causa e dispostos a contribuir com o repasse de seu conhecimento de forma não hierárquica e com bastante humildade para aprender conceitos de outras áreas e reconhecer erros.
Ter participantes curiosos e com um senso crítico ponderado, ou seja, que tenham a capacidade de fazer julgamentos sobre dados levando em consideração fatores que às vezes podem influenciar completamente as validações de hipóteses de pesquisa e até gerar injustiças.
Não ter preconceito com o idioma inglês, pois a maioria das ferramentas criadas na área de análise de dados (computação em geral) são em inglês, incluindo o próprio repositório do projeto que utiliza esta língua franca que permite que estrangeiros possam colaborar.
Dia 1 – Sexta-feira dia 28 de abril
Contávamos com aproximadamente 70 pessoas registradas, porém, muitas ficaram impossibilitadas de interagir fisicamente com o grupo devido aos protestos e paralisações aleatórias na cidade. Alguns me perguntaram se sou a favor ou contra a tudo isso. Respondo brevemente para não fugir do tema:
Ter o direito de protestar ou não é um direito fundamental e deve ser exercido sempre como ato de cidadania, já destruir ou pichar qualquer patrimônio público ou privado, principalmente de pequenos empreendimentos, nunca.
O capítulo do Serenata de Amor em Floripa (Sprint – Floripa) é apenas uma de milhares de formas de protesto. Se não tivéssemos problemas com as contas públicas do país, os voluntários nem precisariam estar envolvidos. Simples assim!
Com relação ao evento, fomos muito bem recebidos pela empresa Resultados Digitais, que por sua vez, ofereceu a infraestrutura necessária para os trabalhos.
Foi nesta noite que o trabalho colaborativo me permitiu configurar o ambiente de desenvolvimento Python em minha máquina pessoal (Drama da Instalação do Python – Relatado neste post). Mas por que Python? Resposta, esta é a linguagem oficial do projeto. Para quem não está familiarizado com estes mutirões de trabalho de base tecnológica, as primeiras horas do evento são chamadas de “Install Fest”, momento em que todos configuram seus computadores para que fiquem com os sistemas parecidos, ou sejam, para que todos estejam na mesma página.
Dia 2 – Sábado
Demonstração do aplicativo OPS na prática em tempo real
Em meio ao caos natural de eventos com pessoas de diversas áreas de conhecimento e níveis técnicos diferentes, acabei ouvindo e me deparando com um aplicativo fantástico, uma espécie de Tinder de avaliação de gastos públicos, onde cada nota fiscal é postada e o cidadão pode avaliar se esta faz sentido ou não. Este é o link do aplicativo – Operação Política Supervisionada. Baixe já e ajude a controlar o bom senso do gasto público e, por gentileza, seja honesto na avaliação, se não tiver ideia dos valores use o botão “Não sei” e passe para o próximo.
Continuando, aos poucos, o pessoal foi levantando a mão e os grupos de trabalho foram se alocando automaticamente por perfis de complementariedade de conhecimento. Aqueles que programam se juntaram escrevem e estes aos que conhecem da área pública, quem estava para aprender, estava por todos os lados coletando informação. Então com o passar das horas, bastava levantar a mão e pedir para o grupo quem tinha conhecimento no item X ou Y e os grupos se realocavam de forma extremamente dinâmica.
Bom, abaixo coloco um vídeo feito ao vivo pelo Facebook mostrando mais detalhes do que estavamos fazendo no primeiro dia.
Em uma breve interpretação pessoal destes gráficos, é possível dizer que há uma preocupação maior dos parlamentares na visibilidade do trabalho por meio de maiores investimentos em publicidade da atividade parlamentar (27.64%) do que pagamentos em cursos de capacitação, que por sua vez, só representa (0.02%) do orçamento. Outras inferências podem ser feitas, mas estas deixo a cargo dos leitores. Caso queiram conhecer todas as regras de utilização das quotas parlamentares, aqui estão elas neste link Cota Parlamentar.
Proporção dos gastos parlamentares desde 2009 até 30 de abril de 2017 classificadas por tipo de despesas.
Valor bruto em reais gastos por parlamentares desde 2009 até 30 de abril de 2017 dividido por por tipo de despesas.
Quais foram os maiores reembolsos unitários por áreas?
Maiores reembolsos unitários por área, valores em reais. Ex. Maior despesa com alimentação em uma única nota – R$ 6.205,00 ou serviço de assinatura de R$ 30.000,00.
Quais meses as cotas são mais utilizadas?
Flutuação dos gastos totais das cotas parlamentares ao longo dos 12 meses do ano. Autor – Lui Pillmann.
Qual a média de gasto mensal ao longo dos anos?
Flutuação do gasto médio mensal das cotas ao longo dos anos. Autor – Lui Pillmann.
Quanto um congressista gasta em média por partido?
Média mensal de gastos por deputado por partido ao longo de todos os anos. Autor – Lui Pillmann.
Dia 3 (Domingo)
O Sprint tava programado ser apenas na sexta e sábado, mas dada a empolgação do pessoal, muitos decidiram continuar pelo feriado. E aí vieram os trabalhos de concatenação de material, verificação de inconsistências e atualização dos novos achados na base centralizada do projeto – https://github.com/datasciencebr/ .
Grande parte deste trabalho foi feito de forma remota sincronizado no chat em inglês e português da turma. Eu particularmente tirei este dia para descansar e ver a família. O interessante é que teve bastante gente tocando o projeto, era meia noite e meia e as mensagens não paravam de circular.
Dia 4 (Segunda, 1º de maio)
Dia do trabalho, dia juntar as peças e links e finalizar o capítulo com as conclusões.
Conclusões e próximos passos
Esta análise abordou principalmente os aspectos da dinâmica de trabalho do evento Serenata de Amor – Capítulo – Floripa. Acredito que algumas dessas informações são novas para muitos (inclusive empresas de médio e grande porte).
O aprofundamento nas metodologias de trabalho sobre dados é um caminho inevitável para redução de custos de projetos colaborativos, distribuídos de alta complexidade como este.
Hoje a plataforma do Serenata já utiliza alguns algoritmos e está ficando cada vez mais fascinante ver as máquinas descobrindo em segundos e automaticamente certas as nuances comportamentais dos gastos públicos e em alguns casos até prever situações antes que elas ocorram, isso não é TOP?
Das análises em si, levantamos novas hipóteses, como por exemplo:
O que explica a sazonalidade dos gastos parlamentares?
Por que existem pedidos de reembolso acima de 200 mil reais?
Qual o nível de correlação entre os gastos e as taxas de assiduidades dos parlamentares?
Qual a média dos gastos por partido por estado?
Ranking ponderado dos parlamentares com maior e menor gasto.
Existe correlação entre o aumento dos gastos com o mês de aniversário dos congressistas?
Quais profissões estão probabilisticamente mais propensas aos maiores gastos?
O nível educacional e idade apresentam influência nos cenários de alto médio e baixo gasto parlamentar?
Recomendações
O campo de análise de dados já é uma realidade em diversos países e organizações. O Brasil está no caminho, pois a competitividade internacional está ligada a qualidade da gestão. A tendência mundial é que haja um contínuo aumento nos índices de transparência dos dados da gestão pública. Assim, várias oportunidades surgem, aqui deixo algumas dicas.
Busque formas de colaborar com o projeto Serenata, seja metendo a mão na massa ou patrocinando o financeiramente.
Curta e compartilhe estes materiais para que mais e mais pessoas tenham acesso tanto ao projeto quanto aos dados existentes.
Conheça os portais de transparência que estão sendo criados, como exemplo, sugiro este de Santa Catarina – http://www.transparencia.sc.gov.br
Invista em cursos e capacitações na área de análise de dados, não se deixe intimidar pelas ferramentas, linguagens e etc.
Se quiser ver os códigos e as fórmulas matemáticas em Python usadas para gerar as visualizações click aqui. Autor: Lui Pillmann.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Amanhã, dia 28 de abril de 2017, ao invés de greve (não necessariamente contra ou a favor dela), 70 cientistas de dados, matemáticos, estatísticos, jornalistas, programadores e outros talentos estarão reunidos de forma voluntária até sábado a noite minerando dados governamentais para a redução imediata de desvios indevidos do dinheiro público federal que poderiam certamente melhorar escolas, hospitais e também garantir a aposentadoria de muita gente vem perdendo esse direito por simples má gestão dos recursos nacionais.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
A comparação entre as plataformas R e Python começou há um tempo quando resolvi experimentar um sistema para edição e processamento de scripts chamado Jupyter Notebook, o qual é desenvolvido em Python.
Até então sempre usei R. Aparentemente seria um processo tranquilo de instalar um aplicativo, aí que o bicho pegou! Como resultado, escrevi o seguinte comentário no Linkedin:
“Para quem quer fugir das limitações do Excel rumo à para uma linguagem estatística e de negócios intuitiva, o caminho é o R (a minha visão até o momento). Fiz testes com o Python, seu concorrente, e fiquei bastante frustrado com a quantidade de parametrizações, centenas de pacotes interdependentes misturados, mal documentados e com diversas versões incompatíveis entre si. Dizem que a linguagem Python é super fácil e intuitiva, mas até ter a plataforma pronta para trabalhar, o analista de dados já perdeu a orientação de negócios e se tornou um técnico em infraestrutura de rede e sistemas operacionais. Aí o boi já foi com a corda…”
Resultado, não imaginaria o quão frutífera seria a discussão e por isso segue as reflexões neste post. Antes de falar propriamente do R ou Python, vou apontar algumas das limitações mais críticas do Excel no ponto de vista de gestor e analista de dados.
Vantagens do Excel
Primeiramente o Excel é uma ferramenta de análise tão poderosa e abrangente que concorre com praticamente tudo, desde o rascunho feito em papel de saco de pão até os sistemas mais avançados de gestão. Se você já desenvolveu software, já ouviu algo do tipo:
Mas isso eu não posso fazer em Excel?
Mas depois ele exporta pra Excel, né?
Além disso, algumas funcionalidades do Excel são matadoras. Por exemplo, quando ensinamos alguns alunos a função “Planilha Dinâmica” com 3 cliques, elas entram em estado de euforia plena (recomendo muito investigar isso, em inglês Pivot Table).
Funcionalidade com garantia de muitas horas de trabalho economizadas. De fato, o Excel é uma ferramenta poderosíssima de análise e assim como a sua antecessora, a calculadora, ela é assetorizada (palavra nem existe em português, pois são poucas as ferramentas que podem rodar em qualquer área).
Limitações do Excel em Análise Avançada de Dados
Como uma solução de uso geral, as limitações do Excel para Advanced Analytics são:
Automação da higienização e tratamento de dados em grande escala para processamentos de algoritmos de mineração de dados.
Incompatibilidade com formatos de arquivos, geralmente devem ser transformados para .XLSX ou é necessário fazer algumas manobras por dentro dele para acertar a formação de “.CSV” por exemplo.
Os arquivos no seu formato “.XLSX” têm um limite de até 1.048.576 linhas e 16.384 colunas. A versão anterior “.XLS”, apenas 65.536 por 256 colunas. Dependendo da análise esse limite já se torna crítico.
Não é uma ferramenta gratuita como o seu concorrente direto LibreOffice ou Google Docs. O valor de mercado varia de R$ 500,00 a R$700,00 e deve ser pago, sobre tudo pelos profissionais que estiverem analisando dados de fraudes. O subconsciente não aceita bem essas situações.
A manutenção das customizações se torna caótica se forem implementadas muitas regras.
Abaixo, relaciono algumas características chaves (não todas, claro) destas ferramentas R e Python para Advanced Analytics:
Manipulação de dados em grandes quantidades.
Automação e replicabilidade das análises.
Leitura de diversos tipos de formatos diferentes de fontes diversas de informação, até em tempo real, incluindo o próprio .XLSX.
Gestão do projeto e manutenção dos códigos estruturados.
Gratuitos e de livre distribuição.
Multi-plataforma.
Integração com centenas de algoritmos de inteligência artificial conhecidos como Machine Learning.
Fazendo algumas pesquisas, achei este gráfico bastante relevante comparando a curva de aprendizado do R versus do Excel, que simplificando quer dizer que, coisas de pouca complexidade são fáceis de fazer em Excel e difíceis em R, já tarefas mais robustas são difíceis de fazer no Excel e fáceis no R. Pode se incluir o Python também junto ao R.
Dificuldade X Complexidade – Por Gordon Shotwell
Tendo a oportunidade de conhecer o cenário de trabalho das principais empresas do país, a grande maioria da minha amostragem pessoal, está lá na dificuldade 75 do eixo Y do Excel com uma série de cobranças por resultados práticos que, às vezes, são feitas apenas pela intuição. Poucos estão conseguindo chegar a aplicações reais de Machine Learning, por culpa deste gargalo no meio do caminho da preparação dos dados. Dizemos que o tratamento de dados garante emprego e renda.
Afinal, é melhor aprender R ou Python?
Cientista de dados, ocupam grande parte da cognição analisando duas coisas:
Dados.
Ferramentas de análise de dados (sempre estão surgindo coisas novas).
Levando em consideração a limitação de tempo para estudo, e que os finais de semana são finitos, as linguagens R e Python acabam colidindo e gerando uma bifurcação no caminho dos analistas que devem decidir entre uma ou a outra para resolver os gargalos do Excel. Abaixo está o sumário dos comentários mais interessantes que vi no Linkedin, e espero que isso possa ajudar quem está enfrentando este dilema:
O ideal é aprender as duas linguagens, mas a decisão parece depender principalmente do background profissional e dos objetivos do analista como segue:
Se o background está baseado na área de gestão como: administração, economia e contabilidade e seu objetivo é a tomada de decisão e geração de relatórios. Minha opinião é focar em R. O Rstudio se apresenta de forma muito íntegra tanto em compatibilidade com os sistemas operacionais como em sua documentação no padrão R, que é ótimo para o aprendizado e tem uma base estatística muito rica, além de relatórios com alta qualidade gráfica. A questão estética conta mais do que se imagina no mundo dos negócios.
Se o background for de áreas de desenvolvimento de software tais como: Ciências da Computação, Automação e Engenharias e o foco do trabalho é a criação de ferramentas de análise com robustez, melhor Python. Ainda, leva vantagens em algumas bibliotecas de mineração de texto e de Machine Learning.
O Python é uma linguagem robusta e genérica suficiente para entrar em qualquer área, colidindo na estatística com R e desenvolvimento de plataforma com JAVA/SCALA, que a propósito é a linguagem que utilizamos para a construção do Aquarela VORTX.
Aconteceu comigo
Vou compartilhar um fato que aconteceu comigo: queria fazer um teste com um sistema simples e feito em Python. Porém, a documentação me levou a instalar um pacote gigantesco chamado Anaconda que, por sua vez, conflitou com a versão Python 2.7 e 3 tanto no MAC como no Linux Centos 7.
Pesquisando com amigos geeks, explicaram-me que houve uma mudança bastante grande entre essas versões e que também existem diversas outras formas de ter instalado o Jupyter.
Enfim, voltando ao texto inicial é importante que as ferramentas não desvirtuem a orientação de negócio, principalmente daqueles com perfil de gestão.
Finalizando, independente da linguagem que você escolher, desejo bastante sucesso nos seus projetos. A otimização das empresas e organizações é o fortalecimento do nosso país. Vamos em frente!
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.