Como você pode acelerar análises de dados? Hardware é importante!

Como você pode acelerar análises de dados? Hardware é importante!

A área de análises avançadas de dados (Advanced Analytics) cresce rapidamente no Brasil e no mundo. Há necessidade de profissionais com um novo conjunto de talentos para suprir a demanda deste novo mercado, como já comentamos no post sobre o perfil dos cientistas de dados.

Mas nem só de pessoas vive o mercado de analytics. A ferramenta mais importante para o cientista de dados é o computador, onde a mágica da análise de dados acontece. Neste artigo, vamos escrever algumas dicas que abordamos em nossos cursos sobre como acelerar processos de análise e melhorar o seu desempenho profissional, e também o da sua empresa.

O que você vai aprender neste post?

  • Principais requisitos para análises avançadas de dados
  • Sugestões de investimento
  • Cenários de configuração de máquina

O pilar das análises

Análise de dados é um exercício de uso intensivo de conhecimento e concentração, tão criativo e tenso como criar um texto, um poema, uma música ou pedir a namorada em casamento. Sentiu o drama?

Isso acontece porque o que está sendo analisado e o que será decidido posteriormente podem gerar impactos significativos na vida das pessoas. Imaginem só analisar dados de ocorrência de câncer por exemplo. Logo, o pilar de qualquer análise de alta qualidade é a concentração e, aparentemente, vivemos em um país que não privilegia (ainda) este estado de espírito mais reflexivo e analítico

Os melhores músicos usam os melhores instrumentos

Coincidência ou não, parece que há uma relação bastante direta entre profissionais de alto nível com equipamentos de alto nível e isso se aplica na tecnologia. Quando estudei música, notei o seguinte padrão:

“quem começa a estudar música usando um instrumento ruim tem mais chances de desistir porque é muito mais difícil fazer um bom som. Instrumentos ruins são difíceis até para as pessoas experientes”.

Veja que o mesmo acontece muito nas empresas no Brasil, ver profissionais talentosos às voltas com a lentidão da máquina, perdendo um tempo (ou vários tempos) de cognição preciosa com mouses sem fio que ficam sem bateria, teclado ruim, internet capenga e outros problemas de baixíssimo custo.

O problema dessas pequenas coisas interruptivas é que elas inibem o pensamento profundo, que é absolutamente necessário para encontrar padrões relevantes em dados, e até (principalmente) evitar erros gravíssimos de análise. Assim, mitigue o que puder.

Laptops para análise.

Como assim? Laptops não foram feitos para análise de dados!

Verdade, eles foram feitos para outra coisa. Do ponto de vista de engenharia, os laptops ou notebooks, foram desenhados para serem portáveis com economia de bateria isso uma série de implicações contrárias às necessidade dos analistas de dados. Para deixar isso mais claro, apresentamos em ordem de importância os itens que consideramos mais importantes ao trabalho dos cientistas de dados:

  1. Memória – Subir conjuntos de dados (datasets) e processar são coisas que consomem muita memória e só começa a ficar bom a partir dos 16GB, parece muito à primeira vista, mas para quem está analisando dados há algum tempo o desejo é ter 32gb para trabalhar de maneira mais ágil sem precisar ficar fechando e abrindo aplicativos durante a análise. .
  2. Processamento –  analisar dados é uma tarefa extremamente criativa e com milhares de tentativas e erros, e se para cada uma dessas forem adicionadas alguns segundos, temos um grande desperdício. Dependendo do tipo de dado sendo estudado, este pode gerar uma série de combinações, que podem exponencializar o processamento. Logo, quanto mais processadores, mais rápido e melhor. Como grande parte dos sistemas analíticos (Excel, R e Python) são mono-processadas e os analistas estão sempre com várias navegadores e abas abertas, um processamento de 2 cores, por exemplo, fica bem sobrecarregado.
  3. Refrigeração: – Como falei acima, os cientistas demandam bastante recurso da máquina, e isso implica necessariamente em maior aquecimento. Muitos laptops jogam o calor para baixo do equipamento, fazendo ele esquentar, e o processador diminui de velocidade para não derreter. Neste caso vale até ter ventiladores externos próprios para laptops.

Laptops gamers ou Desktops

Desktops resolvem facilmente os requisitos mencionados, mas ainda assim é necessário um pouco de mobilidade, e durante as pesquisas para a compra de novas máquinas para a Aquarela, pesquisamos diversos sites, e praticamente todos os laptops vinham na contramão dos requisitos, até entrar as linhas de gamers. Legal né?

O pessoal da área de jogos demanda muita computação e coincidentemente fecham com os requisitos que precisávamos. As duas marcas mais interessantes foram a AVELL, empresa aqui de Santa Catarina que é 100% focada em produtos para jogos, e a linha Dell Alienware. Então segue abaixo a configuração da máquina escolhida:

  • Avell Titanium g1513
  • Plava de vídeo – NVIDIA GeForce GTX 1060 (se não for processar dados em placa de vídeo, pode ser uma bem mais simples)
  • 32 Gb: DDR4 2400MHz
  • Processador Intel Intel® Core™ i7-7700HQ Kaby Lake (6Mb cache até 3.8 GHZ)
  • Ventilação dupla com entrada de ar na frente e saída atrás.

Prós:  a máquina é ótima, realmente muito rápida e está rodando perfeitamente no Ubuntu 17.10.  atendimento do pessoal é muito bom. Vale conferir os reviews deles no youtube.

Contras: O tamanho é maior do que necessitava, a fonte de 180W é grande e a bateria dura 1 hora e meia apenas.

Sistema operacional para analytics

Uma outra decisão importante na hora de ir para a área de ciência de dados é a opção do sistema operacional. Abaixo algumas dicas:.

Linux

  • Prós – Muitos dos sistemas sendo desenvolvidos pelas comunidades se originam de plataformas Linux, com isso a integração de padrões e até as instalações tem ótimo desempenho. Atualmente estou usando Ubuntu 17.10 para dar suporte ao kernel de 8 cores, e está funcionando muito bem. A usabilidade também está excelente. Como a maior parte dos servidores é Linux, a integração é facilitada. É uma canivete robusto com funcionalidades bastante variadas feitas por vários autores..
  • Contras – Nos escritórios, o Linux e seus aliados sempre correm por fora, e alguns dos problemas mais críticos em análise é a questão de compatibilidade com os pacotes Microsoft Office e a curva de aprendizado.

Windows

  • Prós – Milhares de sistemas de análise são disponibilizados nesta plataforma, pode interagir perfeitamente com sistemas legados como o Excel. A grande parte do mercado empresarial no país é base Windows e deve continuar por muito tempo. Os profissionais de um modo geral estão familiarizados com a usabilidade. É uma faca de cozinha que todos conhecem e usam sem problemas.
  • Contras – Má gestão da memória, riscos altíssimos de exposição de dados ou até mesmo de sequestro de dados. Incompatibilidade com padrões de pastas e de formatos de documentos, até o .CSV da microsoft é diferente, acredite ou não. Também, a decisão autônoma de instalar pacotes e reiniciar sozinho (!!!) além é claro dos travamentos e da clássica “tela azul da morte”.

MacOS

  • Prós – Diria que o Mac conseguiu juntar o melhor dos dois mundos, interagindo com as comunidades de desenvolvimento e no meio de negócios, é um sistema diplomata que se esforça para conversar com todo mundo e cuida muito da aparência. É um canivete suíço, simples e robusto.
  • Contras – O hardware apesar de ser mais íntegro e mais estável do que os demais, e acaba custando muito (muito mesmo) chegando até o valor de um carro.

Conclusão:

A demanda por análise de dados é crescente e uma das formas mais rápidas e efetivas de acelerar este processo é pela escolha da ferramenta de trabalho, neste caso o hardware. Como comentamos, bons profissionais devem ter bons equipamentos e esperamos que alguns desses comentários sejam úteis para suas decisões de compra e que, logicamente seus estudos sejam mais rápidos, precisos e de qualidade. O hardware é a parte mais barata da equação, pode ter certeza.

Então é isso, esperamos ter ajudado com a nossa experiência e conhecimento.

Um forte abraço de todo o time Aquarela.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor