A área de ciência de dados está em franca expansão, graças ao grande potencial de otimização de processos que geram tanto economia de recursos (fazer mais com menos) como ampliação de vendas e recuperação de mercado (vender mais e melhor). Em outras palavras:

“Novos (grandes) poderes geram novas (e grandes) responsabilidades”.

Assim, neste artigo, apresentamos o DCIM Commandments (Conheça a DCIM), um compilado com as melhores práticas (criadas e utilizadas por nossa equipe) para manipulação, tratamento e governança de dados e projetos analytics. Acreditamos com grande convicção que alguns pontos deste compilado podem ser úteis ao amadurecimento da cultura de dados do ecossistema brasileiro (empresarial ou não).

Mantenha os dados seguros

Normalmente (e infelizmente), a segurança dos dados é um dos últimos tópicos a serem discutidos, nós acreditamos e praticamos o contrário disso. Afinal, se os dados são o petróleo da próxima década, quem em sã consciência  deixaria isso vazar?

Com isso em mente, trabalhamos alguns anos desenhando arquiteturas apropriadas para a recepção, processamento e distribuição segura de dados, aliadas a normas internas de conduta que visam garantir a segregação e proteção dos dados internos e dos clientes. Alguns exemplos básicos de regras que utilizamos:

  • Autenticidade: Cada usuário tem seu próprio acesso e cada acesso um conjunto de logs.
  • Confidencialidade: partimos do princípio que toda informação dos clientes é confidencial. Neste sentido todos os acessos aos dados internos são bloqueados, e somente é liberado acesso para aqueles que realmente necessitem.  
  • Dados de clientes nunca entram em pendrives. Somente em discos criptografados.
  • Cada cliente tem seu próprio servidor e bucket de armazenamento, de forma que os dados ficam totalmente isolados uns dos outros.
  • Regras e gestão de senha robustas.
  • Padronização de sistemas. Utilizamos principalmente sistemas operacionais Linux e MacOs, embora vários clientes usem Windows.
  • Redes Virtuais Privadas – VPNs – essas redes são utilizadas para garantir a separação do tráfego de dados na internet e dos serviços em operação.

Resolva um problema real

Ciência de dados abre um potencial enorme de possibilidades, e isso gera grande pressão (inclusive psicológica) por resultados. Um dos principais problemas enfrentados nessa situação é conseguir definir qual resultado que se quer primeiro, e quais os passos a serem tomados. O processo é em essência não linear, então se torna fácil divagar o pensamento em coisas que às vezes parecem razoáveis.

Nesse sentido, recomendados um trabalho de desenvolvimento de comunicação entre os times, com técnicas de design thinking contínuas, voltadas ao estudo dos dados e definição do problema. Em alguns casos é um processo de muita ajuda psicológica mútua. Contudo, por via de regra, os problemas reais devem vir do gestor de negócios, e este deve ser traduzido para sistemas de análise e não ao contrário.

Com tantas ferramentas de analytics surgindo no mercado, é fácil se apaixonar por uma solução e ficar sem apetite no almoço e/ou acordado a noite pensando nos gráficos que piscam, quem nunca né? (brincadeira). O fato é que quando soluções técnicas se tornam mais importantes do que o negócio o rabo começa a abanar o cachorro. Parece brincadeira, mas isso acontece muito nos meios técnicos, gerando um impacto pesado na eficiência das empresas e até na moral dos times. Portanto, mantenha o responsável pelo processo de negócio em todas as reuniões, ele vai ajudar a apagar problemas virtuais que sempre surgem (daria um artigo só falando sobre as classes de problemas não reais gerados pela tecnologia).

Priorise Qualidade à velocidade

Entusiastas de tecnologia (aqueles 2% da população chamados de early adopters) são fascinados por novidades, principalmente quando são rápidas e práticas, mas falando de negócios e da responsabilidade sobre processos com impactos financeiros severos, a orientação deve ser outra.

um modelo de inteligência artificial rápido mas que acerta pouco não pode ser considerado. O foco deve ser a qualidade primeiro depois a velocidade.

A mensuração dos resultados deve ser feita constantemente, tanto internamente (com os dados e métodos internos) como também no cliente (com métodos próprios do próprio cliente). Em outras palavras, todos devem estar vendo o resultado no seu idioma próprio. O desafio no entanto é a grande variação dos testes e necessidade de criação de testes para cada tipo de processo que se utiliza machine learning.

Mindset lean (startup)

Quando se fala de termos como BigData e grandes bases de dados, nossa intuição nos leva a buscar soluções para tratar o máximo de dados, certo? Porém o que temos visto é que o desafio mais constante é ao contrário, chegar no menor conjunto de dados capaz de:

  • Gerar a maior quantidade de conhecimento
  • Atingir o maior impacto de negócios no menor espaço de tempo
  • Preservar a saúde mental de todos os envolvidos (é sério).

O acoplamento leve refere-se a não integração imediata dos protótipos nos sistemas tradicionais (sistemas que já estão em operação), ou seja, sistemas analíticos precisam ser validados isoladamente antes de passar pelos processos de integração.

“O homem que insiste em ver com a mais perfeita clareza antes de decidir, jamais decide. Henri Frédéric Amiel – (1821-1881)”

Por isso, a ideia de rápidas prototipações é trabalhar com dados analíticos em paralelo até validar os modelos de IA, e aí então pensar em questões de integração e desempenho. Vale notar que alguns processos de integração de sistemas podem ser mais custosos do que vários processos de analytics. Nesse caminho sempre é bom lembrar da importância da separação conceitual entre sistemas transacionais e analíticos, já escrevemos sobre isso aqui.

Além do conceito do projeto em si a ser validado pelos times de concepção de analytics, há também o encaixe do modelo criado no roadmap tecnológico da organização que, em 100%, do casos, demanda consultas aos especialistas dos sistemas transacionais.

Zelar pelos metadados

Os dicionários de dados são a base da formação da cultura de dados. E por isso, processos de manutenção constante desses dicionários são importantes, apesar da burocracia que isso possa gerar em cada contexto.  

Anteriormente já escrevemos um artigo com exemplos de dicionários de analytics(O que são dicionários de dados para analytics?), no entanto, aqui vai um resuminho da sua função, que é responder algumas destas perguntas:

  • Quais dados estão disponíveis?
  • O que os dados disponíveis representam?
  • Quais as escalas de mensuração de cada variável?
  • Quem são os responsáveis por cada base e seus respectivos dicionários?
  • Como os dados estão integrados?
  • Há oportunidades de negócio associadas às variáveis?

Planeje a continuidade

Descobri muita coisas legais, mas será que daqui 6 meses elas ainda são válidas? O que mudou de lá pra cá?

As primeiras análises a serem feitas nos dados são chamadas de exploratórias, algo que seria similar a primeira entrada em uma floresta. Neste processo grandes descobertas de vários tipos de riscos e oportunidade são geradas.

O planejamento deve ter a análise exploratória bem mapeada, para poder estruturar as análises que terão o perfil recorrente nos negócios.

“Analytics só gera resultado real quando mudanças (melhorias) nos processos de negócios são executadas na prática”. Por exemplo; não adianta saber que as crianças tendem a faltar menos nos agendamentos médicos se não for feita uma política ou  sistema que ajuda este perfil a ser alocado nos dias com maior incidência de faltas de outros perfis.

Esse viés da execução de processos inteligentes, seja ele um sistema para ações preventivas, preditivas e prescritivas, deve estar sempre presente nas discussões, desenhos de telas, prototipações e na implantação efetiva do sistema, de modo que não seja apenas um painel de monitoramento (Quais as diferenças entre painéis de monitoramento e sistemas inteligentes?)

Mantenha as coisas simples

O excesso de informação gerado por bancos de dados gera o que chamamos de “parálise”: paralisia por excesso de análise. Portanto a grande sofisticação está em simplificar, inclusive a principal ajuda dos algoritmos de mineração é justamente deixar para o computador essa tarefa. Se um modelo não simplifica uma decisão de “Sim” ou “Não”, qual é sua utilidade?

Se o projeto não puder ser explicado em poucas palavras e telas, pode haver algum erro conceitual grave, gerado lá atrás no processo de concepção das análises, momento em que os gestores e técnicos desenham juntos a solução.

De modo geral, pelo menos na nossa visão, se o sistema está bem aderente a necessidade de informação do cliente, as respostas da inteligência artificial estão sendo assertivas e o próprio usuário gosta de apresentar os resultados reais gerados, então temos um caso de sucesso!

Conclusões

Apesar dos bilhões gastos em BI, os dados ainda permanecem inacessíveis para a grande maioria dos usuários de negócios que estão clamando para tomar decisões realmente baseadas em dados. Aqui apresentamos sete pontos (quase mandamentos) relevantes em nossa experiência com dezenas de projetos de análise, sugerindo uma oportunidade para implantação de melhoria dos níveis de maturidade de Data Analytics das organizações que nos seguem. Também, não foi objetivo citar tecnologias específicas para cada caso, mas mostrar pontos de atenção para mitigar possíveis riscos gerenciais inerentes às complexidades de projetos da Data Analytics.

 

Autores
Joni Hoppen
Fundador da Aquarela, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação, focado em processos de rápida prototipação de Big Data Analytics e cultura de dados.

Marcos Santos
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.

Luiz Madeira
Devops na Aquarela, graduado em Sistemas de Informação e pós-graduado em Segurança da Informação. Focado em DevOps, Infraestrutura. Linux, Cloud e MySQL.