Uma das principais diferenças entre dicionários tradicionais e de Data Analytics é que os dicionários analíticos integram conhecimentos negócio em diferentes níveis de granularidade, removendo ambiguidades sem priorizar requisitos de sistemas. Isso não deve reduzir a importância dos dois tipos de dicionários em seus contextos. (Joni Hoppen)
Embora a finalidade de ambos os dicionários seja a mesma, ambos buscam unificar e padronizar informações sobre os dados guardados em sistemas de informação.
Portanto, neste artigo vamos apresentar um comparativo entre os dois tipos de dicionário de dados e o seu papel nas atividades das empresas.
Dicionários Tradicionais
Os modelos tradicionais, são mais complexos e detalhados e fazem parte de de processos maduros e boas práticas de engenharia de software, informando até o tamanho do texto permitido em cada coluna. Por exemplo, a coluna nome do paciente tem um limite de 50 caracteres.
Estas informações são relevantes para garantir o planejamentos da infraestrutura ou stack tecnológico, tais como escolha de uma linguagem de programação, o tipo de integração de sistemas e diversas atividades que garantem a operação diária da empresa.
Contudo, quando se planeja utilizar a Inteligência Artificial e algoritmos de mineração de dados, estas informações podem ser irrelevantes e adicionam grande complexidade ao processo de análise.
Dicionários de Data Analytics (dados analíticos)
Para que um modelo tradicional de dicionário (mais completo) seja adequado aos processos de Data Analytics na criação de datasets (o que é um dataset?), ele precisa ser ajustados aos perfis profissionais que irão consumir a informação.
Os clientes dos dicionários analíticos são, sobretudo, cientistas de dados e analistas de negócios que possuem um grande interesse na assertividade das predições/prescrições dos modelos estatísticos e integração com o modelo de negócio.
Em data analytics, os dicionários estão mais focados nos significado das linhas (registros) dos datasets e das colunas das tabelas (variáveis, fatores, características) para que pessoas envolvidas pensem sobre o problema de negócio (o que se quer analisar) na forma mais prática e simplificada possível.
Tabela comparativa
Na tabela a seguir, apresentamos algumas sugestões de atividades e os clientes dos dicionários tradicionais da engenharia de software e dos dicionários analíticos.
Atividade
Tradicional (Tecnologia da Informação)
Dicionário de Analytics (Escritório de Ciência de dados)
Ambos
Integração de sistemas
X
Modelagem de bancos de dados;
X
Migração de sistemas
X
Higienização de dados
X
Criação de modelos, exploratórios, preditivos e prescritivos.
X
Geração de relatórios analíticos
X
Dados transacionais
X
Dados analíticos
X
Tabela comparativa de atividades e dicionários de dados
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Um dos primeiros problemas sentidos pelos profissionais quando iniciam os processos de Data Analytics (não só no Brasil) é a falta de ferramentas, tanto conceituais como também de sistemas para esse propósito.
O objetivo desse artigo é apresentar as funções do dicionário de dados para data analytics, que consideramos ser um dos elementos mais importantes, simples e que mais fazem falta no dia a dia do trabalho de análise de datasets analíticos (o que são datasets?).
Ao final, disponibilizamos um modelo de dicionário de dados em formato Excel, para uso na prática em quaisquer áreas de negócio.
O que é Dicionário de Dados?
Um dicionário de dados de data analytics é um documento de texto ou planilha que centraliza informações sobre o conjunto de dados (dataset) sob análise dos cientistas de dados. Seu propósito é melhorar a comunicação entre todos os envolvidos no projeto de Data Analytics.
Segundo a IBM, um dicionário de dados:
“é um repositório centralizado com informações sobre os dados, tais como: significado, relacionamentos, origem, uso e formatos”
Sendo assim, de forma mais técnica, podemos resumir que:
o dicionário de dados é um repositório (documento) que descreve, de forma estruturada, o significado, origem, relacionamento e uso dos dados.
Importância da Dicionarização
As pessoas nem sempre percebem, mas elementos como postura, entonação, gestos, velocidade, apresentação do texto, entre outros, também transmitem informações que são utilizadas, mesmo que inconscientemente, para contextualizar e interpretar a informação.
Quando transformamos a informação em dados, para serem armazenados em uma base de dados, planilhas, etc, para reutilizar em outro momento por outras pessoas e/ou sistemas, muito dessa informação contextual, essencial para compreensão, é perdida. Portanto:
A qualidade da comunicação influencia diretamente na qualidade dos insights das análises.
O dicionário de dados serve como um ponto de partida, de comum acordo, objetivo e sem ambiguidades, a partir do qual é possível se reconstruir o contexto em que a informação foi coletada, melhorando significativamente a qualidade das análises de dados construídas a partir dos dados coletados.
“É muito raro um cientista de dados receber os dados do seu cliente como o dicionário já anexado” (Joni Hoppen)
Dicionarização para formação da Cultura de Data Analytics
O processo de dicionarização é a base da formação da cultura dos povos.
É algo tão importante para a manutenção e continuação das línguas e da comunicação dos povos, que as línguas não dicionarizadas – aquelas passadas dos pais para os filhos de forma oralizada – estão sendo extintas.
De forma paralela, a dicionarização é fundamental para a manutenção e evolução dos níveis de maturidade de Data Analytics dentro das organizaçõe. Ou seja, em nosso ponto de vista, é um processo ainda um processo bastante oralizado. Mais detalhes sobre níveis de maturidade de data analytics nesta página
O processo de dicionarização de dados é um dos passos iniciais na estruturação de projetos de analytics que vai até a materialização de organizações mais complexas como os escritórios de dados, pois é ele que permite manter a homogeneidade do conhecimento dos dados entre os envolvidos em um projeto de Analytics.
A ideia de dicionário de dados não é nova, principalmente para gestores de bancos de dados relacionais e programadores. No entanto, a novidade, é a necessidade recente de dicionários menos técnicos e voltados para o compartilhamento de conhecimento entre outros grupos de profissionais com o perfil de cientistas de dados, analistas de negócios e gestores.
Problema típico da dicionarização
O leitor já se deparou com alguém fazendo a seguinte colocação (ou talvez o próprio leitor tenha tido essa experiência) :
“Consegui uma planilha (conjunto de dados, banco de dados ou dataset) do departamento X mas não entendo o que significa cada uma das colunas e linhas… Tenho que ligar lá toda vez para saber.”
Problemas de comunicação pela falta de compartilhamento de significados.
Assim como um dicionário idiomático que explica a origem das palavras, seus significados e sinônimos, um dicionário de dados organiza o conhecimento necessário a respeito dos dados, onde são coletados, suas características, funções e etc.
Impactos da falta de um dicionário de dados para analytics
Uma das maneiras mais intuitivas e menos talvez eficientes de se explorar o valor de data analytics é:
“Te mando uma planilha aí e você vê o que acha”.
Para este problema há pelo menos 4 pontos chaves de alto risco para a análise:
Falta de Orientação de negócio: Desta forma não há uma orientação das regras implícitas do negócio que geram os dados da planilha. (Data Analytics só gera valor quando resolve um problema prático).
Novos Datasets: Todo dataset (conjunto de dados) é diferente: Os dados sempre chegam diferentes, seja no conteúdo da planilha como nas estrutura do número de linhas e colunas. Isso obriga o analista a executar processos de higienização e transformação dos dados, processo que demanda mais de 80% do tempo total de uma análise.
Demora de interpretação e ruído: O analista terá que questionar diversas vezes o dono do dataset sobre o significado de cada uma das linhas e colunas, e mesmo assim isso não garante que o entendimento seja completo até as conclusões da análise.
Desintegração em hierarquias verticais e horizontais: Dentro de organizações, sobre tudo as mais tradicionais, há níveis hierárquicos de responsabilidade (vertical) e diversos setores(horizontal). Assim, é inevitável o aparecimento de vocabulários diferentes. Data Analytics prevê a necessidade de uniformização dessas estruturadas para que a comunicação aconteça com o menor desnível possível de vocábulos.
Recomendações práticas
Faça o versionamento dos dicionários e mantenha-os atualizados com alguém responsável pela gestão do documento. O fato de existir pessoas trabalhando com versões diferentes do mesmo dicionário pode causar ruído. Quanto menos ruído na comunicação melhor.
Tenha um repositório acessível por todos os analistas, pois o nível da cultura de data analytics só aumenta quando todos os indivíduos estão cientes dos significados dos processos baseados em dados e este significado é compartilhado.
Tenha um dicionário para cada conjunto de dados e que este obedeça uma padronização mínima dentro do setor ou organização.
Simplifique ao máximo o nome dos termos (nomes das colunas). Utilize nomes curtos, sem espaços, sem acentos (Espaços e acentos geram problemas técnicos nos diversos sistemas) e que sejam intuitivos, para que seus colegas de trabalho possam entender os dados o mais facilmente possível. Evite jargões técnicos.
Quando compartilhar dados, tenha o costume de enviar os dicionários junto (essa é a recomendação mais importante).
Download do modelo de dicionário de dados
O dicionário de dados pode ser desenvolvido em alguma ferramenta de planilha eletrônica, como Excel, Calc, Google Sheets, entre outros.
Um dos pontos mais importantes, já mencionado, é que o arquivo do dicionário esteja acessível (de forma rápida e prática) a que todos os envolvidos em um projeto de Data Analytics.
É uma boa ideia compartilhar os dicionários de dados em alguma plataforma de compartilhamento de planilhas eletrônicas na nuvem via Google Sheets ou Excel online
Desenvolvemos um modelo de dicionário de dados, que pode ser baixado pelo link a seguir:
No modelo de dicionário de dados, os campos a serem preenchidos são os seguintes:
Variável: nome da variável, como consta no dataset. Normalmente estes nomes são curtos, sem acentos e nem sempre são autoexplicativos.
Descrição: o que significa a variável e como ela se relaciona com outras variáveis do dataset. Se houver regras de negócio importantes atreladas ao dado, elas devem estar descritas aqui.
Papel na análise: é importante definir se a variável é de identificação (ID), se é a variável resposta (variável dependente, cuja explicação ou predição está sendo buscada na análise), ou se é uma variável explicativa (variável independente, cujo comportamento contém informações acerca da variável resposta).
Texto: são campos de texto aberto, como feedbacks de clientes ou campos de descrição.
Variável no tempo da análise: é preciso definir o aspecto temporal das variáveis em relação à variável resposta (pré análise, pós, durante, ou atemporal). Isso é muito importante para eliminar variáveis que não serão úteis para a resposta que se deseja obter.
Quantidade de níveis: nas variáveis categóricas e escalares existem níveis. É importante definir os níveis existentes em cada variável para que o analista possa ter uma noção do processamento de máquina que será exigido na hora de rodar os modelos analíticos.
O modelo de dicionário de dados do link acima segue as dicas de tornar tabelas de Excel muito mais apresentáveis que mostramos neste artigo!
O futuro dos dicionários de dados
Atualmente o grande desafio da computação de ponta é a automação do processo de descoberta de insights utilizando a inteligência artificial.
Neste caminho, um dos principais dilemas em análise de dados é descobrir o significado dos dados e assim raciocinar sobre problemas de negócio complexos. Assim, a base desse processo, seja ele feito por pessoas ou por máquinas é a dicionarização.
Abaixo recomendamos a leitura de dois artigos voltados para esse tema que desmistificam um pouco o futuro dos dicionários de dados sendo interpretados não apenas por analistas mas também pelas próprias máquinas:
Utilização da semântica para integração automática dos significados dos conceitos (Leia mais sobre este tópico neste artigo: Dos dados à inovação)
Associar as informações para resolver problemas de negócio, web semântica/web3.0 (Entenda melhor lendo este artigo).
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Doutor e Mestre em Finanças pela Universidade Federal de Santa Catarina – Brasil. Pesquisador em finanças / economia comportamental e mercado de capitais. Atualmente Data Scientist aplicando estratégias de aprendizado de máquina em problemas de negócios de grandes organizações no Brasil e no exterior.
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
Data mining ou mineração de dados é a prática de examinar dados que já foram coletados por meio da utilização de diversos tipos de algoritmos. Normalmente, isso acontece de forma automática a fim de gerar novas informações e encontrar padrões. Veja em mais detalhes neste artigo o que é data mining, e como a mineração de dados se coloca diante de temas mais recentes como o Advanced Analytics e a Indústria 4.0.
Na prática, como funciona a mineração de dados?
Minerar dados é um processo de transformar dados em informações úteis (dados mais valiosos a partir de dados complexos). Então, para atingir esse objetivo, realizam-se alguns passos, como: encontrar padrões, associações e anomalias gerais nos dados.
É importante ressaltar que em data mining não importa a forma de coleta dos dados, se via banco de dados, web scraping, API`s, por exemplo.
Data mining: seu surgimento e a economia da informação
O data mining surgiu com a emersão da economia da informação, que por sua vez representa a informação sendo utilizada como mercadoria e como bem de produção.
Uma das primeiras aparições do termo “economia da informação” no mundo científico foi em 1986, com Bruce Greenwald e com o ganhador do Nobel de economia, Joseph Stiglitz. Nesse contexto, os acadêmicos argumentam que as pessoas não possuem acesso a todas informações disponíveis, tornando assim os mercados imperfeitos.
Esse foi, na época, um argumento distante da premissa econômica até então dominante que afirmava que a mesma informação era acessível a todos. Sendo assim, a informação passou a ser vista como um diferencial, como uma forma de extrair insights para melhorar as decisões gerenciais no âmbito corporativo.
Na economia da informação, praticamente todas as transações e operações realizadas por pessoas e empresas no dia a dia geram algum tipo de dados. Data mining entra nesse contexto com a aplicação de equações matemáticas e métodos estatísticos. Eles vão desde o uso de uma regressão logística até redes neurais, deep learning, análise de clustering (agrupamentos) e classificações automáticas.
Uma das primeiras soluções focadas em data mining, para fins de exemplificação, foi o software Weka. O Weka, criado em 1993 e mantido até os dias atuais, é uma rica coleção de algoritmos de machine learning e data mining. O propósito do software em sua concepção foi permitir que o usuário não precisasse conhecer linguagens de programação para fazer o pré-processamento dos dados (organizá-los) e assim aplicar diversos algoritmos prontos em seus próprios dados.
Data mining na Indústria 4.0
Mais do que a economia da informação, hoje vivemos em uma transição econômica como um todo para a indústria 4.0.
A Indústria 4.0 caracteriza-se por serviços concebidos e produzidos de forma descentralizada, com forte apoio de Advanced Analytics, Inteligência Artificial (a máquina com capacidade de aprender) e Inteligência Coletiva (as pessoas, coletivamente, cooperando para que as máquinas aprendam). Esse processo teve seu início com o boom da internet no começo dos anos 2000.
Na Indústria 4.0, os smartphones, por exemplo, permitem tanto a Inteligência Artificial quanto a Inteligência Coletiva fazerem parte das decisões do dia a dia das pessoas. Assim, gera-se uma imensidão de dados, e cada vez em maior quantidade.
Nesse contexto, a mineração de dados é a base para uma integração com métodos mais avançados, que envolvem desde as ferramentas mais básicas, como regressões e árvores de decisão, até modelagens mais complexas com elevado nível de otimização de análise, utilizando também métodos de aprendizagem de máquina, big data, entre outros. Nesses casos, o propósito costuma ser análises preditivas e prescritivas, que conduzem os indivíduos a tomarem suas decisões de forma mais rápida, automatizada e otimizada.
Como aplicar data mining em um ambiente de negócio?
Na mineração de dados, o que gera valor de fato é o conjunto de ações que são tomadas a partir dos processamentos dos dados. Por isso, é preciso saber onde aplicar as técnicas e quais ferramentas de mineração são mais adequadas para cada caso, dando vida a um novo perfil de profissionais chamada Cientista de Dados
Então, onde se aplica data mining? Sempre que existirem processos definidos têm-se dados. Usa-se a mineração de dados no momento em que esgotam-se as alternativas iniciais de análise, como análises a “olho nu”, com planilhas de dinâmicas ou ainda com o uso de estatística descritiva, entre outros.
Veja a seguir uma lista de exemplos práticos da aplicação da mineração de dados em ambientes de negócio, que conduzem a melhorias das decisões gerenciais e estratégicas:
1. Dados gerados internamente nas organizações
Dados transacionais ou extraídos de sistemas em geral da organização podem ser tratados e minerados. Por exemplo: dados de CRM, ERP, softwares de marketing digital, plataformas de monitoramento de websites (como o Google Analytics), e-commerce, supply-chain, dados de logística, entre outras inúmeras áreas de negócios.
2. Dados sociais
Dados que estão sempre crescendo e descrevem pessoas: quem são, onde estão, que serviços e produtos estão usando. Usar esses dados para fins de negócios é a maneira como a economia da informação funciona. Isso é um dos grandes motores no advento da indústria 4.0.
3. Área da saúde
A mineração de dados possui diversas aplicações na área da saúde. Por exemplo, Aquarela, juntamente com a Prefeitura de Vitória/ES, minerou e analisou dados de faltas em agendamentos médicos. Após as análises, tomaram-se decisões estratégicas que reduziram as faltas em agendamentos de cerca de 30% para aproximadamente 15%. Assim, gerou-se uma economia milionária aos cofres públicos.Veja o case em detalhes.
4. Obras públicas
Com a tendência de transparência pública no Brasil, cada vez mais dados públicos têm sido disponibilizados gratuitamente via web. Isso viabiliza a realização de análises que podem levar à população um poder extra de monitoramento de como o dinheiro público tem sido utilizado.
Como case de exemplo, a SEFAZ/SC e a Aquarela Advanced Analytics utilizaram técnicas avançadas de análise de dados para a descoberta de padrões de obras públicas do estado de Santa Catarina, tornando-as assim acessíveis à população, em complemento ao portal da transparência do governo. Veja neste post os resultados das análises.
5. Capital de risco em empresas de base tecnológica
Diante de uma grande diversidade de startups surgindo e também de fundos de investimento em venture capital e capital de risco, técnicas de data mining podem auxiliar a encontrar as melhores startups focadas em dados de fundos de investimentos. Além disso, podem dar uma visão às startups de quais fundos de investimentos são mais propensos a se tornarem investidores.
Em mais um case, a Aquarela analisou as características de startups unicórnios (com valor de mercado superior a U$ 1 bi.), cruzando os dados com seus respectivos fundos investidores. Entre as perguntas-chave estava identificar padrões e clusters nas empresas unicórnios e comparar as variáveis das empresas com as rodadas de investimentos que receberam de fundos de capital de risco.
Mineração de dados é um processo cujo fim é gerar informações a partir de dados em que são utilizadas diversas ferramentas e métodos. Ou seja, não há “receita de bolo” para trabalhar com data mining. Cada caso é único, por isso demanda profissionais com grande capacidade criativa para definição dos modelos.
Data mining é um termo antigo, levando em conta o grande dinamismo do mundo da tecnologia. Com o passar do tempo, também surgiram diversos outros termos que podem gerar confusões. Por isso, veja o artigo em que tratamos sobre as diferenças entre BI, data mining e big data.
Por fim, a forma de extrair informações estratégicas a partir dos dados representa o que é data mining. Mas, de forma mais ampla, surge o Advanced Analytics, em que a mineração de dados é parte de um processo que envolve desde o desenvolvimento da cultura de Analytics nas empresas até a construção de análises e sistemas preditivos e prescritivos com uso de IA.
Doutor e Mestre em Finanças pela Universidade Federal de Santa Catarina – Brasil. Pesquisador em finanças / economia comportamental e mercado de capitais. Atualmente Data Scientist aplicando estratégias de aprendizado de máquina em problemas de negócios de grandes organizações no Brasil e no exterior.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
O setor de alimentos e a segurança alimentar são uma preocupação global e o Brasil é um dos principais responsáveis pela demanda mundial de alimentos (Estadão). Nesse sentido, quais os principais desafios relacionados à gestão de dados para a otimização da eficiência operacional do Brasil no setor alimentício/agronegócio que hoje representa 21% do PIB do Brasil?
Este artigo aborda o tema com o viés da experiência da Aquarela em projetos de Advanced Analytics e de Inteligência Artificial realizados em grandes operações no Brasil. O risco da falta de informações é tão relevante como o seu excesso e a falta de análise, podendo impactar a eficiência da cadeia logística do setor como um todo.
Abaixo, elaboramos alguns destes principais riscos.
Caracterização do setor de alimentos
O setor de alimentos é bastante variado devido à grande extensão da cadeia produtiva, que vai desde os insumos agrícolas, a industrialização, logística do transporte até a comercialização nos mercados consumidores e por fim o consumidor final.
Como características fundamentais, o setor de alimentos está diretamente ligado a fatores que podem ter grande variabilidade e pouco controle, tais como:
Clima (temperatura, volume de água, luminosidade e outros);
Fatores econômicos, como flutuações de moeda;
Infraestrutura;
Demanda do mercado interno/externo.
Além desses fatores, abaixo elencamos alguns relacionados à gestão dos dados. Também mostramos como eles, se bem organizados, podem ajudar a mitigar os efeitos das variáveis não controláveis da cadeia de suprimentos de alimentos.
01 – Incompletude das informações
A cadeia de suprimentos é bastante grande. Isso torna os dados complexos e de difícil interpretação devido às diferentes fases de cada processo, cultura e região. Além disso, faz com que muitas decisões importantes de planejamento ocorram com bastante limitação informacional e alto risco. Em outras palavras, as decisões são tomadas sem uma visão do cenário completo da cadeia, seguindo, em grande parte, a intuição dos gestores.
A falta de informação de qualidade é um grande risco. Se hoje faltam dados, imaginem como era o cenário há 10 ou 20 anos.
Nos últimos anos, o campo, a indústria e o varejo têm mostrado grandes avanços em seus processos de informatização com diversas soluções de rastreabilidade. Com a evolução das tecnologias da indústria 4.0 (IOT e o 5G) nos próximos anos, é provável que o mercado de alimentos, desde o setor agrícola e industrial até o comercial, detenham informações mais completas para tomada de decisão do que as que estão estão disponíveis hoje.
02 – Dados de várias fontes
Se os dados estão se tornando cada vez mais presentes com o desenvolvimento da informatização e comunicação, então o próximo problema é tentar analisar dados em fontes múltiplas e desconexas.
Diferentes dados são frequentemente armazenados em diferentes sistemas, levando assim a análises incompletas ou imprecisas. Combinar dados manualmente para formar dataset (o que são datasets?) de análise é um trabalho bastante pesado e demorado e pode limitar as percepções da realidade das operações.
O que se busca é a construção de Data Lakes aderentes ao tipo de gestão para democratizar o acesso aos dados por profissionais do mercado, otimizando desse modo suas atividades com soluções de analytics cada vez mais poderosas. Isso não apenas libera tempo gasto no acesso a fontes múltiplas, como também permite comparações cruzadas e garante que os dados sejam completos.
03 – Dados de baixa qualidade
Ter dados incorretos pode ser tão ou mais prejudicial do que não tê-los. Nada é mais prejudicial à análise de dados do que dados imprecisos, principalmente se a ideia é utilizar as práticas de ciência de dados e machine learning. Sem uma boa entrada, a saída não será confiável.
Uma das principais causas de dados imprecisos são os erros manuais cometidos durante a entrada de dados, principalmente quando são informações coletadas de maneira manual. Outro problema são os dados assimétricos: quando as informações de um sistema não refletem as alterações feitas em outro sistema e assim o deixa desatualizado.
Os projetos de planejamento estratégico de analytics buscam mitigar e/ou eliminar esses problemas. Isso acontece a partir de processos sistemáticos de dicionarização de dados, levantamento de processos, funções, assim por diante. Abaixo, deixamos alguns artigos relacionados:
Algumas organizações e empresas, de um modo geral, não conseguem atingir melhores índices de eficiência nas operações, pois sofrem com a falta de talento na área de análise de dados. Em outras palavras, mesmo que a empresa detenha tecnologias e dados coerentes, ainda sim a mão de obra para executar as análises e os planos de ações conta muito no final do dia.
Esse desafio pode ser mitigado de três maneiras:
Desenvolver um stack tecnológico analítico sempre atualizado e aderente ao negócio e com materiais de capacitação atualizados.
Adicionar as competências analíticas no processo de contratação. Além disso, investir na capacitação constante da equipe sobre as novas tecnologias de dados relacionadas ao stack tecnológico da operação.
Utilizar a terceirização de analytics para aceleração do processo. Neste artigo, por exemplo, elencamos os principais aspectos a serem considerados para definir a escolha de um bom fornecedor.
05 – Personalização de valores e as características de produto no setor de alimentos
Embora, segundo a Embrapa, cerca de 75% de todo setor alimentício mundial esteja baseado em apenas 12 tipos de plantas e 5 tipos de animais, são milhares de produtos diferentes, comercializados de múltiplas maneiras, preços e prazos no mercado consumidor final.
Apenas como exemplo, na área de proteína animal, o processo de comercialização da carne de gado exige investimentos, infraestrutura, prazos e processos bastante diferentes do que seria para a produção da carne suína ou mesmo a de frango.
Já que os processos são diferentes, os dados gerados pela cadeia de produção também se tornam distintos, exigindo personalizações nos sistemas de informação e bancos de dados. Como consequência, há alterações em modelos de:
A recomendação é a parametrização dos sistemas com base em classificações mais comuns no mercado e foco nos produtos mais importantes do ponto de vista estratégico (margem de contribuição, volume ou preço de vendas).
5 desafios reais de dados no setor de alimentos – Considerações finais
Neste artigo, fizemos um apanhado de alguns pontos relevantes sobre os desafios reais de dados na área de alimentos, setor que o Brasil desponta como um dos principais atores globais.
Trata-se de uma área complexa com diversos fatores de risco e grandes oportunidades de otimização com o uso cada vez mais intensivo de dados. Anteriormente, escrevemos um artigo relacionado às estratégias de dados para a comercialização de energia e que em partes tem os mesmos desafios ligados à tomada de decisão no setor alimentício.
Nós, na Aquarela Analytics, trabalhamos constantemente com estes desafios de tornar o complexo algo simples e com mitigação de riscos. Por isso, se ficar com dúvidas, entre em contato conosco!
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Qualidade de dados tem sido um dos temas mais abordados nos projetos de estruturação em data analytics, sendo um dos principais indicadores do nível de maturidade das organizações.
Nossa percepção ao longo dos últimos 10 anos atuando em diferentes setores, é que a Qualidade de Dados é sem dúvida um dos principais fatores ligados ao sucesso ou fracasso dos projetos.
Embora a baixa qualidade dos dados afete negativamente o Analytics, destacamos que o contrário – possuir dados de alta qualidade – não é garantia de impactos positivos, pois sucesso de um projeto ainda depende de uma estratégia de negócio adequada, alinhada a uma metodologia de trabalho.
Neste artigo, sugerimos algumas métricas para avaliar seus próprios dados e priorizar suas análises.
Mas antes de começarmos, vale deixar um tópico claro:
O que é o índice de qualidade de dados.
O Índice de Qualidade de Dados (IQD) é a composição de diversas métricas (indicadores), que como o nome sugere, busca mensurar a qualidade dos dados analisados. O IQD deve ser empregado na priorização de decisões sobre a utilização de determinados conjuntos de dados (datasets) em projetos de análises de dados.
Quando bem ajustado pode informar, de forma assertiva, quais dados são mais ou menos adequados para análise e uso de inteligência artificial.
Completude
A completude é definida como o percentual de registros ou campos preenchidos.
Ex. Se 100 pessoas recebem um formulário e apenas 40 respondem completamente (completude de registro). Temos 40% de preenchimento.
Se destes 40 respondentes, 20 não preencheram alguma resposta temos 50% de completude do preenchimento do respectivo campo.
Case Aquarela: Já fizemos uso da Inteligência Artificial para ajudar o Governo do Estado de São Paulo (e seus 645 municípios) a melhorar a completude dos registros de óbito e nascimento nos sistemas DataSus Sim/SINASC.
No mapa abaixo, estão pontuados 397 municípios com mais de 30 nascimentos ocorridos durante um ano, junto ao Índice de Completude dividido em faixas:
Verde – alto completude
Amarelo – Média completude
Vermelho – Baixa completude
O IQD em conjunto com outros indicadores possibilitou a criação de um Sistema de Recomendação capaz de apontar quais Municípios, Profissionais de Saúde e partes do formulário tinham mais ou menos lacunas, o que resultou em novas e adequadas estratégias de treinamento, redução de custos e claro, aumento da performance do setor público.
Acurácia / Veracidade – Erro de observação
A acurácia e a veracidade avaliam o quão próximo ou distante está a informação da realidade. Ex. A temperatura de todos os pacientes está em 39 graus, será que todos podem estar com febre ao mesmo tempo? Será que é verdade?
Existem diversas formas de verificação, tais como; mudanças na técnica de amostragem (O que é amostragem), substituição dos sensores térmicos, validação da metodologia de captura, transferência de escalas e até uma boa revisão do dicionário de dados, para verificar se as unidades de medidas estão de acordo.
Já tivemos um caso onde a mensuração estava informada como metros cúbicos, porém na evolução das análises esse indicador apresentou resultados muito incoerentes.
Com mais algumas horas de investigação e diversas interações com os especialistas, descobrimos que aqueles números, na verdade, estavam falando de caixas e não metros cúbicos. Um bom analista deve ser desconfiado sempre.
Consistência
A consistência de um conjunto de dados está associada com vários aspectos, tais como:
Frequência dos preenchimentos;
Integração dos dados entre vários bancos de dados;
Mudanças nas fórmulas de cálculo ao longo de uma série;
O trabalho de verificação pode ser inicialmente manual, com uso intensivo de visualizações de dados e técnicas estatísticas como verificação de máximas, mínimas, médias, distribuições e assim por diante.
Para a consistência de dados, menos é mais, por isso sugerimos uma boa discussão entre as equipes de TI e negócios sobre a arquitetura dos bancos de dados durante conformação de datasets analíticos.
Em um projeto de pricing para educação, economizamos milhares de horas despendidas com as incoerências entre códigos antigos, novos e não informados. Pequenos ajustes que impactam grandes mudanças trazendo melhores resultados.
Validade
A validade está ligada ao formato dos dados esperados com os dados informados, mais ou menos um cara crachá que busca garantir que os dados estejam válidos em relação aos modelos adotados. Segue alguns exemplos de dados inválidos frequentes:
Ponto e Vírgula nas casas decimais no padrão Brasileiro (1.345,20) e no padrão americano (1,345.00).
Datas em diferentes formatos “12/janeiro/2020”, “12-01-2020”.
Codificação da tabela de acentos (encoding padrão UTF8, Latin-1 e outros tantos) incompatibilidades geram acentos estranhos (este tópico merece um artigo específico)
Já realizamos a organização de validade em bilhões de registros se contarmos todos os projetos que já atuamos, como principal recomendação, sempre busque garantir a validade dos dados na origem, se ele for capturado inválido é muito mais trabalhoso.
Conclusões
Neste artigo apresentamos 4 indicadores/métricas de qualidade de dados com exemplos práticos de cases já vivenciados.
O conjunto das métricas pode ser utilizado para criar um índice de qualidade de dados, por setor ou departamento da empresa, sendo muito útil na evolução da maturidade de analytics nestes ambientes.
Vale notar que algoritmos de inteligência artificial não se restringem somente a análises preditivas e prescritivas. Eles podem auxiliar na melhoria dos indicadores, detecção outliers e automação de processos de higienização de dados brutos, por exemplo.
Vemos que sistemas e práticas de manutenção de métricas são ainda pouco cultivadas, mas devem ganhar força e forma com o movimento e intensificação da digitalização da economia e crescimento da área de data analytics nas empresas. Isso certamente poderá auxiliar na garantia da qualidade da informação dos processos de negócio existentes.
Trabalhamos com grandes corporações e sempre buscamos utilizar técnicas de tecnologias de analytics de forma prudente, seguindo os conceitos aqui abordados.
Estamos a disposição para dúvidas ou sugestões sobre o tema.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Mestre em Engenharia de Produção com graduação em Engenharia de Transportes e Logística. Durante o mestrado, se aprofundou nas áreas de macrologística e economia regional, e desenvolveu pesquisas nas áreas de logística reversa, relocalização de cadeias produtivas, terceirização logística e pesquisa operacional.