Qualidade de dados tem sido um dos temas mais abordados nos projetos de estruturação em data analytics, sendo um dos principais indicadores do nível de maturidade das organizações. Nossa percepção ao longo dos últimos 10 anos atuando em diferentes setores, é que a Qualidade de Dados é sem dúvida um dos principais fatores ligados ao sucesso ou fracasso dos projetos. 

Embora a baixa qualidade dos dados afete negativamente o Analytics,  destacamos que o contrário – possuir dados de alta qualidade – não é garantia de impactos positivos, pois sucesso de um projeto ainda depende de uma estratégia de negócio adequada, alinhada a uma metodologia de trabalho. Neste artigo, sugerimos algumas métricas para avaliar seus próprios dados e priorizar suas análises.

Mas antes de começarmos, vale deixar um tópico claro:

O que é o índice de qualidade de dados.

O Índice de Qualidade de Dados (IQD) é a composição de diversas métricas (indicadores), que como o nome sugere, busca mensurar a qualidade dos dados analisados. O IQD deve ser empregado na priorização de decisões sobre a utilização de determinados conjuntos de dados (datasets) em projetos de análises de dados. 

Quando bem ajustado pode informar, de forma assertiva, quais dados são mais ou menos adequados para análise e uso de inteligência artificial.

Completude 

A completude é definida como o percentual de registros ou campos preenchidos. 

Ex. Se 100 pessoas recebem um formulário e apenas 40 respondem completamente (completude de registro). Temos 40% de preenchimento. 

Se destes 40 respondentes, 20 não preencheram alguma resposta temos 50% de completude do preenchimento do respectivo campo.

Case Aquarela: Já fizemos uso da Inteligência Artificial para ajudar o Governo do Estado de São Paulo (e seus 645 municípios) a melhorar a completude dos registros de óbito e nascimento nos sistemas DataSus Sim/SINASC.

No mapa abaixo, estão pontuados 397 municípios com mais de 30 nascimentos ocorridos durante um ano, junto ao Índice de Completude dividido em faixas:

  • Verde – alto completude
  • Amarelo – Média completude
  • Vermelho – Baixa completude

O  IQD em conjunto com outros indicadores possibilitou a criação de um Sistema de Recomendação capaz de apontar quais Municípios, Profissionais de Saúde e partes do formulário tinham mais ou menos lacunas, o que resultou em novas e adequadas estratégias de treinamento, redução de custos e claro, aumento da performance do setor público.

Acurácia / Veracidade – Erro de observação

A acurácia e a veracidade avaliam o quão próximo ou distante está a informação da realidade. Ex. A temperatura de todos os pacientes está em 39 graus, será que todos podem estar com febre ao mesmo tempo? Será que é verdade?

Existem diversas formas de verificação, tais como; mudanças na técnica de amostragem (O que é amostragem), substituição dos sensores térmicos, validação da metodologia de captura, transferência de escalas e até uma boa revisão do dicionário de dados, para verificar se as unidades de medidas estão de acordo. 

Já tivemos um caso onde a mensuração estava informada como metros cúbicos, porém na evolução das análises esse indicador apresentou resultados muito incoerentes. Com mais algumas horas de investigação e diversas interações com os especialistas, descobrimos que aqueles números, na verdade, estavam falando de caixas e não metros cúbicos. Um bom analista deve ser desconfiado sempre. 

Consistência

A consistência de um conjunto de dados está associada com vários aspectos, tais como: 

  • Frequência dos preenchimentos;
  • Integração dos dados entre vários bancos de dados;
  • Mudanças nas fórmulas de cálculo ao longo de uma série;
  • Duplicidades ou falta de registros;
  • Presença de outliers (o que são outliers e como tratá los?).

O trabalho de verificação pode ser inicialmente manual, com uso intensivo de visualizações de dados e técnicas estatísticas como verificação de máximas, mínimas, médias, distribuições e assim por diante. 

Para a consistência de dados, menos é mais, por isso sugerimos uma boa discussão entre as equipes de TI e negócios sobre a arquitetura dos bancos de dados durante conformação de datasets analíticos

Em um projeto de pricing para educação, economizamos milhares de horas despendidas com as incoerências entre códigos antigos, novos e não informados. Pequenos ajustes que impactam grandes mudanças trazendo melhores resultados. 

Validade

A validade está ligada ao formato dos dados esperados com os dados informados, mais ou menos um cara crachá que busca garantir que os dados estejam válidos em relação aos modelos adotados. Segue alguns exemplos de dados inválidos frequentes: 

  • Ponto e Vírgula nas casas decimais no padrão Brasileiro (1.345,20) e no padrão americano (1,345.00). 
  • Datas em diferentes formatos “12/janeiro/2020”, “12-01-2020”.
  • Codificação da tabela de acentos (encoding padrão UTF8, Latin-1 e outros tantos) incompatibilidades geram acentos estranhos  (este tópico merece um artigo específico) 

Já realizamos a organização de validade em bilhões de registros se contarmos todos os projetos que já atuamos, como principal recomendação, sempre busque garantir a validade dos dados na origem, se ele for capturado inválido é muito mais trabalhoso.

Conclusões

Neste artigo apresentamos 4 indicadores/métricas de qualidade de dados com exemplos práticos de cases já vivenciados. O conjunto das métricas pode ser utilizado para criar um índice de qualidade de dados, por setor ou departamento da empresa, sendo muito útil na evolução da maturidade de analytics nestes ambientes. 

Vale notar que algoritmos de inteligência artificial não se restringem somente a análises preditivas e prescritivas. Eles podem auxiliar na melhoria dos indicadores, detecção outliers e automação de processos de higienização de dados brutos, por exemplo.  

Vemos que sistemas e práticas de manutenção de métricas são ainda pouco cultivadas, mas devem ganhar força e forma com o movimento e intensificação da digitalização da economia e crescimento da área de data analytics nas empresas. Isso certamente poderá auxiliar na garantia da qualidade da informação dos processos de negócio existentes.  

Trabalhamos com grandes corporações e sempre buscamos utilizar técnicas de tecnologias de analytics de forma prudente, seguindo os conceitos aqui abordados. Estamos a disposição para dúvidas ou sugestões sobre o tema.