Os datasets (ou conjuntos de dados) são o principal insumo dos processos de análise de dados. Eles são representados por dados tabulares em formato de planilha onde as linhas são os registros dos acontecimentos e as colunas são as características desses acontecimentos. Para que um dataset seja analisado por sistemas de análise é obrigatório que este tenha um formato retangular ou quadrado, não permitindo que haja valores em outras partes da planilha. Também não são aceitos valores em planilhas em sub-abas.

Neste artigo detalhamos, com base em nossa experiência prática com análise de dados e em nossos cursos de capacitação no Brasil, nossa visão sobre o conceito de datasets e sua posição pivotal no processo de Data Analytics e no processo de transformação digital rumo a gestão da indústria 4.0.

Abaixo seguem mais detalhes importantes sobre o conceito.

Porque dataset e não conjunto de dados?

Os datasets formam a base de qualquer análise de dados de alto nível. No Brasil o termo mais utilizado para ele é “conjunto de dados”, porém este conceito pode gerar dúvidas porque é mais abrangente do que a ideia de dataset para analytics. Se por um lado um conjunto de dados pode ser representado por diversas planilhas,  bancos de dados e assim por diante, o dataset é mais específico, auto-contido (todas as informações já estão presentes na tabela única, em contraste aos bancos de dados relacionais), não possui formatações nos dados e deve ter o formato retangular e possuem um cabeçalho com os nomes bem definidos para cada coluna.  

Outros termos usados no dia a dia de análise, são:

  • Planilha integrada;
  • Flatfile (termo técnico antigo);
  • Tabelão;
  • Data Warehouse (sistema);
  • Dados tabulados;
  • Planilha de dados ou “Planilhona”

É muito comum ouvir os times negociando a exportação da planilha mais ou menos da seguinte forma.

“Avisa o pessoal da informática para montar esse planilhão e nos encaminhar depois? “

Exemplos de conjuntos de dados não organizados em formato de Dataset.

Exemplo de Análise de Equilíbrio - os dados estão organizados, mas não em forma de dataset

Exemplo de Análise de Equilíbrio – os dados estão organizados, mas não em forma de dataset

 

Exemplo de Relatório Financeiro Anual - os dados estão organizados, mas não em forma de dataset

Exemplo de Relatório Financeiro Anual – os dados estão organizados, mas não em forma de dataset

Agora mostramos os mesmos conjuntos, mas formatados para serem um dataset:

Exemplo de Análise de Equilíbrio - formatado para ser um dataset

Exemplo de Análise de Equilíbrio – formatado para ser um dataset

 

Exemplo de Relatório Financeiro Anual - Formatado para ser um dataset

Exemplo de Relatório Financeiro Anual – Formatado para ser um dataset

Formatos mais comuns para salvar Datasets

Os datasets devem ser salvos de alguma forma e abaixo relacionamos os tipos de arquivos mais comuns:

  • Documentos Excel com extensão .XLS que permite um máximo 65 mil linhas e o formato mais novo .XLSX que vai até milhão de linhas. Mais detalhes sobre este tipo de arquivo em aqui 
  • Documentos em formato .CSV  . O CSV é a sigla do inglês (comma separated values) valores separados por vírgula é o principal tipo de arquivo para salvar datasets por ser um dos formatos mais comuns de exportação de sistemas transacionais como ERPs, CRMs e SCMs. Um dos pontos mais importantes é que não possui uma limitação específica para o número máximo de linhas dependendo então da capacidade de memória e disco do computador. Este tipo de arquivo não salva ou transfere as formatações ou cálculos nas células, somente os dados brutos de forma tabular ou tabelada. Pode ser importado e exportado por praticamente todos os sistemas analíticos de mercado. No Brasil, o padrão conflita com a vírgula decimal por isso é comum que sejam salvos com a separação por “ponto e vírgula”.
  • Arquivo .TSV, segue praticamente todas as características do .csv porém ao invés de utilizar a vírgula como separador entre os valores, ele utiliza o TAB. Abaixo um exemplo. Duas vantagens em relação ao formato .CSV é a diminuição dos riscos de importação no idioma português que utiliza a vírgula como separador decimal dos números e também tem uma legibilidade mais amigável quando aberto em um simples editor de texto.

Codificação de caracteres (encoding)

A codificação de caracteres, o dialeto de comunicação entre os computadores, é um problema bastante recorrente, percebido após a importação quando se lê palavras com acentos. Quem nunca viu caracteres estranhos como estes?

O padrão mais aceito entre os sistemas é o UTF-8. Este aceita praticamente todos os acentos de diversas línguas e é um dos mais usados no mundo de sistemas livre, open source e o qual nós recomendamos adotar como padrão. Caso a base dos sistemas da organização Microsoft, pode existir diversos padrões como o ISO-8859-1. 

Abaixo está a configuração do dialeto do dataset ao abrir um arquivo formato .csv com o sistema de planilha LibreOffice. A função de pré-visualização serve como guia para verificar se os formatos estão corretos.

Veja como ficam o texto “unidade de Saúde Maria Ortiz” quando se utiliza o encoding ISO-8859-1.

exemplo de encoding ISO-8859-1

exemplo de encoding ISO-8859-1

exemplo 2 de encoding ISO-8859-1

exemplo 2 de encoding ISO-8859-1

 

Independente de qual seja o padrão de encoding adotado pela organização, é fundamental que os times de analistas sejam capazes de fazer os devidos tratamentos de enconding para evitar erros graves de análise como por exemplo calcular o número de pacientes de São Paulo separadamente dos pacientes onde o nome do município ficou sem acento ou com caracteres estranhos.

Como recortar ou gerar um amostragem?

Na formação dos datasets, uma dúvida comum e que faz parte do cotidiano de cientistas de dados é a decisão pelas formas de se reduzir o dataset para acelerar ou dar foco para a análise. Neste artigo – Amostragem ou recorte de dados , explicamos com mais detalhes e tentamos reduzir a ambiguidade desta tarefa.

Como enriquecer datasets?

Para que os datasets sejam enriquecidos com o cruzamento de dados de outros datasets, é necessário definir qual coluna terá as informações de identificação das linhas.

Exemplo: Para adicionar a temperatura do dia de uma cidade, precisamos da coluna da data nos dois datasets, para que então a temperatura da outra base seja anexada. A questão de enriquecimento de datasets é extensa e vamos falar disso em breve.

Quais ferramentas existem para lidar com datasets?

Esta lista não pretende ser exaustiva, porém mostra algumas ferramentas bastante úteis no trato dos dados. O mais importante é utilizar a ferramenta mais adequada para cada contexto:

  • Microsoft Excel – É o sistema mais disseminado no mercado.
  • LibreOffice – É equivalente ao Excel porém gratuito e tem uma vantagem de ser mais fácil de configurar importações e exportações em formato .CSV.
  • Openrefine – Sistema feito para higienização de datasets.
  • Linguagens de programação:R, Python, Scala, Apach Spark , Java e outras.
  • Bancos de dados podem fazer diversas operações robustas, mas demandam conhecimentos técnicos avançados.  
  • Sistemas estatísticos e econométricos comerciais: SPSS (IBM), Minitab, Matlab, Stata, Eviews.

Na figura abaixo, fizemos um gráfico empírico para definir algumas destas ferramentas, de acordo com a facilidade de utilização e capacidade de processamento dos dados. Esta noção é fundamental para a estruturação da arquitetura de sistemas de informação voltada para análise.

Ferramentas para processamento de dados

Ferramentas para processamento de dados

Salvo as diversas vantagens ou limitações técnicas e comerciais de cada uma delas. A melhor ferramenta é a que traz os melhores resultados práticos. Nossa experiência com R foi relatada aqui  – Saindo do limitado excel para r ou python. Além disso, nesta outra publicação falamos sobre os sistemas operacionais e máquinas recomendadas para fazer análise de dados ( máquinas para análise de dados).

A qualidade de datasets

A conformação de bons datasets é um trabalho difícil, tanto do ponto de vista técnico (na escolha da melhor ferramenta) como também no ponto de vista conceitual para responder a seguinte pergunta – Quais dados vou adicionar? Quais respostas estes dados tabelados podem me trazer?

Datasets muito raramente (muito mesmo) são iguais, tanto que na prática ocorrem uma ou mais análises para cada dataset. No que tange a qualidade, isso depende da natureza dos dados e dos questionamentos atrelados a eles, contudo em linhas gerais bons datasets se caracterizam por uma boa proporção de variáveis  numéricas, categóricas, sem valores faltantes. Além disso, bons datasets devem:

  • Estar associados aos dicionários (veja um exemplo aqui) de dados que explicam detalhes de negócio e da natureza das informações(saiba mais aqui).
  • Nomes na colunas autoexplicativos, curtos, sem acentos e sem espaços ajudam muito tanto do ponto de vista de comunicação com o time como reduz drasticamente problemas incompatibilidade de padrões.  

Outliers, o que são e como tratá-los em uma análise de dados?

Onde encontrar datasets para análise?

Existem diversas fontes de datasets para estudo e análise, mas como elencado neste artigo, cada um possui um padrão e demandam abordagens relativamente diferentes e até ferramentas diferentes.

Fontes de Datasets

Na tabela abaixo estão algumas sugestões de fontes úteis de datasets. Caso tenham mais sugestões, deixe um comentário para ampliarmos.

Fonte Descrição
Dados Abertos Diversos Datasets em vários formatos com informações públicas em diversos níveis.
Data Viva O DataViva é uma plataforma de visualização de dados que confere valor aos dados públicos, com o objetivo principal de apoiar o planejamento econômico e social, bem como a busca por estratégias de diversificação da economia de determinada região. Dados da RAIS – Salários e Empregos, Comércio exterior (SECEX), ensino superior e ensino médio. O sistema oferece várias formas de visualização e até de download dos dados.
FRED Base do Federal Reserve Economic Data. Dados públicos sobre a economia de diversos países do mundo.
Banco Central Brasil Indicadores macroeconômicos
SEF – fazenda estadual Apresenta uma série de dataset relevantes para pesquisas, porém com grande variação de formatos e séries temporais limitadas. – Empresas com CNPJ, endereço, situação fiscal, certidão negativa de débito.
Receita federal Diversos conjuntos de dados ligados à arrecadação dos municípios.
FipeZap É uma parceria da Fipe com o portal Zap imóveis. Eles criaram um indicador de valorização dos imóveis mensal. São referência nacional.
Google Finance ETF de fundos imobiliários no Brasil.
Quandl Indicadores econômicos, dados banco central do Brasil, agrega informações IPCA, variação cambial e outros..
Google analytics do cliente Análise do perfil dos visitas do site da sua própria empresa. Grande variedade de indicadores. Necessita de alinhamento e um acompanhamento constante do time de marketing.
Cadastro CEPs do Brasil com geolocalização CEPs, Cidades do Brasil, Código IBGE dos Municípios, População Estimada dos Municípios, Endereços por CEP, Latitude e Longitude aproximada por CEP
InMet Busca por dados do tempo na região ao longo do tempo. Máximo de 365 dias anteriores ao dia da consulta. Atende a maioria dos municípios do Brasil.

Formação de datasets recorrentes.

Para que existam análises recorrentes, também é necessário que os datasets sejam atualizados constantemente. Como isso é possível materializar o conceito de BI definido neste artigo Diferenças entre BI.

Para que as análises possam ser recorrentes algumas destas perguntas devem ser feitas:

  • Qual o grão mínimo em que o dado será coletado? Ou seja, o que representará cada linha do dataset? Será uma consulta de cada paciente ou serão os resultados de uma operação a cada mês?
  • Quais são os padrões das fontes de dados?
  • Qual a frequência de coleta dos dados?
  • Quais as permissões de acesso às fontes?

Uso do conceito dataset para decisões colegiadas (Extra)

A estruturação de dados em forma tabular dataset é muito poderosa e se mostra extremamente útil para estruturar processos decisórios complexos onde diversas alternativas precisam ser analisadas de forma colaborativa.

Neste sentido o coordenador da reunião pode desenhar em um quadro branco o cabeçalho (com o nome das colunas) e os fatores de comparação nas linhas. E as opções de decisão sendo preenchidas pelos participantes de forma colaborativa. Desta maneira pode haver um nível maior de alinhamento entre os participantes e até descobrir informações não previstas anteriormente com impacto direto na estratégia. A limitação deste modelo de dataset é o número de linhas e colunas, já que a complexidade da informação vai de encontro aos limites inerentes ao processo decisório da cognição humana.

Conclusões e recomendações

Aqui nesta publicação, buscamos trazer uma visão bastante prática sobre o conceito de Dataset e o seu papel no ambiente de análises básicas e avançadas de dados. No mercado e na própria academia estas informações existem, mas de forma dispersa.

Em resumo:

  • Bons datasets possuem seus dicionário de dados (Conceito já descrito e disponível para download aqui)
  • Os datasets necessitam ser autocontidos, ou seja, todas as informações necessárias para responder questões de análise devem estar presentes na tabela única.
  • Conjuntos de dados não são necessariamente datasets, assim como planilhas tradicionais de excel (com gráficos e formatações) também não.
  • Dataset é um conceito útil também para a gestão, permitindo assim alinhar decisões de grande complexidade e impacto de forma colegiada. A utilização desta forma de olhar para os dados (estratégia) vai ao encontro da construção dos pilares da indústria 4.0, conceito que já abordamos neste artigo (indústria 4.0).
  • Existem diversas ferramentas gratuitas para o tratamento e análise de datasets, em diversos níveis de dificuldade e complexidade.
  • Datasets de boa qualidade são os pilares para o aumento dos níveis de maturidade das organizações. (Falamos sobre isso aqui)

Recomendações:

  • Procure padronizar os formatos entre todos os participantes das análises. Verifique se o formato está de acordo com os sistemas. A falta de padronização gera muito trabalho extra não analítico e exige atenção.
  • Verifique sempre o encoding do arquivo antes de qualquer importação, uma vez que estes dados tiverem sido importados errados, diversos problemas inesperados podem ocorrer e se tornam irreversíveis no desenrolar do projeto.
  • Para aqueles que buscam resolver problemas específicos de análises como estes citados em (14 setores e dados para análise de dados). Recomendamos pesquisas pelos termos “microdados” associados a área de interesse.
  • Utilize estratégias de gestão de conhecimento, para assim garantir a provenança (Provenança ou Proveniência de dados é a estrutura de sistemas que fornece um registro histórico dos dados e suas origens, respondendo questões como Onde os dados foram coletados, quando foram, por qual motivo, como foram transformados e para quem serão entregues.)

Não deixem de nos seguir, pois há muito mais pela frente. Fiquem a vontade para comentar, compartilhar, adicionar mais informações ao tema.  

Bons estudos e ótimas análises pessoal!

Autores
Joni Hoppen
Fundador da Aquarela, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação, focado em processos de rápida prototipação de Big Data Analytics e cultura de dados.

Informações para referenciação: Gostou do material? Caso queira enriquecer sua pesquisa ou relatório (seja blog post ou artigo acadêmico), referencie nosso conteúdo como: Aquarela 2018 - Inteligência Artificial para negócios (www.aquare.la).