O que é um dicionário de dados de Data Analytics

O que é um dicionário de dados de Data Analytics

Um dos primeiros problemas sentidos pelos profissionais quando iniciam os processos de Data Analytics (não só no Brasil) é a falta de ferramentas, tanto conceituais como também de sistemas para esse propósito. Com isso, o objetivo desse artigo é apresentar as funções do dicionário de dados para data analytics, que consideramos ser um dos elementos mais importantes, simples e que mais fazem falta no dia a dia do trabalho de análise.

Além de explicar o que é dicionário de dados de Data Analytics, apresentamos seu conceito e diferenças entre dicionários de dados tradicionais com base em nossa experiência e boas práticas do mercado nos processos de conformação de escritórios de dados.

Ao final, disponibilizamos um modelo de dicionário de dados em formato Excel, para uso na prática em quaisquer áreas de negócio. Em caso de dúvidas sobre quais áreas aplicar análise de dados, aqui vão algumas sugestões.

O que é Dicionário de Dados?

Um dicionário de dados de data analytics é um documento de texto ou planilha que centraliza informações sobre o conjunto de dados (dataset) sob análise dos cientistas de dados. Seu propósito é melhorar a comunicação entre todos os envolvidos no projeto de Data Analytics.

Segundo a IBM, um dicionário de dados:

“é um repositório centralizado com informações sobre os dados, tais como: significado, relacionamentos, origem, uso e formatos”

Sendo assim, de forma mais técnica, podemos resumir dicionário de dados como sendo um repositório que descreve, de forma estruturada, significado, origem, relacionamento e uso dos dados.

Importância da Dicionarização.

As pessoas nem sempre percebem, mas elementos como postura, entonação, gestos, velocidade, apresentação do texto, entre outros, também transmitem informações que são utilizadas, mesmo que inconscientemente, para contextualizar e interpretar a informação. Porém, quando transformamos a informação em dados, para serem armazenados em uma base de dados, planilhas, etc, com o fim de serem reutilizados em outro momento, por outras pessoas e/ou sistemas, muito dessa informação contextual, essencial para compreensão, é perdida. Assim, a qualidade da comunicação influencia diretamente na qualidade dos insights das análises.

O dicionário de dados serve como um ponto de partida, de comum acordo, objetivo e sem ambiguidades, a partir do qual é possível se reconstruir o contexto em que a informação foi coletada, melhorando significativamente a qualidade das análises de dados construídas a partir dos dados coletados.

“É muito raro um cientista de dados receber os dados do seu cliente como o dicionário já anexado” (Joni Hoppen)

Dicionarização para formação da Cultura de Data Analytics.

O processo de dicionarização é a base da formação da cultura dos povos. É algo tão importante para a manutenção e continuação das línguas e da comunicação dos povos, que as línguas não dicionarizadas – aquelas passadas dos pais para os filhos de forma oralizada – estão sendo extintas. De forma paralela, a dicionarização é fundamental para a manutenção e evolução dos níveis de maturidade de Data Analytics dentro das organizações que no nosso ponto de vista é um processo ainda um processo bastante oralizado. Mais detalhes sobre níveis de maturidade de data analytics nesta página

O principal objetivo da dicionarização de dados é um dos passos iniciais na estruturação de projetos de analytics até a materialização de organizações mais complexas como os escritórios de dados, pois é ele que permite manter a homogeneidade do conhecimento dos dados entre os envolvidos em um projeto de Analytics.

A ideia de dicionário de dados não é nova, principalmente para gestores de bancos de dados relacionais e programadores. A novidade, no entanto, é a necessidade recente de dicionários menos técnicos e voltados para o compartilhamento de conhecimento entre outros grupos de profissionais com o perfil de cientistas de dados, analistas de negócios e gestores.

Problema típico.

O leitor já se deparou com alguém fazendo a seguinte colocação (ou talvez o próprio leitor tenha tido essa experiência) : “Consegui uma planilha (conjunto de dados, banco de dados ou dataset) do departamento X mas não entendo o que significa cada uma das colunas e linhas… Tenho que ligar lá toda vez para saber.”

 

Esse é um cenário bastante comum. A boa notícia é que ele pode ser resolvido, bastando um pouco de disciplina, organização e comunicação. Assim como um dicionário idiomático que explica a origem das palavras, seus significados e sinônimos, um dicionário de dados organiza o  conhecimento necessário a respeito dos dados, onde são coletados, suas características, funções e etc.

Impactos da falta de um dicionário de dados para analytics

Uma das maneiras mais intuitivas e menos talvez eficientes de se explorar o valor de data analytics é:

“Te mando uma planilha aí e você vê o que acha”.   

Para este problema há pelo menos 4 pontos chaves de alto risco para a análise:

  • Falta de Orientação de negócio: Desta forma não há uma orientação das regras implícitas do negócio que geram os dados da planilha. (Data Analytics só gera valor quando resolve um problema prático).
  • Novos Datasets: Todo dataset (conjunto de dados) é diferente: Os dados sempre chegam diferentes, seja no conteúdo da planilha como nas estrutura do número de linhas e colunas. Isso obriga o analista a executar processos de higienização e transformação dos dados, processo que demanda mais de 80% do tempo total de uma análise.
  • Demora de interpretação e ruído: O analista terá que questionar diversas vezes o dono do dataset sobre o significado de cada uma das linhas e colunas, e mesmo assim isso não garante que o entendimento seja completo até as conclusões da análise.
  • Desintegração em hierarquias verticais e horizontais: Dentro de organizações, sobre tudo as mais tradicionais, há níveis hierárquicos de responsabilidade (vertical) e diversos setores(horizontal). Assim, é inevitável o aparecimento de vocabulários diferentes. Data Analytics prevê a necessidade de uniformização dessas estruturadas para que a comunicação aconteça com o menor desnível possível de vocábulos.

Dicionário de Dados tradicional vs Dicionário de Dados de Data Analytics

A finalidade de ambos os dicionários é a mesma, pois ambos buscam unificar e padronizar informações sobre os dados inseridos nos sistemas. O dicionário de dados deve levar informação a todos os usuários de forma homogênea.

Uma das principais diferenças entre dicionários tradicionais e de Data Analytics é que os dicionários de dados focados em Analytics necessitam responder atividades diferentes e em níveis de granularidade diferentes para responder questões mais alinhadas a requisitos do negócio do que requisitos dos sistemas. Isso não deve aumentar ou reduzir a importância de dos dois.

Dicionários Tradicionais

Os modelos tradicionais, são mais complexos e detalhados, informando até o tamanho do texto permitido em cada coluna. Por exemplo, a coluna nome do paciente tem um limite de 50 caracteres.

Estas informações são relevantes para garantir planejamentos de infraestrutura, escolha de uma linguagem de programação, integração de sistemas e diversas atividades que garantem a operação diária da empresa, porém quando se planeja utilizar a Inteligência Artificial dos algoritmos de mineração de dados, estas informações podem ser irrelevantes.

Dicionários de Data Analytics

Para que um o modelo tradicional (mais completo) seja adequado aos processos de Data Analytics, eles precisam ser ajustados aos perfis profissionais que irão consumir a informação, sobre tudo aos cientistas de dados e analistas de negócios interessados na assertividade das predições/prescrições de modo prático com o cliente.

Em data analytics, os dicionários estão mais focados nos significado das linhas (registros) e principalmente das colunas das tabelas (variáveis, fatores, características) para que as diversas pessoas envolvidas pensem sobre o problema de negócio (o que se quer analisar) na forma mais prática, simplificada e parecida possível.

Na tabela a seguir, apresentamos algumas sugestões de atividades e os consumidores dos diferentes dicionários.

Atividade Tradicional
(Tecnologia da Informação)
Dicionário de Analytics
(Escritório de Ciência de dados)
Ambos
Integração de sistemas X
Modelagem de bancos de dados; X
Migração de sistemas X
Higienização de dados X
Criação de modelos, exploratórios,  preditivos e prescritivos. X
Geração de relatórios analíticos X
Dados transacionais X
Dados analíticos X

Recomendações práticas

  1. Faça o versionamento dos dicionários e mantenha-os atualizados com alguém responsável pela gestão do documento. O fato de existir pessoas trabalhando com versões diferentes do mesmo dicionário pode causar ruído. Quanto menos ruído na comunicação melhor.
  2. Tenha um repositório acessível por todos os analistas, pois o nível da cultura de data analytics só aumenta quando todos os indivíduos estão cientes dos significados dos processos baseados em dados e este significado é compartilhado.
  3. Tenha um dicionário para cada conjunto de dados e que este obedeça uma padronização mínima dentro do setor ou organização.
  4. Simplifique ao máximo o nome dos termos (nomes das colunas). Utilize nomes curtos, sem espaços, sem acentos (Espaços e acentos geram problemas técnicos nos diversos sistemas) e que sejam intuitivos, para que seus  colegas de trabalho possam entender os dados o mais facilmente possível. Evite jargões técnicos.
  5. Quando compartilhar dados, tenha o costume de enviar os dicionários junto (essa é a recomendação mais importante).

Download do modelo de dicionário de dados

O dicionário de dados pode ser desenvolvido em alguma ferramenta de planilha eletrônica, como Excel, Calc, Google Sheets, entre outros. Um dos pontos mais importantes, já mencionado, é que o arquivo do dicionário deve estar acessível (de forma rápida e prática) a todos os envolvidos em um projeto de Data Analytics. Por isso, mantê-lo em alguma plataforma de compartilhamento de planilhas eletrônicas na nuvem via Google Sheets ou Excel online, por exemplo, pode ser uma boa ideia.

Desenvolvemos um modelo de dicionário de dados, que pode ser baixado pelo link a seguir:

No modelo de dicionário de dados, os campos a serem preenchidos são os seguintes:

  • Variável: nome da variável, como consta no dataset. Normalmente estes nomes são curtos, sem acentos e nem sempre são autoexplicativos.
  • Descrição: o que significa a variável e como ela se relaciona com outras variáveis do dataset. Se houver regras de negócio importantes atreladas ao dado, elas devem estar descritas aqui.
  • Papel na análise: é importante definir se a variável é de identificação (ID), se é a variável resposta (variável dependente, cuja explicação ou predição está sendo buscada na análise), ou se é uma variável explicativa (variável independente, cujo comportamento contém informações acerca da variável resposta).
  • Tipo: trata da natureza da variável, como por exemplo: categórica, binária (ou dummy), escalar, numérica. Mais informações sobre a natureza de dados neste artigo sobre o Gênesis das análises de dados 
  • Texto: são campos de texto aberto, como feedbacks de clientes ou campos de descrição.
  • Variável no tempo da análise: é preciso definir o aspecto temporal das variáveis em relação à variável resposta (pré análise, pós, durante, ou atemporal). Isso é muito importante para eliminar variáveis que não serão úteis para a resposta que se deseja obter.
  • Quantidade de níveis: nas variáveis categóricas e escalares existem níveis. É importante definir os níveis existentes em cada variável para que o analista possa ter uma noção do processamento de máquina que será exigido na hora de rodar os modelos analíticos.

O modelo de dicionário de dados do link acima segue as dicas de tornar tabelas de Excel muito mais apresentáveis que mostramos neste artigo!

O futuro dos dicionários de dados

Atualmente o grande desafio da computação de ponta é a automação do processo de descoberta de insights utilizando a inteligência artificial para descobrir o significado dos dados e assim raciocinar autonomamente sobre problemas de negócio complexos. Abaixo recomendamos a leitura de dois artigos voltados para esse tema que desmistificam um pouco o futuro dos dicionários de dados sendo interpretados não apenas por analistas mas também pelas próprias máquinas:

  • Utilização da semântica para integração automática dos significados dos conceitos (Leia mais sobre este tópico neste artigo: Dos dados a inovação)
  • Associar as informações para resolver problemas de negócio (Entenda melhor lendo este artigo).

Então é isso pessoal, se quiser mais conteúdos exclusivos é só se inscrever na nossa Newsletter.

Forte abraço!

Datasets, o que são e como utilizá-los

Datasets, o que são e como utilizá-los

Os datasets (ou conjuntos de dados) são o principal insumo dos processos de análise de dados. Eles são representados por dados tabulares em formato de planilha onde as linhas são os registros dos acontecimentos e as colunas são as características desses acontecimentos. Para que um dataset seja analisado por sistemas de análise é obrigatório que este tenha um formato retangular ou quadrado, não permitindo que haja valores em outras partes da planilha. Também não são aceitos valores em planilhas em sub-abas.

Neste artigo detalhamos, com base em nossa experiência prática com análise de dados e em nossos cursos de capacitação no Brasil, nossa visão sobre o conceito de datasets e sua posição pivotal no processo de Data Analytics e no processo de transformação digital rumo a gestão da indústria 4.0.

Abaixo seguem mais detalhes importantes sobre o conceito.

Porque dataset e não conjunto de dados?

Os datasets formam a base de qualquer análise de dados de alto nível. No Brasil o termo mais utilizado para ele é “conjunto de dados”, porém este conceito pode gerar dúvidas porque é mais abrangente do que a ideia de dataset para analytics. Se por um lado um conjunto de dados pode ser representado por diversas planilhas,  bancos de dados e assim por diante, o dataset é mais específico, auto-contido (todas as informações já estão presentes na tabela única, em contraste aos bancos de dados relacionais), não possui formatações nos dados e deve ter o formato retangular e possuem um cabeçalho com os nomes bem definidos para cada coluna.  

Outros termos usados no dia a dia de análise, são:

  • Planilha integrada;
  • Flatfile (termo técnico antigo);
  • Tabelão;
  • Data Warehouse (sistema);
  • Dados tabulados;
  • Planilha de dados ou “Planilhona”

É muito comum ouvir os times negociando a exportação da planilha mais ou menos da seguinte forma.

“Avisa o pessoal da informática para montar esse planilhão e nos encaminhar depois? “

Exemplos de conjuntos de dados não organizados em formato de Dataset.

Exemplo de Análise de Equilíbrio - os dados estão organizados, mas não em forma de dataset

Exemplo de Análise de Equilíbrio – os dados estão organizados, mas não em forma de dataset

 

Exemplo de Relatório Financeiro Anual - os dados estão organizados, mas não em forma de dataset

Exemplo de Relatório Financeiro Anual – os dados estão organizados, mas não em forma de dataset

Agora mostramos os mesmos conjuntos, mas formatados para serem um dataset:

Exemplo de Análise de Equilíbrio - formatado para ser um dataset

Exemplo de Análise de Equilíbrio – formatado para ser um dataset

 

Exemplo de Relatório Financeiro Anual - Formatado para ser um dataset

Exemplo de Relatório Financeiro Anual – Formatado para ser um dataset

Formatos mais comuns para salvar Datasets

Os datasets devem ser salvos de alguma forma e abaixo relacionamos os tipos de arquivos mais comuns:

  • Documentos Excel com extensão .XLS que permite um máximo 65 mil linhas e o formato mais novo .XLSX que vai até milhão de linhas. Mais detalhes sobre este tipo de arquivo em aqui 
  • Documentos em formato .CSV  . O CSV é a sigla do inglês (comma separated values) valores separados por vírgula é o principal tipo de arquivo para salvar datasets por ser um dos formatos mais comuns de exportação de sistemas transacionais como ERPs, CRMs e SCMs. Um dos pontos mais importantes é que não possui uma limitação específica para o número máximo de linhas dependendo então da capacidade de memória e disco do computador. Este tipo de arquivo não salva ou transfere as formatações ou cálculos nas células, somente os dados brutos de forma tabular ou tabelada. Pode ser importado e exportado por praticamente todos os sistemas analíticos de mercado. No Brasil, o padrão conflita com a vírgula decimal por isso é comum que sejam salvos com a separação por “ponto e vírgula”.
  • Arquivo .TSV, segue praticamente todas as características do .csv porém ao invés de utilizar a vírgula como separador entre os valores, ele utiliza o TAB. Abaixo um exemplo. Duas vantagens em relação ao formato .CSV é a diminuição dos riscos de importação no idioma português que utiliza a vírgula como separador decimal dos números e também tem uma legibilidade mais amigável quando aberto em um simples editor de texto.

Codificação de caracteres (encoding)

A codificação de caracteres, o dialeto de comunicação entre os computadores, é um problema bastante recorrente, percebido após a importação quando se lê palavras com acentos. Quem nunca viu caracteres estranhos como estes?

O padrão mais aceito entre os sistemas é o UTF-8. Este aceita praticamente todos os acentos de diversas línguas e é um dos mais usados no mundo de sistemas livre, open source e o qual nós recomendamos adotar como padrão. Caso a base dos sistemas da organização Microsoft, pode existir diversos padrões como o ISO-8859-1. 

Abaixo está a configuração do dialeto do dataset ao abrir um arquivo formato .csv com o sistema de planilha LibreOffice. A função de pré-visualização serve como guia para verificar se os formatos estão corretos.

Veja como ficam o texto “unidade de Saúde Maria Ortiz” quando se utiliza o encoding ISO-8859-1.

exemplo de encoding ISO-8859-1

exemplo de encoding ISO-8859-1

exemplo 2 de encoding ISO-8859-1

exemplo 2 de encoding ISO-8859-1

 

Independente de qual seja o padrão de encoding adotado pela organização, é fundamental que os times de analistas sejam capazes de fazer os devidos tratamentos de enconding para evitar erros graves de análise como por exemplo calcular o número de pacientes de São Paulo separadamente dos pacientes onde o nome do município ficou sem acento ou com caracteres estranhos.

Como recortar ou gerar um amostragem?

Na formação dos datasets, uma dúvida comum e que faz parte do cotidiano de cientistas de dados é a decisão pelas formas de se reduzir o dataset para acelerar ou dar foco para a análise. Neste artigo – Amostragem ou recorte de dados , explicamos com mais detalhes e tentamos reduzir a ambiguidade desta tarefa.

Como enriquecer datasets?

Para que os datasets sejam enriquecidos com o cruzamento de dados de outros datasets, é necessário definir qual coluna terá as informações de identificação das linhas.

Exemplo: Para adicionar a temperatura do dia de uma cidade, precisamos da coluna da data nos dois datasets, para que então a temperatura da outra base seja anexada. A questão de enriquecimento de datasets é extensa e vamos falar disso em breve.

Quais ferramentas existem para lidar com datasets?

Esta lista não pretende ser exaustiva, porém mostra algumas ferramentas bastante úteis no trato dos dados. O mais importante é utilizar a ferramenta mais adequada para cada contexto:

  • Microsoft Excel – É o sistema mais disseminado no mercado.
  • LibreOffice – É equivalente ao Excel porém gratuito e tem uma vantagem de ser mais fácil de configurar importações e exportações em formato .CSV.
  • Openrefine – Sistema feito para higienização de datasets.
  • Linguagens de programação:R, Python, Scala, Apach Spark , Java e outras.
  • Bancos de dados podem fazer diversas operações robustas, mas demandam conhecimentos técnicos avançados.  
  • Sistemas estatísticos e econométricos comerciais: SPSS (IBM), Minitab, Matlab, Stata, Eviews.

Na figura abaixo, fizemos um gráfico empírico para definir algumas destas ferramentas, de acordo com a facilidade de utilização e capacidade de processamento dos dados. Esta noção é fundamental para a estruturação da arquitetura de sistemas de informação voltada para análise.

Ferramentas para processamento de dados

Ferramentas para processamento de dados

Salvo as diversas vantagens ou limitações técnicas e comerciais de cada uma delas. A melhor ferramenta é a que traz os melhores resultados práticos. Nossa experiência com R foi relatada aqui  – Saindo do limitado excel para r ou python. Além disso, nesta outra publicação falamos sobre os sistemas operacionais e máquinas recomendadas para fazer análise de dados ( máquinas para análise de dados).

A qualidade de datasets

A conformação de bons datasets é um trabalho difícil, tanto do ponto de vista técnico (na escolha da melhor ferramenta) como também no ponto de vista conceitual para responder a seguinte pergunta – Quais dados vou adicionar? Quais respostas estes dados tabelados podem me trazer?

Datasets muito raramente (muito mesmo) são iguais, tanto que na prática ocorrem uma ou mais análises para cada dataset. No que tange a qualidade, isso depende da natureza dos dados e dos questionamentos atrelados a eles, contudo em linhas gerais bons datasets se caracterizam por uma boa proporção de variáveis  numéricas, categóricas, sem valores faltantes. Além disso, bons datasets devem:

  • Estar associados aos dicionários (veja um exemplo aqui) de dados que explicam detalhes de negócio e da natureza das informações(saiba mais aqui).
  • Nomes na colunas autoexplicativos, curtos, sem acentos e sem espaços ajudam muito tanto do ponto de vista de comunicação com o time como reduz drasticamente problemas incompatibilidade de padrões.  

Outliers, o que são e como tratá-los em uma análise de dados?

Onde encontrar datasets para análise?

Existem diversas fontes de datasets para estudo e análise, mas como elencado neste artigo, cada um possui um padrão e demandam abordagens relativamente diferentes e até ferramentas diferentes.

Fontes de Datasets

Na tabela abaixo estão algumas sugestões de fontes úteis de datasets. Caso tenham mais sugestões, deixe um comentário para ampliarmos.

Fonte Descrição
Dados Abertos Diversos Datasets em vários formatos com informações públicas em diversos níveis.
Data Viva O DataViva é uma plataforma de visualização de dados que confere valor aos dados públicos, com o objetivo principal de apoiar o planejamento econômico e social, bem como a busca por estratégias de diversificação da economia de determinada região. Dados da RAIS – Salários e Empregos, Comércio exterior (SECEX), ensino superior e ensino médio. O sistema oferece várias formas de visualização e até de download dos dados.
FRED Base do Federal Reserve Economic Data. Dados públicos sobre a economia de diversos países do mundo.
Banco Central Brasil Indicadores macroeconômicos
SEF – fazenda estadual Apresenta uma série de dataset relevantes para pesquisas, porém com grande variação de formatos e séries temporais limitadas. – Empresas com CNPJ, endereço, situação fiscal, certidão negativa de débito.
Receita federal Diversos conjuntos de dados ligados à arrecadação dos municípios.
FipeZap É uma parceria da Fipe com o portal Zap imóveis. Eles criaram um indicador de valorização dos imóveis mensal. São referência nacional.
Google Finance ETF de fundos imobiliários no Brasil.
Quandl Indicadores econômicos, dados banco central do Brasil, agrega informações IPCA, variação cambial e outros..
Google analytics do cliente Análise do perfil dos visitas do site da sua própria empresa. Grande variedade de indicadores. Necessita de alinhamento e um acompanhamento constante do time de marketing.
Cadastro CEPs do Brasil com geolocalização CEPs, Cidades do Brasil, Código IBGE dos Municípios, População Estimada dos Municípios, Endereços por CEP, Latitude e Longitude aproximada por CEP
InMet Busca por dados do tempo na região ao longo do tempo. Máximo de 365 dias anteriores ao dia da consulta. Atende a maioria dos municípios do Brasil.

Formação de datasets recorrentes.

Para que existam análises recorrentes, também é necessário que os datasets sejam atualizados constantemente. Como isso é possível materializar o conceito de BI definido neste artigo Diferenças entre BI.

Para que as análises possam ser recorrentes algumas destas perguntas devem ser feitas:

  • Qual o grão mínimo em que o dado será coletado? Ou seja, o que representará cada linha do dataset? Será uma consulta de cada paciente ou serão os resultados de uma operação a cada mês?
  • Quais são os padrões das fontes de dados?
  • Qual a frequência de coleta dos dados?
  • Quais as permissões de acesso às fontes?

Uso do conceito dataset para decisões colegiadas (Extra)

A estruturação de dados em forma tabular dataset é muito poderosa e se mostra extremamente útil para estruturar processos decisórios complexos onde diversas alternativas precisam ser analisadas de forma colaborativa.

Neste sentido o coordenador da reunião pode desenhar em um quadro branco o cabeçalho (com o nome das colunas) e os fatores de comparação nas linhas. E as opções de decisão sendo preenchidas pelos participantes de forma colaborativa. Desta maneira pode haver um nível maior de alinhamento entre os participantes e até descobrir informações não previstas anteriormente com impacto direto na estratégia. A limitação deste modelo de dataset é o número de linhas e colunas, já que a complexidade da informação vai de encontro aos limites inerentes ao processo decisório da cognição humana.

Conclusões e recomendações

Aqui nesta publicação, buscamos trazer uma visão bastante prática sobre o conceito de Dataset e o seu papel no ambiente de análises básicas e avançadas de dados. No mercado e na própria academia estas informações existem, mas de forma dispersa.

Em resumo:

  • Bons datasets possuem seus dicionário de dados (Conceito já descrito e disponível para download aqui)
  • Os datasets necessitam ser autocontidos, ou seja, todas as informações necessárias para responder questões de análise devem estar presentes na tabela única.
  • Conjuntos de dados não são necessariamente datasets, assim como planilhas tradicionais de excel (com gráficos e formatações) também não.
  • Dataset é um conceito útil também para a gestão, permitindo assim alinhar decisões de grande complexidade e impacto de forma colegiada. A utilização desta forma de olhar para os dados (estratégia) vai ao encontro da construção dos pilares da indústria 4.0, conceito que já abordamos neste artigo (indústria 4.0).
  • Existem diversas ferramentas gratuitas para o tratamento e análise de datasets, em diversos níveis de dificuldade e complexidade.
  • Datasets de boa qualidade são os pilares para o aumento dos níveis de maturidade das organizações. (Falamos sobre isso aqui)

Recomendações:

  • Procure padronizar os formatos entre todos os participantes das análises. Verifique se o formato está de acordo com os sistemas. A falta de padronização gera muito trabalho extra não analítico e exige atenção.
  • Verifique sempre o encoding do arquivo antes de qualquer importação, uma vez que estes dados tiverem sido importados errados, diversos problemas inesperados podem ocorrer e se tornam irreversíveis no desenrolar do projeto.
  • Para aqueles que buscam resolver problemas específicos de análises como estes citados em (14 setores e dados para análise de dados). Recomendamos pesquisas pelos termos “microdados” associados a área de interesse.
  • Utilize estratégias de gestão de conhecimento, para assim garantir a provenança (Provenança ou Proveniência de dados é a estrutura de sistemas que fornece um registro histórico dos dados e suas origens, respondendo questões como Onde os dados foram coletados, quando foram, por qual motivo, como foram transformados e para quem serão entregues.)

Não deixem de nos seguir, pois há muito mais pela frente. Fiquem a vontade para comentar, compartilhar, adicionar mais informações ao tema.  

Bons estudos e ótimas análises pessoal!

O que é Data Analytics?

O que é Data Analytics?

Diante da economia da informação, da evolução do poder computacional e da Indústria 4.0, as empresas têm visto cada vez mais valor nas respostas das análises de dados. Mas o que é Data Analytics? E como isso se aplica no seu modelo de negócio? 

Data Analytics:

Data Analytics é o processo de analisar informações (dados) com um propósito específico. Isto é, pesquisar e responder perguntas com base em dados e com uma metodologia clara para todos os participantes. Um projeto de Analytics pode ser executado de maneira individual, contudo, dependendo da dinâmica e complexidade das questões e dos dados disponíveis, é comum que o trabalho seja colaborativo, com diversos indivíduos atuando em papéis diferentes ao longo de cada etapa.

Analytics na história

Falar da história do analytics e não citar Florence Nightingale (confira aquié como falar de computador e não citar Alan Turing.

Vinda de família rica que esperava um casamento promissor da filha, frustrou-os pela sua escolha em ser ajudante dos médicos, uma vez que a enfermagem ainda não existia. Este trabalho era considerado indigno e desempenhado por mulheres desacompanhadas na sociedade. Porém seu objetivo de vida era e sempre foi salvar vidas, independentemente da maneira. Assim, Florence foi pioneira em utilizar métodos estatísticos e representações visuais para gerar relatórios médicos ao governo inglês durante a Guerra da Crimeia.

Florence além de ser uma inspiração feminista e valorizar a profissão da enfermagem, também foi membro do grupo real de estatística. Com seu trabalho e muita resiliência,  transformou mundialmente os métodos de saúde, criando a enfermagem como profissão e afetando diretamente a qualidade de vida de milhões de pessoas até hoje. 

A rosa de Florence

Florence sabia que as doenças eram derivadas da péssima higiene hospitalar, mas como provar para os políticos que acompanhavam a guerra de longe? 

Durante seus trabalhos de apoio aos feridos da guerra na Crimeia, Florence começou registrar todas as mortes com apoio de estatísticos, porém não conseguia transformar as informações de modo que melhores decisões fossem tomadas.

“Os gráficos devem atingir os olhos, para evidenciar aquilo que não conseguimos expressar apenas com os números”

Entre indas e vindas, Florence criou em seu relatório o famoso diagrama abaixo, conhecido como a Rosa de Florence:

nightingale_rose

Provavelmente este é um dos diagramas mais importantes da história, relatando as projeções das mortes dos soldados ingleses da seguinte forma: 

  • Mortes por infecções hospitalares/doenças (azul);
  • Mortes por ferimentos em batalha (vermelho);
  • Mortes por outras causas (preto).

Ferramentas de Data Analytics

Antes de citar ferramentas de análise, é muito importante destacar que Data analytics pode ocorrer sem mesmo a utilização de computadores.

Indicadores

Digamos que precisamos fazer o controle em papel de todas as vezes que alguém da empresa entrou na sala X. Abaixo está uma demonstração deste processo, onde cada presença é marcada ao longo dos meses com um risco. A coleta dos indicadores é o primeiro passo de qualquer processo de análise. Sugerimos que este trabalho seja feito por profissionais com experiência em Design de Indicadores.

Colaborador Janeiro Fevereiro
João Silva IIII IIIII
Maria Dos Santos II II

Cultura de analytics:

Com o tempo, notamos que mesmo coisas simples podem gerar dificuldades nas análises de dados. Assim, para que os indicadores possam ser coletados de forma adequada e as análises possam ocorrer com o maior número de pessoas (de forma a se replicar dentro dos diversos setores), é fundamental níveis elevados de cultura de Data Analytics, como definido neste Diagrama. A ordem evolucionária da complexidade dos dados e tecnologia abordamos neste artigo.

niveis de maturidade

A comunicação

A boa comunicação dos profissionais envolvidos em processos de Data Analytics é fundamental, porque todos os envolvidos devem falar o mesmo idioma (leia-se entender dos dados) desde a primeira fase do projeto, onde se levantam as perguntas de negócio, até a entrega do relatório analítico. Qualquer ruído entre os pontos envolvidos pode influenciar negativamente no resultado.

Além disso, o primeiro passo para a evolução da cultura de análise e melhoria da comunicação está na conformação dos primeiros dicionários de dados de análise. Neste link você pode baixar nossa sugestão de dicionário de dados. Fiquem a vontade para criar seus próprios, só não esqueça de verificar se todos os departamentos envolvidos na análise são capazes de entender o documento.

Muitos projetos de analytics falham por falta de consenso sobre os itens das hipóteses e/ou por má formação da mesma. Assim, seguem algumas dicas para melhoria dos processos de comunicação:

  • Utilização de sistemas de informação avançados para que todos do grupo possam interagir de forma plena sobre o problema.
  • Registros das atividades ao longo do tempo.
  • Evite aplicar metodologias tradicionais de gestão de projetos, elas interrompem o fluxo interativo, criativo e colaborativo das análises. A necessidade de controle deve ser o mais baixa possível. Times que demandam muito controle possivelmente não possuem o perfil de analista de dados.  
  • Hipóteses claras e adaptadas ao escopo do projeto, criadas de forma afirmativa, para que possam ser aceitas ou rejeitadas pelos testes efetuados nos dados. Ex. Se elevarmos em 3% o valor das mercadorias A e B, então teremos 20% a mais de lucratividade ao final do mês em relação às lojas que não aplicaram o aumento.  No final do mês será possível dizer claramente se a hipóteses estava certa ou errada.
  • Para desenvolver projetos de analytics com sucesso é necessário ter em mente os diversos tipos de dados disponíveis, conhecer os níveis de maturidade da organização e ter um alinhamento com todos os participantes do projeto.

O que é Data Analytics: How to.

Invariavelmente, os processos de analytics seguem um padrão bastante consistente de fluxo como mostrado abaixo:

A origem dos dados:

Toda análise baseada em dados precisa extrair dados de alguma forma, certo? Normalmente são extraídos de arquivos .CSV e Excel, mas podem ser também em formatos mais técnicos diretamente de bancos de dados. Nossa recomendação é conhecer bem o funcionamento de arquivos do tipo .CSV pois é um dos padrões de exportação dos principais sistemas existentes. Neste link há algumas demonstrações de como gerar estes arquivos.

Limpeza e Transformação:

Uma vez que o dado é extraído, em raríssimos casos, ele está pronto para análise. Por exemplo, digamos que os usuários preencheram suas cidades como: São Paulo, sao paulo, Sao paulo. Claramente vemos as três opções se referem ao mesmo município, porém foram escritos de maneiras distintas. Isso impossibilita uma análise assertiva da quantidade de fatos que aconteceram nestes locais.

Por isso, é obrigatório executar processos de limpeza e organização dos dados antes de qualquer análise manual, ou mesmo com apoio de algoritmos de inteligência artificial.

Análise de negócio:

Toda análise precisa de um propósito bastante definido, em muitos casos ferramentas com excesso de funcionalidades fazem os analistas perderem o foco e a objetividade do trabalho. Por isso, se recomenda que pelo menos um dos integrantes de projetos de analytics tenha o perfil de analista de negócios, para ser o norteador de todos as perguntas criadas, e consequentemente das respostas.

Validação do Analytics:

A única forma de analytics gerar retorno financeiro é alterando processos de gestão, e para isso as validações de analytics servem para avaliar se os ajustes sugeridos pelas análises surtem efeitos reais, e se eles são suficientes para garantir a continuidade das pesquisas.

A validação positiva das análises permite abrir caminhos para a replicação do analytics em outros setores da organização.

[Extra] Educação para Analytics.

O comportamento inteligente e o raciocínio lógico podem ser instigados de maneira lúdica tanto para crianças quanto adultos. Lev Vygotsky, importante estudioso da área da educação, afirmava que o brinquedo e a brincadeira estimulam a curiosidade, criatividade, autoconfiança e o pensamento. O brincar e o jogar transformam o aprendizado em algo dinâmico, entusiasmante e natural. Seguindo esta linha, Piaget já dizia que o conhecimento não se cria sozinho dentro do sujeito, e nem isolado no brinquedo/jogo, mas na interação e experimentação dos dois.

Utilizamos desta linha de pensamento em nossas capacitações e imersões, o primeiro exemplo prático e de senso comum que ajuda a desbloquear o cérebro para o que é Data Analytics é o jogo Super Trunfo, que de uma forma lúdica e didática ajuda na compreensão e mensuração de variáveis numéricas e categóricas.

Eu quero mais

Sabemos que este post não vai sanar todas as suas dúvidas, na verdade queremos que novos questionamentos apareçam, pois só assim mais pessoas poderão procurar sobre o assunto, disseminar o conhecimento analítico e procurar entender o que é essa nova forma de gerar valor nos negócios.

Além disso, você pode se inscrever em nossa Newsletter e receber conteúdo exclusivo.

Data Analytics pode ser complexo e trabalhoso, mas se você jogou Super Trunfo alguma vez na vida,  então já sabe como fazer análise de dados 😉

 

7 Dicas de governança de processos e projetos de Data Analytics

7 Dicas de governança de processos e projetos de Data Analytics

A área de ciência de dados está em franca expansão, graças ao grande potencial de otimização de processos que geram tanto economia de recursos (fazer mais com menos) como ampliação de vendas e recuperação de mercado (vender mais e melhor). Em outras palavras:

“Novos (grandes) poderes geram novas (e grandes) responsabilidades”.

Assim, neste artigo, apresentamos o DCIM Commandments (Conheça a DCIM), um compilado com as melhores práticas (criadas e utilizadas por nossa equipe) para manipulação, tratamento e governança de dados e projetos analytics. Acreditamos com grande convicção que alguns pontos deste compilado podem ser úteis ao amadurecimento da cultura de dados do ecossistema brasileiro (empresarial ou não).

Mantenha os dados seguros

Normalmente (e infelizmente), a segurança dos dados é um dos últimos tópicos a serem discutidos, nós acreditamos e praticamos o contrário disso. Afinal, se os dados são o petróleo da próxima década, quem em sã consciência  deixaria isso vazar?

Com isso em mente, trabalhamos alguns anos desenhando arquiteturas apropriadas para a recepção, processamento e distribuição segura de dados, aliadas a normas internas de conduta que visam garantir a segregação e proteção dos dados internos e dos clientes. Alguns exemplos básicos de regras que utilizamos:

  • Autenticidade: Cada usuário tem seu próprio acesso e cada acesso um conjunto de logs.
  • Confidencialidade: partimos do princípio que toda informação dos clientes é confidencial. Neste sentido todos os acessos aos dados internos são bloqueados, e somente é liberado acesso para aqueles que realmente necessitem.  
  • Dados de clientes nunca entram em pendrives. Somente em discos criptografados.
  • Cada cliente tem seu próprio servidor e bucket de armazenamento, de forma que os dados ficam totalmente isolados uns dos outros.
  • Regras e gestão de senha robustas.
  • Padronização de sistemas. Utilizamos principalmente sistemas operacionais Linux e MacOs, embora vários clientes usem Windows.
  • Redes Virtuais Privadas – VPNs – essas redes são utilizadas para garantir a separação do tráfego de dados na internet e dos serviços em operação.

Resolva um problema real

Ciência de dados abre um potencial enorme de possibilidades, e isso gera grande pressão (inclusive psicológica) por resultados. Um dos principais problemas enfrentados nessa situação é conseguir definir qual resultado que se quer primeiro, e quais os passos a serem tomados. O processo é em essência não linear, então se torna fácil divagar o pensamento em coisas que às vezes parecem razoáveis.

Nesse sentido, recomendados um trabalho de desenvolvimento de comunicação entre os times, com técnicas de design thinking contínuas, voltadas ao estudo dos dados e definição do problema. Em alguns casos é um processo de muita ajuda psicológica mútua. Contudo, por via de regra, os problemas reais devem vir do gestor de negócios, e este deve ser traduzido para sistemas de análise e não ao contrário.

Com tantas ferramentas de analytics surgindo no mercado, é fácil se apaixonar por uma solução e ficar sem apetite no almoço e/ou acordado a noite pensando nos gráficos que piscam, quem nunca né? (brincadeira). O fato é que quando soluções técnicas se tornam mais importantes do que o negócio o rabo começa a abanar o cachorro. Parece brincadeira, mas isso acontece muito nos meios técnicos, gerando um impacto pesado na eficiência das empresas e até na moral dos times. Portanto, mantenha o responsável pelo processo de negócio em todas as reuniões, ele vai ajudar a apagar problemas virtuais que sempre surgem (daria um artigo só falando sobre as classes de problemas não reais gerados pela tecnologia).

Priorise Qualidade à velocidade

Entusiastas de tecnologia (aqueles 2% da população chamados de early adopters) são fascinados por novidades, principalmente quando são rápidas e práticas, mas falando de negócios e da responsabilidade sobre processos com impactos financeiros severos, a orientação deve ser outra.

um modelo de inteligência artificial rápido mas que acerta pouco não pode ser considerado. O foco deve ser a qualidade primeiro depois a velocidade.

A mensuração dos resultados deve ser feita constantemente, tanto internamente (com os dados e métodos internos) como também no cliente (com métodos próprios do próprio cliente). Em outras palavras, todos devem estar vendo o resultado no seu idioma próprio. O desafio no entanto é a grande variação dos testes e necessidade de criação de testes para cada tipo de processo que se utiliza machine learning.

Mindset lean (startup)

Quando se fala de termos como BigData e grandes bases de dados, nossa intuição nos leva a buscar soluções para tratar o máximo de dados, certo? Porém o que temos visto é que o desafio mais constante é ao contrário, chegar no menor conjunto de dados capaz de:

  • Gerar a maior quantidade de conhecimento
  • Atingir o maior impacto de negócios no menor espaço de tempo
  • Preservar a saúde mental de todos os envolvidos (é sério).

O acoplamento leve refere-se a não integração imediata dos protótipos nos sistemas tradicionais (sistemas que já estão em operação), ou seja, sistemas analíticos precisam ser validados isoladamente antes de passar pelos processos de integração.

“O homem que insiste em ver com a mais perfeita clareza antes de decidir, jamais decide. Henri Frédéric Amiel – (1821-1881)”

Por isso, a ideia de rápidas prototipações é trabalhar com dados analíticos em paralelo até validar os modelos de IA, e aí então pensar em questões de integração e desempenho. Vale notar que alguns processos de integração de sistemas podem ser mais custosos do que vários processos de analytics. Nesse caminho sempre é bom lembrar da importância da separação conceitual entre sistemas transacionais e analíticos, já escrevemos sobre isso aqui.

Além do conceito do projeto em si a ser validado pelos times de concepção de analytics, há também o encaixe do modelo criado no roadmap tecnológico da organização que, em 100%, do casos, demanda consultas aos especialistas dos sistemas transacionais.

Zelar pelos metadados

Os dicionários de dados são a base da formação da cultura de dados. E por isso, processos de manutenção constante desses dicionários são importantes, apesar da burocracia que isso possa gerar em cada contexto.  

Anteriormente já escrevemos um artigo com exemplos de dicionários de analytics(O que são dicionários de dados para analytics?), no entanto, aqui vai um resuminho da sua função, que é responder algumas destas perguntas:

  • Quais dados estão disponíveis?
  • O que os dados disponíveis representam?
  • Quais as escalas de mensuração de cada variável?
  • Quem são os responsáveis por cada base e seus respectivos dicionários?
  • Como os dados estão integrados?
  • Há oportunidades de negócio associadas às variáveis?

Planeje a continuidade

Descobri muita coisas legais, mas será que daqui 6 meses elas ainda são válidas? O que mudou de lá pra cá?

As primeiras análises a serem feitas nos dados são chamadas de exploratórias, algo que seria similar a primeira entrada em uma floresta. Neste processo grandes descobertas de vários tipos de riscos e oportunidade são geradas.

O planejamento deve ter a análise exploratória bem mapeada, para poder estruturar as análises que terão o perfil recorrente nos negócios.

“Analytics só gera resultado real quando mudanças (melhorias) nos processos de negócios são executadas na prática”. Por exemplo; não adianta saber que as crianças tendem a faltar menos nos agendamentos médicos se não for feita uma política ou  sistema que ajuda este perfil a ser alocado nos dias com maior incidência de faltas de outros perfis.

Esse viés da execução de processos inteligentes, seja ele um sistema para ações preventivas, preditivas e prescritivas, deve estar sempre presente nas discussões, desenhos de telas, prototipações e na implantação efetiva do sistema, de modo que não seja apenas um painel de monitoramento (Quais as diferenças entre painéis de monitoramento e sistemas inteligentes?)

Mantenha as coisas simples

O excesso de informação gerado por bancos de dados gera o que chamamos de “parálise”: paralisia por excesso de análise. Portanto a grande sofisticação está em simplificar, inclusive a principal ajuda dos algoritmos de mineração é justamente deixar para o computador essa tarefa. Se um modelo não simplifica uma decisão de “Sim” ou “Não”, qual é sua utilidade?

Se o projeto não puder ser explicado em poucas palavras e telas, pode haver algum erro conceitual grave, gerado lá atrás no processo de concepção das análises, momento em que os gestores e técnicos desenham juntos a solução.

De modo geral, pelo menos na nossa visão, se o sistema está bem aderente a necessidade de informação do cliente, as respostas da inteligência artificial estão sendo assertivas e o próprio usuário gosta de apresentar os resultados reais gerados, então temos um caso de sucesso!

Conclusões

Apesar dos bilhões gastos em BI, os dados ainda permanecem inacessíveis para a grande maioria dos usuários de negócios que estão clamando para tomar decisões realmente baseadas em dados. Aqui apresentamos sete pontos (quase mandamentos) relevantes em nossa experiência com dezenas de projetos de análise, sugerindo uma oportunidade para implantação de melhoria dos níveis de maturidade de Data Analytics das organizações que nos seguem. Também, não foi objetivo citar tecnologias específicas para cada caso, mas mostrar pontos de atenção para mitigar possíveis riscos gerenciais inerentes às complexidades de projetos da Data Analytics.

 

Aperfeiçoando a segurança pública com Data Analytics

Aperfeiçoando a segurança pública com Data Analytics

Neste artigo apresentaremos o Case da Secretaria de Segurança Pública de Santa Catarina (SSP), organização que impacta direta/indiretamente a vida de 6.7 milhões de pessoas e que busca ser referência nacional/internacional na gestão da segurança apoiada por dados e inteligência artificial. O estudo de caso mostra como tem sido a caminhada da SSP nos níveis de cultura de Data Analytics do nível 2 para o nível 3, apresentando insights relevantes às organizações de porte similar que buscam estruturar seus processos de analytics com menor risco no menor tempo, alavancando oportunidades com uso de Inteligência Artificial.

Primeiros desafios

Compartilhar e interpretar informações são aspectos essenciais para uma gestão pública transparente e eficaz. Organizações públicas e/ou privadas têm sido tradicionalmente compartimentadas e um dos desafios mais básicos é, portanto, o de conectar os “silos”. Silo nesse contexto refere-se a informações autocontidas com pouca ou nenhuma comunicação entre unidades da organização. No contexto da SSP uma tarefa que se repete em grande parte do trabalho dos gestores de área, além de conectar silos, é amenizar problemas de diversas naturezas. Pode ser a falta de comunicação entre os setores e membros da equipe, pouco tempo para pensar estrategicamente, má distribuição de informações ou baixa agilidade das tarefas rotineiras.

O início do relacionamento entre as organizações se deu no ano de 2017 nos cursos de introdução à cultura de Data Analytics da Aquarela e também nas diversas interações ocorridas no ecossistema de inovação de Florianópolis .

A implantação do projeto trouxe um grande desafio: para que se tenha uma ferramenta ideal de apoio à decisão, precisamos que todos os dados estejam integrados e atualizados.

Na época a secretaria já contava com diversas coletas de dados e já alguns casos pontuais de sucesso com a implementação de BI. O nível 2 de maturidade de Data Analytics se refere a uma situação onde vários dados já eram coletados de alguma forma, porém desacoplados de arquitetura voltada para Data Analytics. Em uma analogia é como se os materiais da casa estivessem todos no terreno, mas a casa em si não estava pronta para morar.

Esta falta de arquitetura de análise gerou grandes dificuldades de garimpar dados dentro da SSP. Por exemplo, alguém pergunta sobre um dado e ninguém sabe quem é a pessoa certa que detém a informação confiável e precisa. Quando isso acontece, além de tempo perdido, gera stress nas equipes.

Um problema era o alinhamento entre os órgãos, pois muitos setores não conheciam informações a respeito dos outros, mesmo que trabalhassem juntos em algumas ações. O projeto Analytics chegou com o intuito de concentrar e compartilhar essas informações. Outra questão importante a ser resolvida foi a tempestividade. Muitos dados estavam desestruturados, o que gerava grande esforço para compilação e uso pelos gestores.  Era necessário que todos dados (ou a maior parte deles) estivessem integrados e atualizados.

Armazenar informações é fácil, mas dar um sentido a isso é difícil. Isto é especialmente desafiador quando você é impedido devido aos limites tecnológicos, que era a realidade da instituição. Informações e conhecimentos são livres, porém os insights eram raros e de difícil comprovação

Atividades do projeto

Diferentemente da gestão tradicional de projetos que se apresentam bastante determinísticos, os projetos de Data Analytics, por outro lado, desafiam os gestores por demandar uma orquestração de ações extremamente específicas para cada caso.

Ao longo do período do projeto, foram necessárias diversas interações internas e externas dos times da SSP até se chegar a conformação da versão 1.0 do escritório de análise. Abaixo listamos algumas das principais atividades :

  • Definição dos papéis de Data Analytics para os níveis de gestão do projeto, gestão de processo, segurança e integração de dados;
  • modelagem de dicionários de dados integrados (O que são dicionários de data analytics?);
  • aquisição das licenças da ferramenta de BI – Qlik sense. A SSP encontrou solução para lidar com esses problemas a partir da adoção de uma única ferramenta tecnológica de Business Intelligence (BI), denominada projeto Analytics;
  • geração de rápidas prototipações vinculadas às áreas da SSP sempre em conformidade com os 3 requisitos básicos de análise (objetivo de negócio, dados disponíveis e processos administrativos);
  • definição da arquitetura de análise com a quebra dos processos por áreas de atuação e segmentação da segurança dos acessos;
  • integração de dados e testes em grande escala;
  • criação da marca do escritório de dados chamado Analytics;
  • parceria com o HUBSSP – o primeiro laboratório de inovação em Segurança Pública do Brasil;
  • pactuar fluxos de informações mais efetivos junto aos órgãos e trabalhamos para garantir que a versão mais atualizada dos dados esteja sempre disponível;

Resultados e situação atual

O Projeto Analytics vem conectando a SSPSC desde a raiz até o topo da árvore e tem sido um absoluto agente de mudança na instituição, transformando a cultura organizacional e aumentando a eficiência da gestão pública. Hoje esse ambiente analítico conta com cento e cinco logins alocados para gestores de todos os órgãos que fazem parte da estrutura da Segurança Pública catarinense:

  • PMSC
  • PCSC
  • IGP
  • CBMSC
  • DETRAN

O ambiente é acessado por gestores de áreas administrativas e operacionais, tanto os que atuam na camada tática quanto estratégica das instituições, numa visão de uso horizontal da plataforma. Assim, o Analytics conseguiu otimizar a circulação das informações entre os setores, pois qualquer servidor pode ser capacitado para consultar informações disponíveis na plataforma e assim pensar estrategicamente. Desde a implantação do projeto,  o acesso à informações, além de ficar ao alcance de todos os públicos com poucos cliques, contempla gráficos que promovem melhor visibilidade e clareza durante a interpretação dos relatórios.

A nova estrutura possibilita, ainda, economia de tempo com a apuração dos dados, reduzindo atrasos nas análises de rotina, pois é muito mais fácil acompanhar os indicadores chave regularmente. Gestão de Contratos (vigência, orçamentos), RH (lotação dos servidores por órgão, faixa etária, grau de instrução), Gestão da Frota (características da frota por modelo, quilometragem rodada, infrações por veículo), Patrimônio (aquisição de bens materiais/móveis por tipo, período, por região) e Operacional (atendimentos policiais por tipo e região em um determinado período), são exemplos de painéis de análises disponíveis na solução.

Com o uso do BI na SSP, qualquer gestor pode consultar um dado. Esses são alguns dos problemas e soluções que o uso do Analytics vem resolvendo e consequentemente vem abrindo caminho para a aplicação de IA nos dados já estruturados (isso abordaremos em outro artigo). Contudo, sabemos da importância em se manter a governança e auditoria desse ambiente para estarmos seguros de que os relatórios estarão disponíveis apenas àqueles que foram designados. Logo, o compartilhamento de informações é propagado de maneira orquestrada e organizada, com total governança e gerenciamento desempenhados pela Coordenadoria de Gestão do Conhecimento da Divisão de Tecnologia da Informação e Comunicação da SSP.

Dashboard de gestão das câmeras: programa de videomonitoramento Bem Te Vi.

 

Visualização integrada dos chamados 193 cobrindo todos os municípios do estado.

Visualização integrada dos chamados 193 cobrindo todos os municípios do estado.

A estratégia adotada para o caso é a gestão centralizada de conteúdo dos dados. Assim, quando um indicador é criado ele pode ser utilizado por qualquer pessoa que tenha acesso ao ambiente analítico, minimizando erros de conceito e fazendo com que todos utilizem a mesma visualização e enxerguem os mesmos números. A área de TI passou a desempenhar um papel de gestora desse “barramento de dados”, possibilitando o uso e reuso das aplicações analíticas, garantindo uma visão integrada  das informações e a governança do projeto.

O aumento do nível de maturidade no tratamento e manipulação de informações usadas no processo decisório e na gestão do negócio fez com que falar em dados passasse a fazer parte do dia a dia dos gestores públicos e isso vem melhorando a cada dia. Além disso, houve início do processo de democratização de acesso aos dados. Através da parceria com o HUBSSP, o time do projeto Analytics realiza seminários sobre temáticas de “Dados & Tecnologia”, com o objetivo de falar em dados. A partir dessa iniciativa começou efetivamente a execução do plano de mudança para elevar a maturidade organizacional em Data Analytics. Esse processo de alfabetização em dados é fundamental pois faz com que os gestores desmistifiquem o uso de ferramentas de BI, estabelecendo uma cultura organizacional pautada em análise de dados.

Falar sobre Data Analytics em órgãos públicos é uma disrupção, afinal ainda é uma temática pouco explorada apesar da necessidade diante do indiscutível e acelerado processo de digitalização das organizações. É preciso modificar ideias e pensamentos, romper paradigmas e atuar fortemente na mudança da cultura corporativa, sendo imprescindível ampliar essa discussão dentro do cenário corporativo governamental.

O Analytics SSP permitiu uma visão panorâmica como um raio-x institucional, o que resultou em ações que agregam diretamente para toda população. A solução beneficia diversos níveis gerenciais das instituições: quando é preciso tomar alguma decisão o acesso é fácil pois informações de todos os órgãos da SSP encontram-se reunidas em um só local, de forma rápida e ágil. Com essa aplicação, não é preciso garimpar dados, o que diminui o tempo de análise e tomada de decisão.

O grande objetivo é transformar a SSP numa organização orientada por dados. O próximo desafio é ampliar o debate institucional na temática de dados abertos e uso de técnicas de Inteligência Artificial e caminhar para o nível 4 de maturidade de Data Analytics. Buscar parcerias e aprendizados tanto com a academia como com o mercado privado é um caminho que a SSP tem adotado. A Aquarela acompanha e tem apoiado essa jornada da SSP no mundo da análise de dados desde o início. Contribuiu ainda com o material digital publicado no blog, como infográficos e e-books, que serviram de base teórica e metodológica para delinear estratégias de implantação e desenvolvimento de Data Analytics na SSP.  

Referências

Case do Analytics na revista Touch (pg. 46)