Boas práticas para visualização de dados

Boas práticas para visualização de dados

O processo de visualização de dados consiste na representação de dados de forma mais eficiente e que possibilite um melhor entendimento do problema em questão, normalmente através de gráficos, tabelas e dashboards. 

Essa prática é de grande importância no ambiente de negócios para auxílio na tomada de decisões e de planejamento estratégico. Entretanto, representar dados complexos de uma forma visual simples e que chame a atenção não é uma tarefa fácil. 

Por isso, este texto irá abordar algumas boas práticas para visualização de dados que podem alavancar o processo de comunicação — podendo ser adotado por times de dados, gerência, marketing, comercial, entre outros.

4 boas práticas para visualização de dados

A seguir serão apresentadas algumas boas práticas para o processo de visualização de dados.

1. Entendimento do contexto

O primeiro passo para uma boa visualização de dados é entender o contexto do problema. Antes de sair procurando os melhores gráficos para representar os dados, é preciso entender o público que irá visualizar as informações, de forma a saber quais os pontos esse público considera importante e as melhores formas de chamar a atenção para aquilo que se deseja transmitir. 

Além disso, é necessário ter uma visão clara e objetiva do que será o foco da visualização. Boas reflexões para serem feitas para entender o contexto são: o que a pessoa deseja? Quais dúvidas ela pode ter? A minha visualização cobre essas questões?

2. Escolha da visualização adequada

Existem diversas formas de visualização de dados e cada uma é desenvolvida para atender a um determinado propósito. Por exemplo, se eu estou analisando duas variáveis e gostaria de mostrar de forma visual a correlação entre elas, um gráfico de dispersão (scatter plot) atende muito bem esse propósito.

Exemplo de Gráfico de Dispersão

Para acompanhar séries temporais, um gráfico de linha é uma boa opção ou então podemos comparar e acompanhar duas variáveis utilizando um gráfico de barras. Nesse sentido, é necessário garantir que a visualização escolhida atende ao propósito do que se deseja comunicar.

Exemplo de gráfico de linha
Exemplo de gráfico de barras

3. Simplicidade

É normal que queiramos visualizar uma grande quantidade de informações, entretanto, é preciso entender o que de fato é essencial para o contexto. Uma visualização com diversos gráficos e tabelas gera muita poluição visual e acaba desfocando a atenção e, no fim, nenhuma informação é transmitida direito. 

Portanto, a ideia é: seja simples. Comunique o que precisa ser comunicado da maneira mais simples e direta possível, de forma a atender o contexto e comunicar através da visualização dos dados a ideia que se deseja transmitir.

4. Contar uma história

Uma prática muito boa e didática que auxilia muito na visualização dos dados e efetividade da comunicação é o storytelling. Essa atividade consiste na comunicação através de uma história com o auxílio da visualização dos dados. 

Dessa forma, é possível montar uma visualização que tenha uma lógica e apresente as informações em uma sequência que faça com que o público alvo absorva as informações da melhor maneira possível.

Conclusão – Boas práticas para visualização de dados

A visualização de dados é uma ferramenta muito poderosa para tirar insights e compreender melhor os dados. Além disso, também atua como um instrumento de comunicação e planejamento
Neste texto, pudemos ver algumas boas práticas que ajudam a desenvolver uma boa visualização de dados. De forma complementar, fica a sugestão de um excelente livro sobre este assunto, chamado de Storytelling with data, da autora Cole Nussbaumer Knaflic.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

Desafios na gestão de produtos de dados

Desafios na gestão de produtos de dados

A união da gestão de produtos com os produtos de dados não é uma tarefa simples para Product Owners que se aventuram nessa missão. Quando lidamos com dados como base do produto, há uma grande sensibilidade no desenvolvimento do projeto.

É muito provável que POs enfrentem algumas dificuldades ao longo do processo de gestão. Por isso, neste artigo, elencamos 5 desafios na gestão de produtos de dados que, possivelmente, acontecerão com profissionais da área.

Definir o escopo

Como a área de dados envolve muitas variáveis, é comum a formulação de hipóteses que poderão ser respondidas a partir da transformação e análise dos dados disponíveis. Por isso, há uma dificuldade em saber até onde o produto ou projeto vai e quais os problemas a solução irá resolver. 

No desenvolvimento de softwares comuns é frequente a mudança de escopo ao longo do processo de Discovery. Porém, quando envolvemos dados, esse processo se torna ainda mais complexo e passível de mudanças, já que existem as possibilidades de não ser viável da forma que foi inicialmente imaginada, dos dados não estarem disponíveis, de ir contra alguma norma ou legislação, entre inúmeros outros desafios.

Quantidade e qualidade de dados

É comum ver nas redes sociais algumas piadas e memes relacionados à expectativa e realidade em relação ao trabalho envolvendo dados. Isso porque muitos cientistas, quando iniciam a carreira, acreditam que irão trabalhar com modelagem e estatística. Mas, apesar de existirem essas tarefas, grande parte do operacional está em transformar e limpar dados.

Não apenas isso, mas também a parte de desenhar uma estrutura e escolher as ferramentas necessárias é uma etapa de grande importância para uma boa gestão de um produto de dados. 

Isso significa que a complexidade de um produto de dados está diretamente relacionada à origem desses dados, quantos dados serão necessários para construir a solução e como esses dados estão organizados.

Time multidisciplinar

Além dos profissionais que estão envolvidos em um software comum, como: desenvolvedores backend e frontend, QAs, UX/UI Designers, um produto de dados abrange outros perfis. A estrutura pode variar de uma empresa para outra, mas no geral é comum encontrar analistas, engenheiros e cientistas de dados fazendo parte da equipe que irá construir o produto. 

Devido ao aumento dos stakeholders, a gestão do projeto se torna mais complexa e, portanto, precisa levar em consideração as necessidades e particularidades desses profissionais na hora de montar o backlog e criar o roadmap.

Comunicação com clientes e fornecedores

Devido a multidisciplinaridade que um produto de dados envolve, é comum que a comunicação sobre o produto para os clientes e fornecedores precise ser cheia de informações e, ao mesmo tempo, clara e objetiva. 

Nem todos os envolvidos conhecem as tecnicidades e nem precisam conhecer. Mas todos precisam estar alinhados para que o processo siga sem grandes obstáculos. A comunicação entre os stakeholders do produto é um processo contínuo e precisa ser constantemente revisado.

Agilidade

Há uma certa dificuldade no uso de metodologias ágeis na gestão de produtos de dadospor conta da complexidade dos processos e, em muitos casos, uma constante mudança no escopo do projeto.

As metodologias ágeis são ferramentas muito úteis para o processo de gestão. Entretanto, é necessário compreender a melhor forma de utilizá-las como suporte, não permitindo que o projeto seja prejudicado por conta das limitações de uma metodologia. 

Por isso, é muito comum que o desenvolvimento de um produto de dados utilize mais de uma metodologia ao longo do projeto, adaptando diferentes etapas e processos às diretrizes que mais se adequam às necessidades da equipe.

Conclusão – Desafios na gestão de produtos de dados

A gestão de produtos de dados, de uma forma geral, irá envolver processos complexos e desafios ao longo do desenvolvimento do projeto. O envolvimento de diferentes personagens ao longo do desenvolvimento, sejam eles parte da equipe interna, clientes ou fornecedores, irá demandar uma comunicação clara para todos os níveis de conhecimento dos envolvidos.

Além disso, é preciso ter grande atenção quanto à origem, volume, organização e qualidade dos dados para enxergar com clareza os problemas que o produto poderá solucionar ou, em alguns casos, os problemas que ele não poderá solucionar e qual o melhor caminho a seguir, mesmo frente à adversidades e empecilhos ao longo dos processos.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

Web scraping: coleta de dados automatizada

Web scraping: coleta de dados automatizada

Web scraping é uma ferramenta que permite a coleta de dados automatizada de websites. Essa técnica possibilita a aquisição de grandes quantidades de dados em tempo reduzido, permitindo assim análises e estudos para desenvolvimento de modelos de inteligência artificial. Diversos setores fazem uso e se beneficiam dessa ferramenta, portanto vale a pena conferir melhor o que é, como funciona e qual é a sua utilidade.

Digamos que você queira obter informações de um site. Basta entrar nesse site, procurar a informação desejada e então copiá-la para um arquivo. Imagine agora que você precisa obter informações de dezenas de sites. O processo se torna muito mais demorado e cansativo de ser realizado manualmente. E se pudéssemos automatizar esse processo de busca, adquirindo e armazenando diversas informações de diversos sites distintos? É nesse cenário que entra o conceito de web scraping.

O que é web scraping?

Web scraping pode ser entendido como uma coleta de dados automatizada de websites. Dessa forma, é possível adquirir e armazenar grandes quantidades de dados disponíveis publicamente em diversos sites. Posteriormente, podemos utilizar esses dados para análise e obtenção de insights, comparação de dados, criação de modelos de inteligência artificial e outras aplicações. Alguns exemplos de dados coletados por web scraping podem ser preços de mercadorias, dados de monitoramento climático e ações.

Como funciona?

É muito comum que os dados de diversos sites sejam não estruturados, misturando informações de textos, imagens e links. Dessa forma, a utilização de web scraping converte esses dados para um formato estruturado, agrupando informações semelhantes em uma planilha, por exemplo, para melhor visualização e acesso.

O conceito básico envolvido no web scraping é: 

  1. Especificar o site do qual se deseja obter informações;
  2. Solicitar o código HTML da página do site;
  3. Identificar no código a marcação das informações a serem coletadas;
  4. Salvar os dados no formato desejado.

Pode-se aplicar essa metodologia utilizando a linguagem de programação Python em conjunto com algumas bibliotecas voltadas para web scraping.

Qual a utilidade do web scraping?

Podemos utilizar o Web scraping em diversas áreas para a mesma finalidade: coleta de dados.

Pesquisa de mercado: é muito comum a utilização da coleta de dados automatizada para obtenção de informações de concorrentes, por exemplo: preço, vendas e demanda. Essas informações são de grande interesse para auxiliar na decisão de estratégias de precificação e promoções.

Monitoramento de notícias: outra aplicação é para obtenção e estruturação de notícias. Muitas empresas utilizam notícias para tomada de decisão, por isso é tão importante o monitoramento automatizado dessas informações.

Monitoramento do tempo: dados climáticos são de extrema importância para os setores agropecuário e de energia, tendo assim grande impacto em sua produção e geração. Diversas empresas utilizam a coleta de dados do tempo para a construção de modelos de inteligência artificial e tomada de decisão.

Sistemas de recomendação: grandes empresas de redes sociais coletam grandes quantidades de dados para o desenvolvimento de sistemas de recomendação de seus produtos para os usuários, considerando o seu histórico de buscas e interesses.

Conforme mencionado, o web scraping automatiza a coleta de dados e, posteriormente, utilizam-se esses dados para alguma finalidade dentre tantas áreas.

Web scraping – Considerações finais 

Para uma grande geração de dados, é necessário ferramentas para lidar com coletas e armazenamento. A técnica de web scraping é amplamente utilizada por empresas para coletar e armazenar automaticamente grandes quantidades de dados de diversas fontes que são posteriormente utilizadas para o benefício da empresa.Vale ressaltar que o web scraping é uma ferramenta única para cada site, sendo que sua construção varia de acordo com o site a ser examinado. Além disso, se o site sofrer alguma atualização ou alteração, é muito possível que o scraper (código que implementa o web scraping) desse site também precise ser alterado. Portanto, apesar da facilidade trazida pelo scraper, é necessário um constante monitoramento para garantir seu bom funcionamento.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

Segurança na gestão de dados

Segurança na gestão de dados

Os dados se tornaram um dos ativos mais valiosos das organizações no mundo atual. Sua importância se tornou evidente a partir da democratização do acesso à internet, meios computacionais, e adoção de técnicas de IA e Machine Learning em larga escala. 

Isso, aliado ao poder da computação atual, possibilitou o uso dos dados para análises e previsões que antes eram impossíveis, revolucionando as operações e a forma como as empresas fazem negócios.

Em um cenário como esse, torna-se necessário adotar técnicas de segurança na gestão de dados a fim de garantir a integridade das informações confidenciais de clientes e da própria organização. 

Segundo reportagem do CanalTech, empresas devem investir cerca de 83% em segurança digital em 2022. Sendo assim, selecionamos aqui algumas ações que podem ser adotadas para reforçar a segurança na gestão de dados das organizações.

Política de backups e snapshots

Implementar uma política de backup e restauração é de absoluta importância. Com procedimentos e ações bem definidas, é possível recuperar os sistemas afetados por falhas ou ataques em menor tempo, com mais efetividade e integridade dos dados.

Ter snapshots recentes dos servidores web e de banco de dados é essencial para garantir o funcionamento das operações em caso de desastres. Uma política de snapshots regulares reduz o risco de perda de dados e proporciona um menor tempo de downtime.

Replicação de dados

As bases de dados são, sem dúvida, um dos ativos mais valiosos das organizações, sem eles, operações inteiras simplesmente param. 

Uma boa política de gestão de dados deve levar em consideração a necessidade de criar réplicas dos bancos de dados a fim de garantir a alta disponibilidade das informações em eventos de natureza inesperada. 

Criptografia de arquivos e discos

Implementar criptografia nos arquivos e discos de armazenamento deve ser mandatório. As boas práticas de segurança na gestão de dados preveem o uso da criptografia em todos os estágios do ciclo de vida dos dados.

Computadores e laptops corporativos também devem utilizar-se da criptografia para garantir que arquivos não sejam acessados indevidamente. Assim, mesmo que o disco rígido caia em mãos erradas, o acesso aos dados contidos nele estará protegido pela criptografia.

Além disso, o tráfego das informações pela internet deve estar sempre protegido por certificados SSL ou TLS. Dessa forma, evita-se que os pacotes sejam interceptados em trânsito por estarem sendo transmitidos de forma desprotegida.

O princípio do menor privilégio

O princípio do menor privilégio é a prática de limitar os direitos de acesso dos usuários ao mínimo necessário para a realização de uma tarefa. Isso garante que o usuário ficará restrito aos recursos definidos pelo administrador da organização.

As permissões normalmente são concedidas aos grupos, que podem ser um departamento ou um cargo. Elas serão definidas com base na função desempenhada por este cargo, impedindo assim um colaborador de acessar recursos não relativos às suas atribuições.

Em caso de necessidade de permissionamento adicional, esse pode ser concedido de forma definitiva ou temporária para que atenda apenas ao período necessário para o desempenho da atividade.

Revogação de acesso

A revogação de acesso é uma política de segurança crítica para uma organização. 

O acesso de colaboradores desligados e contas de sistema inutilizadas devem ser revogados o mais rápido possível para impedir que sejam usadas indevidamente para acessar os dados da organização. 

Uma boa prática é desativar o usuário em vez de excluí-lo. É importante poder reativar o usuário novamente em caso excepcional. 

VPN

O acesso aos servidores cloud e sistemas importantes deve-se preferencialmente estar protegido por uma conexão do tipo VPN (Virtual Private Network).

Ao estabelecer uma VPN, cria-se um túnel virtual entre a origem e o destino, proporcionando assim um ambiente seguro para o tráfego dos dados.

Buckets e Cloud Storage

Aqui, recomenda-se utilizar o serviço mais adequado à necessidade dos dados a serem armazenados. 

A gestão de dados deve considerar o tempo estimado para recuperação dos dados e o custo por objeto armazenado, que pode variar de acordo com a necessidade.

Google e AWS, por exemplo, oferecem diferentes classes de armazenamento, em diferentes características e custos envolvidos. 

Armazenamentos do tipo Archive, por exemplo, possuem um custo menor, mas um tempo de recuperação que pode levar horas, sendo inadequado para backups de sistemas em produção, mas ideal para arquivar dados que não serão acessados, como arquivos XML de notas fiscais.

Já os do tipo Standard, são ideais para sistemas em produção, pois seu tempo de recuperação é imediato, permitindo uma ação rápida em casos excepcionais.

Segurança na gestão de dados – Considerações finais

Como vimos, à medida que os dados tornam-se cada vez mais importantes para as empresas, devido a seu valor estratégico, aumenta a preocupação com a segurança da informação.

Nesse cenário, é imprescindível às empresas a adoção das medidas de segurança listadas anteriormente a fim de garantir a integridade das informações confidenciais de clientes e da própria organização. No entanto, cabe ressaltar que garantir a segurança na gestão de dados é um trabalho contínuo das empresas, que exige atenção e atualização constantes.  

E aí, gostou das dicas para reforçar a segurança na gestão de dados? Então deixe o seu comentário.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

Dicionário de Dados Tradicional vs Analítico

Dicionário de Dados Tradicional vs Analítico

Anteriormente explicamos com detalhes o que é um dicionário de dados de Data Analytics, apresentamos seu conceito e diferenças quando comparados com dicionário de dados tradicionais.

Uma das principais diferenças entre dicionários tradicionais e de Data Analytics é que os dicionários analíticos integram conhecimentos negócio em diferentes níveis de granularidade, removendo ambiguidades sem priorizar requisitos de sistemas. Isso não deve reduzir a importância dos dois tipos de dicionários em seus contextos. (Joni Hoppen)

Embora a finalidade de ambos os dicionários seja a mesma, ambos buscam unificar e padronizar informações sobre os dados guardados em sistemas de informação.

Portanto, neste artigo vamos apresentar um comparativo entre os dois tipos de dicionário de dados e o seu papel nas atividades das empresas.

Dicionários Tradicionais

Os modelos tradicionais, são mais complexos e detalhados e fazem parte de de processos maduros e boas práticas de engenharia de software, informando até o tamanho do texto permitido em cada coluna. Por exemplo, a coluna nome do paciente tem um limite de 50 caracteres.

Estas informações são relevantes para garantir o planejamentos da infraestrutura ou stack tecnológico, tais como escolha de uma linguagem de programação, o tipo de integração de sistemas e diversas atividades que garantem a operação diária da empresa.

Contudo, quando se planeja utilizar a Inteligência Artificial e algoritmos de mineração de dados, estas informações podem ser irrelevantes e adicionam grande complexidade ao processo de análise.

Dicionários de Data Analytics (dados analíticos)

Para que um modelo tradicional de dicionário (mais completo) seja adequado aos processos de Data Analytics na criação de datasets (o que é um dataset?), ele precisa ser ajustados aos perfis profissionais que irão consumir a informação.

Os clientes dos dicionários analíticos são, sobretudo, cientistas de dados e analistas de negócios que possuem um grande interesse na assertividade das predições/prescrições dos modelos estatísticos e integração com o modelo de negócio.

Em data analytics, os dicionários estão mais focados nos significado das linhas (registros) dos datasets e das colunas das tabelas (variáveis, fatores, características) para que pessoas envolvidas pensem sobre o problema de negócio (o que se quer analisar) na forma mais prática e simplificada possível.

Tabela comparativa

Na tabela a seguir, apresentamos algumas sugestões de atividades e os clientes dos dicionários tradicionais da engenharia de software e dos dicionários analíticos.

AtividadeTradicional
(Tecnologia da Informação)
Dicionário de Analytics
(Escritório de Ciência de dados)
Ambos
Integração de sistemasX  
Modelagem de bancos de dados;X  
Migração de sistemasX  
Higienização de dados  X
Criação de modelos, exploratórios,  preditivos e prescritivos. X 
Geração de relatórios analíticos  X
Dados transacionaisX  
Dados analíticos X 
Tabela comparativa de atividades e dicionários de dados

Modelo de dicionário de dados grátis

Neste artigo (o que são dicionários de dados analíticos?) é possível baixar um modelo de dicionário que vai direto ao ponto.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor