O processo de visualização de dados consiste na representação de dados de forma mais eficiente e que possibilite um melhor entendimento do problema em questão, normalmente através de gráficos, tabelas e dashboards.
Essa prática é de grande importância no ambiente de negócios para auxílio na tomada de decisões e de planejamento estratégico. Entretanto, representar dados complexos de uma forma visual simples e que chame a atenção não é uma tarefa fácil.
Por isso, este texto irá abordar algumas boas práticas para visualização de dados que podem alavancar o processo de comunicação — podendo ser adotado por times de dados, gerência, marketing, comercial, entre outros.
4 boas práticas para visualização de dados
A seguir serão apresentadas algumas boas práticas para o processo de visualização de dados.
1. Entendimento do contexto
O primeiro passo para uma boa visualização de dados é entender o contexto do problema. Antes de sair procurando os melhores gráficos para representar os dados, é preciso entender o público que irá visualizar as informações, de forma a saber quais os pontos esse público considera importante e as melhores formas de chamar a atenção para aquilo que se deseja transmitir.
Além disso, é necessário ter uma visão clara e objetiva do que será o foco da visualização. Boas reflexões para serem feitas para entender o contexto são: o que a pessoa deseja? Quais dúvidas ela pode ter? A minha visualização cobre essas questões?
2. Escolha da visualização adequada
Existem diversas formas de visualização de dados e cada uma é desenvolvida para atender a um determinado propósito. Por exemplo, se eu estou analisando duas variáveis e gostaria de mostrar de forma visual a correlação entre elas, um gráfico de dispersão (scatter plot) atende muito bem esse propósito.
Exemplo de Gráfico de Dispersão
Para acompanhar séries temporais, um gráfico de linha é uma boa opção ou então podemos comparar e acompanhar duas variáveis utilizando um gráfico de barras. Nesse sentido, é necessário garantir que a visualização escolhida atende ao propósito do que se deseja comunicar.
Exemplo de gráfico de linhaExemplo de gráfico de barras
3. Simplicidade
É normal que queiramos visualizar uma grande quantidade de informações, entretanto, é preciso entender o que de fato é essencial para o contexto. Uma visualização com diversos gráficos e tabelas gera muita poluição visual e acaba desfocando a atenção e, no fim, nenhuma informação é transmitida direito.
Portanto, a ideia é: seja simples. Comunique o que precisa ser comunicado da maneira mais simples e direta possível, de forma a atender o contexto e comunicar através da visualização dos dados a ideia que se deseja transmitir.
4. Contar uma história
Uma prática muito boa e didática que auxilia muito na visualização dos dados e efetividade da comunicação é o storytelling. Essa atividade consiste na comunicação através de uma história com o auxílio da visualização dos dados.
Dessa forma, é possível montar uma visualização que tenha uma lógica e apresente as informações em uma sequência que faça com que o público alvo absorva as informações da melhor maneira possível.
Conclusão – Boas práticas para visualização de dados
A visualização de dados é uma ferramenta muito poderosa para tirar insights e compreender melhor os dados. Além disso, também atua como um instrumento de comunicação e planejamento. Neste texto, pudemos ver algumas boas práticas que ajudam a desenvolver uma boa visualização de dados. De forma complementar, fica a sugestão de um excelente livro sobre este assunto, chamado de Storytelling with data, da autora Cole Nussbaumer Knaflic.
Cientista de dados na Aquarela. Graduado em engenharia elétrica pela UFSC. Entusiasta nas áreas de ciência de dados, aprendizado de máquina e processamento de sinais.
Neste artigo vamos explicar de forma simplificada o HDFS (Hadoop Distributed File System), tecnologia que dá suporte a muitas estratégias de gestão de dados analíticos que impactam diretamente na elevação dos níveis de maturidade analítica.
Deter um conhecimento básico deste conceito é fundamental para gestores interessados em adotar uma cultura e plataforma de dados escalável e profissionais com foco na área de engenharia de dados.
O que é o HDFS?
O HDFS é um sistema de arquivos distribuídos projetado para permitir que grandes quantidades de dados sejam armazenadas de maneira acessível em clusters de computadores. Ele foi criado para permitir que empresas processassem grandes quantidades de dados de maneira rápida e eficiente, o que é essencial em um mundo cada vez mais dependente de dados.
É importante não confundir o Hadoop, ou ecossistema Apache Hadoop, com o HDFS, que é a tecnologia do particionamento dos discos onde os dados estarão armazenados fisicamente utilizando uma estratégia de computação distribuída (várias máquinas).
O Hadoop, por outro lado, é o framework (Stack Tecnológico) de processamento de dados que utiliza, entre outras ferramentas, o HDFS para armazenar e processar grandes quantidades de dados de maneira eficiente.
Atualmente, o conhecimento sobre HDFS é um dos requisitos mais importantes para profissionais da área de computação e TI interessados em infraestrutura de grandes bases de dados.
Por que o HDFS foi criado?
A solução técnica do HDFS surgiu para atender problemas de armazenamento de dados. Estes problemas começaram a se tornar evidentes a partir dos anos 90 com o rápido crescimento de dados gerados por computadores atuando em rede e, mais recentemente, dispositivos móveis de internet das coisas (IoT).
Um ponto importante é que nesta evolução os dados cresceram apenas em quantidade como também em termos de variedade (Entendendo as diferentes naturezas e tipos de dados). Em outro artigo (Dos dados à inovação com Analytics) mostramos como se dá esta evolução no crescimento de dados e tecnologias de apoio desde a captura do dado até as análises avançadas para apoio ao conceito de indústria 4.0.
Neste contexto de grande quantidade e variedade de dados que a solução tecnológica HDFS foi gerada, fazendo com que ele fosse projetado para ser tolerante a falhas (por funcionar em rede) e para trabalhar com dados não estruturados de maneira eficiente.
O fato do HDFS ter sido desenvolvido para operar em rede o tornou, além de seguro, escalável, permitindo que novos computadores possam ser agregados ao cluster e, assim, chegar a quantidade de armazenamento muito superior e de fácil acesso quando comparados com tecnologias da época.
Em termos de escala, costuma-se utilizar o framework Hadoop e o HDFS em conjuntos de dados partindo de 100GB, podendo chegar até mesmo aos Petabytes (1 Petabyte ≅ 1 milhão de Gigabytes).
Como é estruturada a hierarquia HDFS?
O HDFS (cluster), como o “distribuído” no seu próprio nome já diz, é composto por várias máquinas que são chamadas de “nodos”. Esses nodos podem ser basicamente de 2 tipos:
Nodos de nomes (nodos de meta dados)
Os nodos de nome, ou Namenodes, são os responsáveis por manter o mapeamento dos arquivos para os nodos de armazenamento, ou Datanodes. Na prática, eles mantêm uma lista dos blocos em que cada arquivo foi dividido e para quais Datanodes eles foram enviados para serem armazenados.
Quando um usuário quer obter uma informação ou até mesmo escrever um novo arquivo no HDFS, ele envia uma solicitação ao Namenode, que por sua vez encaminha essa solicitação diretamente ao Datanode correspondente.
Nodos de dados (comumente também chamados de nodos de armazenamento)
Os nodos de dados, ou Datanodes em inglês, guardam os dados em si. No entanto, eles o fazem de forma particionada, armazenando tudo em blocos de mesmo tamanho (normalmente 128MB), após serem divididos e distribuídos.
Cluster HDFS
Esse conjunto de máquinas/nodos é chamado de cluster HDFS, e é justamente o responsável por receber e particionar os arquivos em blocos e, em seguida, distribuir esses pedaços pelos Datanodes, ao mesmo tempo que armazena essas localizações no Namenode.
Outra função muito importante do cluster é ser tolerante a falhas, e por esse motivo sempre há cópias de cada bloco espalhadas pelos Datanodes para caso de falha em um dos servidores. Esse número de cópias é determinado pelo “fator de replicação” do cluster.
Apesar de estarmos falando em arquivos aqui, o HDFS consegue armazenar uma grande variedade de tipos de dados de forma inteligente e particionada, como tabelas relacionais, coleções de dados não relacionais, arquivos de fato, entre outros.
Como funciona o método de armazenamento HDFS?
Em uma aplicação centralizada, normalmente os dados são trazidos até a aplicação para que sejam processados e consumidos. Já no HDFS, o conceito é completamente reinventado, e podemos dizer que levamos a aplicação até próximo de onde os dados estão fisicamente guardados.
Como o HDFS consiste, basicamente, em dados armazenados de forma distribuída, conseguimos utilizar esse fato como vantagem para obtermos grandes velocidades através do processamento acontecendo paralelamente em vários pontos.
Na figura a seguir, um exemplo ilustrativo de como o cluster HDFS iria armazenar um arquivo de 360MB de forma distribuída pelos nodos:
Primeiramente iria particionar o arquivo em blocos de, no máximo, 128MB (repare que o último bloco ficou com 104MB).
Em seguida, o cluster distribui o primeiro bloco e suas cópias (no nosso caso aqui, 3 cópias ao total) pelos 4 nodos, de forma aleatória, de acordo com sua política de balanceamento de armazenamento.
O processo é repetido para cada um dos blocos até que todo o arquivo tenha sido processado.
O Namenode, nesse momento, contém a localização de todos os blocos (e suas cópias) do arquivo de entrada, o que permite que possamos executar operações em paralelo (ou seja, simultâneas) em cada um dos nodos quando estivermos querendo consultar ou computar dados desse arquivo no futuro.
Impacto da tecnologia nos negócios
O HDFS tem um grande impacto nos negócios, pois é uma tecnologia que permite que empresas desenvolvam “Data Lakes“ para inicialmente preservar seus dados de forma segura e eficiente ao longo do tempo.
Em um segundo momento do desenvolvimento da cultura e base tecnológica do Data Lake, também é possível agregar informações externas e permitir que a empresa elabore pesquisas estruturadas utilizando conhecimento de negócio, ciência de dados e inteligência artificial para alavancar a descoberta de padrões dentro das operações.
Os insights gerados a partir de dados bem armazenados e organizados são valiosos para uma tomada de decisão mais assertiva, o que pode ter um impacto positivo nas operações e nos resultados das empresas.
Esta tecnologia, que vem servindo de suporte ao ecossistema Hadoop, tem um impacto considerável na capacidade das empresas de integrar informações de vários setores da empresa e torná-las acessíveis em uma estratégia de democratização da informação de gestão, impactando diretamente nos níveis de maturidade e governança de dados.
Algumas das principais empresas que utilizam o Hadoop Distributed File System em sua infraestrutura são:
A Amazon utiliza o HDFS para armazenar e processar grandes quantidades de dados de seus sites de e-commerce e de seus serviços de nuvem.
O Facebook utiliza HDFS para processar e armazenar grandes quantidades de dados gerados pelos usuários do site, incluindo publicações, curtidas e comentários.
A Yahoo foi uma das primeiras empresas a utilizar oHdfs em larga escala, e hoje o utiliza para processar e armazenar grandes quantidades de dados gerados por seus usuários, incluindo pesquisas na web, e-mails e outros dados de uso.
O eBay utiliza o HDFS para processar e analisar grandes quantidades de dados gerados pelos usuários do site, incluindo transações de compra e venda.
A Netflix utiliza o Hadoop para processar e armazenar grandes quantidades de dados de uso dos usuários, incluindo dados de streaming de vídeo.
Conclusões e recomendações sobre HDFS
Neste artigo, explicamos o que é a tecnologia HDFS, apresentamos algumas razões para sua criação, incluindo um exemplo de como funciona o armazenamento físico de um arquivo nesta modalidade de partição distribuída em rede e como isso pode impactar a operação das empresas, sendo o engenheiro de dados o profissional responsável pela definição da arquitetura, implantação e manutenção dos clusters.
Em resumo, o HDFS é uma forma inteligente de armazenar e processar grandes quantidades e variedades de dados em rede. Os computadores que utilizam o HDFS são conhecidos como nós ou nodos e são conectados entre si, formando clusters capazes de realizar armazenamento/processamento em grande escala de forma paralela e distribuída.
O HDFS é amplamente utilizado em aplicativos de análise de big data, o que o torna essencial para muitas empresas que dependem de um grande volume de dados para tomar decisões estratégicas.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Ph.D. em Ciência da Computação pela Sapienza Università di Roma (Itália). Doutor em Engenharia e Gestão do Conhecimento pela UFSC. Mestre em Engenharia Elétrica – ênfase em Inteligência Artificial. Especialista em Redes de Computadores e Aplicações para Web, Especialista em Metodologias e Gestão para EaD, Especialista em Docência no Ensino Superior e Bacharel em informática.
Possui experiência acadêmica como Professor, Coordenador, Palestrante e é Avaliador ad hoc do Ministério da Educação (INEP) bem como da Secretaria de Educação Profissional e Tecnológica (MEC) e do Conselho Estadual de Educação (SC).
Nas suas atividades profissionais, atua com de projetos nas áreas de: Ciência de Dados, Inteligência de Negócios, Posicionamento Estratégico, Empreendedorismo Digital e Inovação. Atua como Consultor na área de Projetos para Inovação e Soluções Computacionais Inteligentes utilizando Data Science e Inteligência Artificial.
O ano de 2021 foi um ano de muito trabalho e também de muitas conquistas para a Aquarela Analytics. No Marketing, por exemplo, seguimos nos dedicando a produzir conteúdo de valor para você que nos acompanha, desde artigos até materiais educativos. E foi graças a isso que alcançamos novos leitores no blog da Aquarela e batemos o recorde de acessos em nosso site. Em 2022, prometemos ainda mais conteúdo de qualidade relacionados à Inteligência Artificial, Data Analytics e às tendências desse mercado. Entretanto, antes disso, vamos relembrar os nossos melhores artigos de 2021. Confira.
1 – Previsão de demanda: tudo o que você precisa saber sobre o tema
Em 2021, o queridinho do blog foi o artigo em que apresentamos as principais informações sobre a previsão de demanda, abrangendo o seu conceito, a importância dela, os impactos nos negócios e a sua evolução ao longo da história.
No texto, mostramos que a previsão de demanda é um desafio que as empresas precisam enfrentar para conseguir tomar decisões assertivas e assim gerar melhores resultados. Ela é uma atividade essencial para o planejamento das empresas, pois gera diversos benefícios, os quais também abordamos no post. Leia aqui.
2 – 5 filmes sobre mulheres cientistas
O segundo colocado no ranking dos posts da Aquarela mais lidos em 2021 foi o artigo 5 filmes sobre mulheres cientistas. Nesse post, recomendamos 5 filmes (histórias reais e também de ficção) que mostram a força e a persistência das mulheres cientistas. Cada filme apresentado retrata de alguma maneira a trajetória de mulheres fortes lutando contra o preconceito para conquistar o reconhecimento em sua área de atuação. Vale a pena não só conferir esse post, mas também assistir aos filmes indicados.
3 – Tipos de estratégia de precificação dinâmica
Qual é a essência da precificação e seus principais componentes? Quais os benefícios das ferramentas de analytics em cada componente de precificação? Quem são os responsáveis pela precificação e por que esta definição é relevante? A precificação é relevante apenas para quem precifica?
Para responder esses questionamentos, escrevemos o artigo Tipos de estratégias de precificação dinâmica. Nele apresentamos aspectos fundamentais à estratégia de precificação dinâmica e outros pontos de interesse aos profissionais de gestão que atuam na busca do melhor preço com apoio de Analytics e Inteligência Artificial.
4 – Impactos do home office na saúde mental
A pandemia impôs ao mundo novas formas de viver, dentre elas a necessidade do home office. Essa novidade gerou impactos em diversos aspectos, dentre eles os ocasionados na saúde mental das pessoas.
Devido à importância desse assunto, não nos surpreendemos que o artigo Impactos do home office na saúde mental tenha sido um dos queridinhos do ano, ocupando a quarta posição em nosso ranking dos artigos de 2021 mais lidos nesse ano.
5 – O papel da IA na previsão de demanda na indústria alimentícia
Nesse artigo, apresentamos as principais características da operação de previsão de demanda no setor de alimentos. Além disso, abordamos, com base nas experiências da Aquarela, o papel da estruturação de Analytics e IA na previsão de demanda, temas de destaque e que são um desafio para os gestores, matemáticos e cientistas de dados. Vale a pena a leitura.
Os cinco melhores artigos de 2021 – Considerações finais
Esperamos que você tenha gostado de conhecer os 5 melhores artigos da Aquarela de 2021 e que o nosso blog esteja agregando à sua carreira ou ao seus negócios. Conforme prometemos, em 2022, seguiremos preparando os melhores conteúdos relacionados à Inteligência Artificial e ao Data Analytics. Então, continue nos acompanhando. Até a próxima.
O setor de alimentos e a segurança alimentar são uma preocupação global e o Brasil é um dos principais responsáveis pela demanda mundial de alimentos (Estadão). Nesse sentido, quais os principais desafios relacionados à gestão de dados para a otimização da eficiência operacional do Brasil no setor alimentício/agronegócio que hoje representa 21% do PIB do Brasil?
Este artigo aborda o tema com o viés da experiência da Aquarela em projetos de Advanced Analytics e de Inteligência Artificial realizados em grandes operações no Brasil. O risco da falta de informações é tão relevante como o seu excesso e a falta de análise, podendo impactar a eficiência da cadeia logística do setor como um todo.
Abaixo, elaboramos alguns destes principais riscos.
Caracterização do setor de alimentos
O setor de alimentos é bastante variado devido à grande extensão da cadeia produtiva, que vai desde os insumos agrícolas, a industrialização, logística do transporte até a comercialização nos mercados consumidores e por fim o consumidor final.
Como características fundamentais, o setor de alimentos está diretamente ligado a fatores que podem ter grande variabilidade e pouco controle, tais como:
Clima (temperatura, volume de água, luminosidade e outros);
Fatores econômicos, como flutuações de moeda;
Infraestrutura;
Demanda do mercado interno/externo.
Além desses fatores, abaixo elencamos alguns relacionados à gestão dos dados. Também mostramos como eles, se bem organizados, podem ajudar a mitigar os efeitos das variáveis não controláveis da cadeia de suprimentos de alimentos.
01 – Incompletude das informações
A cadeia de suprimentos é bastante grande. Isso torna os dados complexos e de difícil interpretação devido às diferentes fases de cada processo, cultura e região. Além disso, faz com que muitas decisões importantes de planejamento ocorram com bastante limitação informacional e alto risco. Em outras palavras, as decisões são tomadas sem uma visão do cenário completo da cadeia, seguindo, em grande parte, a intuição dos gestores.
A falta de informação de qualidade é um grande risco. Se hoje faltam dados, imaginem como era o cenário há 10 ou 20 anos.
Nos últimos anos, o campo, a indústria e o varejo têm mostrado grandes avanços em seus processos de informatização com diversas soluções de rastreabilidade. Com a evolução das tecnologias da indústria 4.0 (IOT e o 5G) nos próximos anos, é provável que o mercado de alimentos, desde o setor agrícola e industrial até o comercial, detenham informações mais completas para tomada de decisão do que as que estão estão disponíveis hoje.
02 – Dados de várias fontes
Se os dados estão se tornando cada vez mais presentes com o desenvolvimento da informatização e comunicação, então o próximo problema é tentar analisar dados em fontes múltiplas e desconexas.
Diferentes dados são frequentemente armazenados em diferentes sistemas, levando assim a análises incompletas ou imprecisas. Combinar dados manualmente para formar dataset (o que são datasets?) de análise é um trabalho bastante pesado e demorado e pode limitar as percepções da realidade das operações.
O que se busca é a construção de Data Lakes aderentes ao tipo de gestão para democratizar o acesso aos dados por profissionais do mercado, otimizando desse modo suas atividades com soluções de analytics cada vez mais poderosas. Isso não apenas libera tempo gasto no acesso a fontes múltiplas, como também permite comparações cruzadas e garante que os dados sejam completos.
03 – Dados de baixa qualidade
Ter dados incorretos pode ser tão ou mais prejudicial do que não tê-los. Nada é mais prejudicial à análise de dados do que dados imprecisos, principalmente se a ideia é utilizar as práticas de ciência de dados e machine learning. Sem uma boa entrada, a saída não será confiável.
Uma das principais causas de dados imprecisos são os erros manuais cometidos durante a entrada de dados, principalmente quando são informações coletadas de maneira manual. Outro problema são os dados assimétricos: quando as informações de um sistema não refletem as alterações feitas em outro sistema e assim o deixa desatualizado.
Os projetos de planejamento estratégico de analytics buscam mitigar e/ou eliminar esses problemas. Isso acontece a partir de processos sistemáticos de dicionarização de dados, levantamento de processos, funções, assim por diante. Abaixo, deixamos alguns artigos relacionados:
Algumas organizações e empresas, de um modo geral, não conseguem atingir melhores índices de eficiência nas operações, pois sofrem com a falta de talento na área de análise de dados. Em outras palavras, mesmo que a empresa detenha tecnologias e dados coerentes, ainda sim a mão de obra para executar as análises e os planos de ações conta muito no final do dia.
Esse desafio pode ser mitigado de três maneiras:
Desenvolver um stack tecnológico analítico sempre atualizado e aderente ao negócio e com materiais de capacitação atualizados.
Adicionar as competências analíticas no processo de contratação. Além disso, investir na capacitação constante da equipe sobre as novas tecnologias de dados relacionadas ao stack tecnológico da operação.
Utilizar a terceirização de analytics para aceleração do processo. Neste artigo, por exemplo, elencamos os principais aspectos a serem considerados para definir a escolha de um bom fornecedor.
05 – Personalização de valores e as características de produto no setor de alimentos
Embora, segundo a Embrapa, cerca de 75% de todo setor alimentício mundial esteja baseado em apenas 12 tipos de plantas e 5 tipos de animais, são milhares de produtos diferentes, comercializados de múltiplas maneiras, preços e prazos no mercado consumidor final.
Apenas como exemplo, na área de proteína animal, o processo de comercialização da carne de gado exige investimentos, infraestrutura, prazos e processos bastante diferentes do que seria para a produção da carne suína ou mesmo a de frango.
Já que os processos são diferentes, os dados gerados pela cadeia de produção também se tornam distintos, exigindo personalizações nos sistemas de informação e bancos de dados. Como consequência, há alterações em modelos de:
A recomendação é a parametrização dos sistemas com base em classificações mais comuns no mercado e foco nos produtos mais importantes do ponto de vista estratégico (margem de contribuição, volume ou preço de vendas).
5 desafios reais de dados no setor de alimentos – Considerações finais
Neste artigo, fizemos um apanhado de alguns pontos relevantes sobre os desafios reais de dados na área de alimentos, setor que o Brasil desponta como um dos principais atores globais.
Trata-se de uma área complexa com diversos fatores de risco e grandes oportunidades de otimização com o uso cada vez mais intensivo de dados. Anteriormente, escrevemos um artigo relacionado às estratégias de dados para a comercialização de energia e que em partes tem os mesmos desafios ligados à tomada de decisão no setor alimentício.
Nós, na Aquarela Analytics, trabalhamos constantemente com estes desafios de tornar o complexo algo simples e com mitigação de riscos. Por isso, se ficar com dúvidas, entre em contato conosco!
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
No universo tecnológico, há uma crescente preocupação com a segurança da informação. Houve e ainda há uma migração no modelo de infraestrutura das empresas de on-premise para cloud. Essa mudança levanta alguns pontos de atenção a serem tratados, pois a ubiquidade de uma infraestrutura em nuvem gera um miríade de possíveis falhas, por consequência do aumento do grau de exposição da infraestrutura. Portanto, há uma necessidade de desenvolvimento de diretivas e processos que gerem uma política de segurança da informação nos novos moldes da nuvem.
Case: PSI em empresa de tecnologia
Considere o cenário hipotético a seguir.
Uma empresa realizou um processo de migração de sua infraestrutura para a nuvem recentemente, concluído com o armazenamento dos respectivos dados de vendas alimentícias em um serviço de repositório de arquivos. Lá estão dados de vários setores da empresa: planilhas de vendas, planilhas de custos, recibos e notas fiscais, dados de colaboradores, bem como outros documentos de suma importância para seu funcionamento. Entre eles, alguns são enquadrados na LGPD, pois são informações de pessoas físicas, gerando assim um grau de sigilo extra para com os dados.
Avaliando esse cenário, é possível verificar a distinção de dois tipos de dados: dados pessoais e dados empresariais. No primeiro caso, há a necessidade de um termo de consentimento por parte do titular do dado e declaração de motivação/finalidade do armazenamento. Já os dados empresariais podem ser utilizados para data analytics, gerando informação que pode ser reutilizada como vantagem competitiva da empresa.
Porém, todo esse tráfego e utilização de informações pelos colaboradores da empresa, mesmo que minimamente, geram implicações com a LGPD. Assim, torna-se necessária a criação da PSI.
Política de Segurança da Informação
A política de segurança da informação irá reger a forma de tratamento dos dados, bem como a sua utilização, por exemplo:
Qual a melhor forma de armazenamento de dados na nuvem? Repositório online alocado em um provedor de nuvem com redundância, escalabilidade e disponibilidade próximo de 100%.
Qual a melhor forma de gerenciamento do ciclo de vida desses dados? Ciclo de vida autogerenciável a partir do momento no qual o dado é carregado no repositório, com política de acesso aos dados mais recentes, sendo movidos após esse período para uma outra forma de armazenamento.
Qual a melhor forma de implementação da infraestrutura para gerar a máxima segurança possível para o dado? A implementação deve ser preferencialmente realizada em ambiente de fácil acesso ao gerente dos dados. Além disso, é necessário que haja redundância, escalabilidade e disponibilidade de 100% ou o mais próximo disso. Hoje em dia, vários provedores de cloud oferecem serviços de armazenamento de dados com valores acessíveis. Porém, é muito importante realizar uma configuração e gerência dos repositórios de acordo com as melhores práticas do mercado.
Essas e outras questões podem (e devem) ser abordadas na PSI, que como documento rege a Segurança da Informação da empresa e a forma de trabalho dos colaboradores que lidam com os dados (anonimizados ou não) referentes a pessoas físicas/jurídicas ou mesmo dados sensíveis para o negócio.
Segurança da Informação – Conclusões e recomendações
Levando em consideração o exposto, a LGPD e a infraestrutura em Cloud são dois pontos que marcam os novos desafios das empresas de tecnologia da informação. A gerência e armazenamento de dados são de suma importância para o compliance da empresa com as melhores práticas de mercado e regulamentações impostas pelos governos aos setores de tecnologia. Porém, nada disso é possível sem uma sólida implementação de infraestrutura cloud e suas práticas e processos bem definidos de acordo com uma Política de Segurança da Informação robusta e detalhada.
Devops na Aquarela, com experiência em administração de infraestruturas On-Premise e Cloud e atuação na área de Segurança da Informação. Graduado em Análise e Desenvolvimento de Sistemas na Universidade FAEL, entusiasta de software livre e ambientes em cloud.