Neste artigo vamos explicar de forma simplificada o HDFS (Hadoop Distributed File System), tecnologia que dá suporte a muitas estratégias de gestão de dados analíticos que impactam diretamente na elevação dos níveis de maturidade analítica.
Deter um conhecimento básico deste conceito é fundamental para gestores interessados em adotar uma cultura e plataforma de dados escalável e profissionais com foco na área de engenharia de dados.
O que é o HDFS?
O HDFS é um sistema de arquivos distribuídos projetado para permitir que grandes quantidades de dados sejam armazenadas de maneira acessível em clusters de computadores. Ele foi criado para permitir que empresas processassem grandes quantidades de dados de maneira rápida e eficiente, o que é essencial em um mundo cada vez mais dependente de dados.
É importante não confundir o Hadoop, ou ecossistema Apache Hadoop, com o HDFS, que é a tecnologia do particionamento dos discos onde os dados estarão armazenados fisicamente utilizando uma estratégia de computação distribuída (várias máquinas).
O Hadoop, por outro lado, é o framework (Stack Tecnológico) de processamento de dados que utiliza, entre outras ferramentas, o HDFS para armazenar e processar grandes quantidades de dados de maneira eficiente.
Atualmente, o conhecimento sobre HDFS é um dos requisitos mais importantes para profissionais da área de computação e TI interessados em infraestrutura de grandes bases de dados.
Por que o HDFS foi criado?
A solução técnica do HDFS surgiu para atender problemas de armazenamento de dados. Estes problemas começaram a se tornar evidentes a partir dos anos 90 com o rápido crescimento de dados gerados por computadores atuando em rede e, mais recentemente, dispositivos móveis de internet das coisas (IoT).
Um ponto importante é que nesta evolução os dados cresceram apenas em quantidade como também em termos de variedade (Entendendo as diferentes naturezas e tipos de dados). Em outro artigo (Dos dados à inovação com Analytics) mostramos como se dá esta evolução no crescimento de dados e tecnologias de apoio desde a captura do dado até as análises avançadas para apoio ao conceito de indústria 4.0.
Neste contexto de grande quantidade e variedade de dados que a solução tecnológica HDFS foi gerada, fazendo com que ele fosse projetado para ser tolerante a falhas (por funcionar em rede) e para trabalhar com dados não estruturados de maneira eficiente.
O fato do HDFS ter sido desenvolvido para operar em rede o tornou, além de seguro, escalável, permitindo que novos computadores possam ser agregados ao cluster e, assim, chegar a quantidade de armazenamento muito superior e de fácil acesso quando comparados com tecnologias da época.
Em termos de escala, costuma-se utilizar o framework Hadoop e o HDFS em conjuntos de dados partindo de 100GB, podendo chegar até mesmo aos Petabytes (1 Petabyte ≅ 1 milhão de Gigabytes).
Como é estruturada a hierarquia HDFS?
O HDFS (cluster), como o “distribuído” no seu próprio nome já diz, é composto por várias máquinas que são chamadas de “nodos”. Esses nodos podem ser basicamente de 2 tipos:
Nodos de nomes (nodos de meta dados)
Os nodos de nome, ou Namenodes, são os responsáveis por manter o mapeamento dos arquivos para os nodos de armazenamento, ou Datanodes. Na prática, eles mantêm uma lista dos blocos em que cada arquivo foi dividido e para quais Datanodes eles foram enviados para serem armazenados.
Quando um usuário quer obter uma informação ou até mesmo escrever um novo arquivo no HDFS, ele envia uma solicitação ao Namenode, que por sua vez encaminha essa solicitação diretamente ao Datanode correspondente.
Nodos de dados (comumente também chamados de nodos de armazenamento)
Os nodos de dados, ou Datanodes em inglês, guardam os dados em si. No entanto, eles o fazem de forma particionada, armazenando tudo em blocos de mesmo tamanho (normalmente 128MB), após serem divididos e distribuídos.
Cluster HDFS
Esse conjunto de máquinas/nodos é chamado de cluster HDFS, e é justamente o responsável por receber e particionar os arquivos em blocos e, em seguida, distribuir esses pedaços pelos Datanodes, ao mesmo tempo que armazena essas localizações no Namenode.
Outra função muito importante do cluster é ser tolerante a falhas, e por esse motivo sempre há cópias de cada bloco espalhadas pelos Datanodes para caso de falha em um dos servidores. Esse número de cópias é determinado pelo “fator de replicação” do cluster.
Apesar de estarmos falando em arquivos aqui, o HDFS consegue armazenar uma grande variedade de tipos de dados de forma inteligente e particionada, como tabelas relacionais, coleções de dados não relacionais, arquivos de fato, entre outros.
Como funciona o método de armazenamento HDFS?
Em uma aplicação centralizada, normalmente os dados são trazidos até a aplicação para que sejam processados e consumidos. Já no HDFS, o conceito é completamente reinventado, e podemos dizer que levamos a aplicação até próximo de onde os dados estão fisicamente guardados.
Como o HDFS consiste, basicamente, em dados armazenados de forma distribuída, conseguimos utilizar esse fato como vantagem para obtermos grandes velocidades através do processamento acontecendo paralelamente em vários pontos.
Na figura a seguir, um exemplo ilustrativo de como o cluster HDFS iria armazenar um arquivo de 360MB de forma distribuída pelos nodos:
Primeiramente iria particionar o arquivo em blocos de, no máximo, 128MB (repare que o último bloco ficou com 104MB).
Em seguida, o cluster distribui o primeiro bloco e suas cópias (no nosso caso aqui, 3 cópias ao total) pelos 4 nodos, de forma aleatória, de acordo com sua política de balanceamento de armazenamento.
O processo é repetido para cada um dos blocos até que todo o arquivo tenha sido processado.
O Namenode, nesse momento, contém a localização de todos os blocos (e suas cópias) do arquivo de entrada, o que permite que possamos executar operações em paralelo (ou seja, simultâneas) em cada um dos nodos quando estivermos querendo consultar ou computar dados desse arquivo no futuro.
Impacto da tecnologia nos negócios
O HDFS tem um grande impacto nos negócios, pois é uma tecnologia que permite que empresas desenvolvam “Data Lakes“ para inicialmente preservar seus dados de forma segura e eficiente ao longo do tempo.
Em um segundo momento do desenvolvimento da cultura e base tecnológica do Data Lake, também é possível agregar informações externas e permitir que a empresa elabore pesquisas estruturadas utilizando conhecimento de negócio, ciência de dados e inteligência artificial para alavancar a descoberta de padrões dentro das operações.
Os insights gerados a partir de dados bem armazenados e organizados são valiosos para uma tomada de decisão mais assertiva, o que pode ter um impacto positivo nas operações e nos resultados das empresas.
Esta tecnologia, que vem servindo de suporte ao ecossistema Hadoop, tem um impacto considerável na capacidade das empresas de integrar informações de vários setores da empresa e torná-las acessíveis em uma estratégia de democratização da informação de gestão, impactando diretamente nos níveis de maturidade e governança de dados.
Algumas das principais empresas que utilizam o Hadoop Distributed File System em sua infraestrutura são:
A Amazon utiliza o HDFS para armazenar e processar grandes quantidades de dados de seus sites de e-commerce e de seus serviços de nuvem.
O Facebook utiliza HDFS para processar e armazenar grandes quantidades de dados gerados pelos usuários do site, incluindo publicações, curtidas e comentários.
A Yahoo foi uma das primeiras empresas a utilizar oHdfs em larga escala, e hoje o utiliza para processar e armazenar grandes quantidades de dados gerados por seus usuários, incluindo pesquisas na web, e-mails e outros dados de uso.
O eBay utiliza o HDFS para processar e analisar grandes quantidades de dados gerados pelos usuários do site, incluindo transações de compra e venda.
A Netflix utiliza o Hadoop para processar e armazenar grandes quantidades de dados de uso dos usuários, incluindo dados de streaming de vídeo.
Conclusões e recomendações sobre HDFS
Neste artigo, explicamos o que é a tecnologia HDFS, apresentamos algumas razões para sua criação, incluindo um exemplo de como funciona o armazenamento físico de um arquivo nesta modalidade de partição distribuída em rede e como isso pode impactar a operação das empresas, sendo o engenheiro de dados o profissional responsável pela definição da arquitetura, implantação e manutenção dos clusters.
Em resumo, o HDFS é uma forma inteligente de armazenar e processar grandes quantidades e variedades de dados em rede. Os computadores que utilizam o HDFS são conhecidos como nós ou nodos e são conectados entre si, formando clusters capazes de realizar armazenamento/processamento em grande escala de forma paralela e distribuída.
O HDFS é amplamente utilizado em aplicativos de análise de big data, o que o torna essencial para muitas empresas que dependem de um grande volume de dados para tomar decisões estratégicas.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Ph.D. em Ciência da Computação pela Sapienza Università di Roma (Itália). Doutor em Engenharia e Gestão do Conhecimento pela UFSC. Mestre em Engenharia Elétrica – ênfase em Inteligência Artificial. Especialista em Redes de Computadores e Aplicações para Web, Especialista em Metodologias e Gestão para EaD, Especialista em Docência no Ensino Superior e Bacharel em informática.
Possui experiência acadêmica como Professor, Coordenador, Palestrante e é Avaliador ad hoc do Ministério da Educação (INEP) bem como da Secretaria de Educação Profissional e Tecnológica (MEC) e do Conselho Estadual de Educação (SC).
Nas suas atividades profissionais, atua com de projetos nas áreas de: Ciência de Dados, Inteligência de Negócios, Posicionamento Estratégico, Empreendedorismo Digital e Inovação. Atua como Consultor na área de Projetos para Inovação e Soluções Computacionais Inteligentes utilizando Data Science e Inteligência Artificial.
Atualmente, vivenciamos os avanços tecnológicos presentes nas indústrias, impactando diretamente nos processos de construção, desenvolvimento e entrega de produtos ao consumidor. A competitividade de mercado está se centrando cada vez mais nos pilares tecnológicos e digitais, tornando assim a automatização e digitalização dos processos mais recorrentes nas empresas. O impacto gerado pela indústria 4.0 criou um horizonte de oportunidades para o mercado de varejo sair na frente e competir em maiores níveis com concorrentes, buscando maiores classificações em relação à entrega, qualidade, eficiência e eficácia nos processos até a chegada do produto ao consumidor.
IA no varejo
Além disso, os avanços em Inteligência Artificial, Machine Learning e IoT (Internet of Things) proporcionam novos horizontes para os diversos ramos dentro da indústria do varejo. A automatização dos processos de estocagem, monitoramento de rotas, estratégias de armazenamentos de materiais, previsão de demanda e satisfação dos clientes são exemplos de procedimentos adotados por meio dessas tecnologias para se obter melhores resultados no mercado.
Estamos vivenciando a era dos dados. Estar preparado para ela, orientando os processos internos aos dados, possibilitará às empresas imergirem neste oceano de oportunidades, resultando assim na redução de custos a partir de análises de perdas e desperdícios, e em mais sustentabilidade, competitividade e aprovação no mercado.
Supply chain e S&OP
Dentre as diferentes áreas operacionais da indústria, a inteligência artificial se destaca fortemente na cadeia de suprimentos, promovendo mais automatizações nos processos de produção. Traçando um caminho procedural das operações junto à IA, percebe-se que o ciclo abrange desde a implementação de tecnologias inteligentes nos processos de vendas e operações (S&OP), intensificando assim as análises para melhores estratégias de venda com auxílio da área de marketing, até melhores formatos para operar e a automatização de trabalhos exaustivos e repetitivos.
Por meio do avanço da Internet das Coisas, torna-se mais eficiente a captação dos dados de diferentes etapas da produção. A obtenção de dados desde a primeira tarefa até a entrega ao consumidor final já não é mais um problema, com possibilidade de extrair dados de produção, por exemplo, robôs implementados para armazenamento, aplicativos para os motoristas, produtos conectados à internet, entre diversas formas de coletar dados com IoT. Outro ponto importante é a ponte entre os interessados através de análises de dados avançadas com Machine Learning e IA, visando filtrar os fornecedores de matérias primas e os fornecedores finais que estejam mais alinhados com os interesses da empresa e também de obter uma menor perda nos processos de obtenção de materiais e entrega ao consumidor.
As tecnologias de IA, ML e IoT também influenciam a geração de receitas, exponenciando os lucros e melhores resultados junto ao gerenciamento de relações com os clientes e fornecedores. Um exemplo disso é a precificação dinâmica inteligente, que utiliza a inteligência artificial e adota estratégias baseadas no mercado e nos consumidores para determinar o melhor preço (não necessariamente o maior, mas o preço mais adequado para competir no mercado), visando ao aumento da receita.
Demand Forecasting
Em relação aos processos de previsão de demanda, a efetivação de IA e ML produzem uma assertividade de cerca de 90%, gerando impacto e melhorias nas previsões de demandas baseadas em análises avançadas de diferentes dados, como: condição climática, situação econômica do mercado, quantidades disponíveis, desejo do consumidor e previsibilidade de consumo. Além disso, as análises avançadas e modelos inteligentes que possuem um aprendizado contínuo por meio de maiores coletas de dados e tempo proporcionam ações preditivas em tempo real, auxiliando as decisões de forma assistida pelos profissionais. Isso diminui as falhas e riscos nas operações com tomadas de decisões, podendo alterá-las em caso de predições negativas e que possam gerar diversos impactos.
Ademais, na área de laticínios e produtos perecíveis, a IA possui grande força, visto que as estratégias para mercadorias com datas curtas e logística mais frágil precisam ser muito mais aguçadas. Essa contribuição é sustentada mediante a coleta de dados, de informações e da criação de modelos preditivos de demanda que entreguem melhores estratégias para armazenamento dos produtos, definição das melhores rotas, diminuição no desperdício de combustível e previsão de geolocalização nos casos dos produtos de maior demanda para não mantê-los em estoques distantes, facilitando assim a preservação dos produtos até a sua entrega final.
Big Data
Esse é um termo que vem ganhando grande proporção e espaço no contexto da indústria 4.0, representando a grande massa de dados, coleta intensiva e importância da inteligência artificial e aprendizado de máquina para tratar essas informações que podem agregar muito valor às empresas. Representado pelos milhares de dados produzidos pelas diferentes etapas e vivências do mercado, o big data inclui dados de compra, navegações online dos consumidores, dados de mídia e marketing, satisfação dos clientes com o serviço e/ou produto, entre outras diversas informações.
O processo de coleta e armazenamento de dados é complexo e analisar milhares de dados se torna uma tarefa humana impossível. Assim, a IA e modelos inteligentes baseados em aprendizado de máquina caminham juntos com o big data para integrar os dados externos de mercado e internos da empresa de forma que torne possível uma previsão e planejamento de demanda, maiores receitas, lucro, diminuição de desperdícios e sustentabilidade.
Logística 4.0
É notório os avanços que a indústria 4.0 vem alocando. Por exemplo: diversas automatizações nos processos de produção, digitalização de produtos para testes de melhorias, rapidez na informação e implementação de resultados.
Com a indústria 4.0 vem a logística 4.0, direcionada para a otimização nos processos de embarque e desembarque das mercadorias. Automatizações e uso de IA em diversas etapas da logística, como a organização dos produtos nos armazéns feitas por robôs que, por meio de IA, organizam de forma estratégica e hierárquica os produtos para facilitar e aumentar a velocidade de operações de carga.
Além disso, é possível gerar previsões de acontecimentos em rodovias, como obras que interrompem os trajetos, fazendo o uso de IA e análise dos dados em tempo real. Isso permite a adoção de uma melhor rota em tempo presente, sem se basear no passado histórico e desperdiçar recursos, resultando também na satisfação do cliente e rapidez na entrega. Aproveitamento de rotas, uso inadequado e desnecessário de veículos, maiores emissões de gases, altos custos com combustíveis e manutenção são problemas interrompidos pelas diretivas da logística 4.0, visando mais assertividade, inteligência, sustentabilidade, maior receita e satisfação do consumidor e fornecedor.
IA no varejo – Considerações finais
A implementação de IA e machine learning por meio de modelos inteligentes não é uma tarefa fácil e instantânea. Entretanto, o resultado de toda a preparação e construção dessas tecnologias direcionadas às especificidades do negócio resultarão em diversos benefícios.
O poder da IA proporciona uma visão inteligente de mercado, previsão de demanda com maiores taxas de acerto, diminuição na perda de produtos por validade ou saturação de armazéns e precisão nos ajustes de preços sustentados mediante diferentes variáveis que podem influenciar na variação de receita. Além disso, por meio de análises avançadas de dados é possível filtrar os fornecedores buscando os que entregam mais resultados e estão mais alinhados com os valores da empresa.
Esses pontos positivos vão ao encontro do uso de IA para obter melhores resultados sustentáveis, visando ao aproveitamento de rotas, entrega contínua e análise de melhores rotas, redução nos custos e emissão de gases.
O acesso gerado pelas análises avançadas e IA de toda a cadeia de suprimentos e operações da empresa resulta em grande previsibilidade de riscos ou falhas nas etapas iniciais, de preparação e entrega ao cliente final. Esse poder de previsibilidade e estratégias inteligentes consolida a ideia de gerenciamento de riscos em tempo real, diminuição drástica de falhas e desperdícios, controle unificado das etapas de vendas, operações, produção e entrega das mercadorias. Enfim, empresas mais inteligentes e sustentáveis nunca estiveram tão perto de serem consolidadas. O caminho a seguir só depende de preparação e organização para uma maior inteligência e previsibilidade.
Gostou do artigo sobre as aplicações de IA no varejo? Então deixe o seu comentário.
Desenvolvedor Front-end na Aquarela Analytics, técnico de TI cursando Análise e Desenvolvimento de Sistemas pelo Instituto Federal Catarinense (IFC). Entusiasta em tecnologias voltadas para a interação com o usuário final: React, JavaScript e NodeJS.
Hoje vamos apresentar o PIX que é um novo método/sistema de transações bancárias/pagamentos que substituirá os conhecidos boletos, TEDs, Docs e outras formas de pagamento.
Como resultado, o PIX promete democratizar e simplificar os pagamentos no Brasil ao mesmo tempo em que, na visão de big data analytics, gerará o banco de dados analítico mais valioso e cobiçado do país.
Aproveitamos também para fazer algumas análises comparativas entre o PIX, métodos tradicionais e criptomoedas.
O que é o PIX ?
A ideia do PIX é ser um método/sistema de pagamentos instantâneos que promete agilidade, menor custo e segurança para os usuários com impactos diretos às pessoas físicas e aos negócios no país. De antemão, muitos desses impactos, só saberemos depois da mudança.
“O PIX parece ser uma reação contra as inovações geradas pelas criptomoedas, podendo ser um marco na história bancária do país frente o avanço das das criptomoedas ou até um caminho para elas”.
Uma das principais promessas da plataforma PIX é a eliminação dos custos (financeiro e de tempo) relacionados às transferências financeiras tais como: Boletos, TEDs , DOCs e pagamentos em espécie.
Com ele, será possível efetuar transações financeiras diretamente entre pessoas físicas, empresas e até órgãos governamentais. Será uma opção mais fácil e barata para transferências e pagamentos, o que demonstra grande potencial de conversão de usuários ao novo método.
Ao contrário do que se imagina, o PIX não é uma criação dos bancos brasileiros e sim do governo brasileiro, mais especificamente do Banco Central do Brasil.
Em nossas pesquisas não encontramos o racional por trás do nome de batismo da solução, mas acreditamos que um nome curto e simples pode colaborar em seu processo de adoção pelo público geral.
Marca oficial do PIX.
Diferentemente das Crypto-moedas que geralmente são reguladas por comunidade em uma tecnologia chamada blockchain, o PIX é regulado por um órgão centralizado.
Seu lastro é baseado em Moeda fiduciária ou seja, não é lastreado a nenhum metal (ouro, prata). Seu valor está associada a confiança que as pessoas têm em quem emitiu o título, neste caso o Banco Central. Em contrapartida, nas Cryto-moedas é baseado na escassez e unicidade de cada partícula de moeda garantida pela rede de computadores de forma descentralizada.
As taxas de transferências do PIX serão baixas ou até nulas mas estarão sempre associadas e no controle do Banco Central que, como órgão do estado, que poderá regular as taxas quando necessário de forma tão rápida quanto as transações.
Cryto-moedas tem o custo de transação atrelada a complexidade da mineração de novos códigos e outros custos associados à orquestração e demanda da rede de compradores e vendedores de moeda.
PIX na visão de Data Analytics
A estruturação PIX atende critérios importantes de governança de dados e os 5 critérios de BigData pois terá volume, velocidade, variedade, veracidade e valor (Informações sobre os 5V do Big Data).
No mundo de analytics, o PIX pode ser também entendido como uma plataforma que centralizará todas os pagamentos digitais do país gerando um grande repositório de dados (Data Lake) com datasets (o que é dataset) extremamente valiosos porque permitirá em tempo quase real:
Ainda, com um datalake desta magnitude a disposição do estado, será relativamente fácil relacionar de forma rápida dados de transações com com outros órgãos governamentais como por exemplo da saúde e educação em diversas ocasiões como pandemias por exemplo. Ou então, imaginem que os dados poderiam eventualmente ser compartilhadas com a receita federal por exemplo?
Muitos outros argumentos podem ser montados a partir das estratégia de analytics, e por isso acreditamos que existem um grande potencial de que este banco de dados regido pelo Banco Central se torne um banco de dados mais precioso do país, caso haja a adoção em massa da população.
A imagem abaixo resume a visão do PIX como uma estratégia de Big Data analytics.
A estratégia de dados do PIX na visão da Aquarela.
Características do PIX
O método Pix tem uma estrutura baseada em 7 características fundamentais:
1. Disponibilidade:
Ter grande disponibilidade significa permitir que as transferências ocorram a qualquer hora e sem demoras, gerando agilidade. Esta disponibilidade inclui, logicamente, feriados, sábados, domingos e horários não comerciais.
2. Conveniência:
A conveniência está ligada a praticidade para se fazer as transferências a partir do celular em casa e outros contextos que facilitam a vida do cidadão.
3. Velocidade:
Uma transação não pode demorar 2 horas para ocorrer e as pessoas ficam ali esperando até que ela ocorra. Por isso cada transação deve ser feita em até 10 segundos. É um grande desafio tecnológico.
4. Segurança:
Este talvez seja o ponto mais crítico da solução, pois, envolve dinheiro, dados pessoais, relacionamentos, informações de tendências de mercado e o que mais a criatividade humana ou artificial puderem criar.
Logicamente, toda solução tecnológica deve obrigatoriamente cobrir as questões de segurança dos dados em seu stack tecnológico (O que é um stack tecnológico?).
No caso do PIX, a segurança está pautada em esquemas de assinatura digital, certificados ICP-Brasil no padrão SPB e criptográficas baseadas em hardware. Para detalhes, ver o manual divulgado pelo Banco Central neste link .
5. Ambiente aberto:
Diferentes provedores de serviços serão conectados. Será o nascimento do ecossistema de pagamentos instantâneos. Os modelos atuais são fechados ou barreiras de entrada muito altas.
6. Multiplicidade de casos de uso:
Pode ser utilizado para muitos tipos de transações que hoje podem obrigam ser um pagamento somente por boleto por exemplo. Exemplos, a utilização do PIX para a conta de luz, o almoço e até impostos. Hoje existem formas que geram transtornos sistêmicos na sociedade.
7. Fluxo de dados com informações agregadas:
Outras informações além da transação pode ser adicionadas, do ponto de vista de analytics, é mais dados para análise.
Análise comparativa dos métodos
Na tabela abaixo, temos um comparativo das características basilares do PIX em relação aos atuais serviços de pagamento disponíveis no mercado.
Características
Tradicional
PIX
Criptos moedas
Disponibilidade
Limitado aos dias úteis e horario comercial
24/7
24/7
Conveniência
Acesso presencial, caixas eletrônicos e (recentemente) pelo celular
Aplicativo de celular QR Code
Aplicativo de celular com ou sem QR Code
Velocidade
De poucos minutos até 2 dias úteis
10 segundos
Instantâneo ou até 24 horas dependendo da ocupação da rede
Segurança
Senhas simples, cartões e/ou biometria
Assinatura digital
Chaves criptográficas
Ambiente aberto
Não
Sim
Sim
Multiplicidade de casos de uso
Sim, mas baixa interoperabilidae
Sim
Sim
Fluxo de dados com informações agregadas
Não
Sim
Sim
Comparativo das características do Pix e outros métodos de pagamento.
Fluxo de adoção do PIX
Nesta visualização, apresentamos nossa interpretação de um fluxo simplificado (visão macro da jornada) de um usuário até a sua primeira transferência monetária utilizando o PIX. Todavia, caso tenha adições importantes, deixe seu comentário no artigo que tão pronto revisaremos.
Fluxo de adoção de usuários da plataforma.
Conclusões
Neste artigo apresentamos o resultado de nossa pesquisa sobre o PIX, comparamos suas características com outros modelos de métodos de pagamento. Em síntese, o baixo custo e a facilidade de acesso colocam o PIX em vantagem diante do que temos disponível hoje no país.
Acreditamos que com a adoção em massa da solução pelos brasileiros, o PIX conseguirá agregar informações que o tornarão o banco de dados mais valioso da américa latina e uns dos mais valiosos do mundo. Por esse motivo, nosso principal alerta se dá para manutenção de sua segurança em seus vários aspectos.
Do ponto de analytics, o banco central teme pela perda do rastreamento dos fluxos financeiros das operações no mundo. Desta forma, este controle (centralização) permite muitos benefícios tais como evitar fraudes financeiras, lavagem de dinheiro e relatórios precisos da realidade do país.
Sem o custo dos pagamentos este dinheiro ficará no setor produtivo que poderá produzir outros bens e serviços na sociedade.
Ainda, acreditamos que será um grande passo do Brasil no caminho da digitalização de serviços que impulsionarão estratégias de precificação dinâmicas em diversos setores que se beneficiam com uma economia cada vez mais digital.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Full Stack Marketer na Gold Soluções, com experiência na construção e análise de processos comerciais, Bacharela em Sistemas de Informação pela Universidade Federal do Rio Grande (FURG) e Técnica em Administração pela ETEC-SP
Dados são ativos-chave para quaisquer negócios que queiram fazer parte da Indústria 4.0.
Encontrar indícios do que seus clientes desejam, como mudou o estoque da empresa, ou como seus indicadores evoluíram com o tempo, são fundamentais para qualquer organização se manter acima do nível da água.
Quando dados são mal interpretados, podem ocultar informações vitais e prejudicar a tomada de decisão e quando o volume de dados aumenta e se torna não administrável, a cultura de Big Data Analytics se torna chave para encontrar sentido não só no que está acontecendo, mas também o porquê de cada processo.
Por que o mercado demanda Big Data Analytics?
Para entender o que é Big Data Analytics, primeiro precisamos entender a dimensão do que é Big Data.
Exemplo na cadeia de suprimentos (logística)
Vamos imaginar uma empresa do ramo alimentício, com um portfólio de milhares de produtos e atendendo a mercados internacionais com uma vasta e complexa cadeia de suprimentos e logística que inclui múltiplos atores que vão desde o criador de animais até donos de supermercados e clientes.
Nesta cadeia de suprimento, cada item produzido, seus custos, preços, formas de distribuição e venda são mapeados dia-a-dia, gerando volumes de dados na casa dos milhões de relacionamentos de negócio.
Todas as informações poderiam ser armazenadas em planilhas, se os registros não ultrapassarem 1 milhão de linhas (entenda as limitações das planilhas). Como é de se imaginar, as informações acabam sendo fragmentadas em diversas planilhas, e com isso surgem algumas questões:
Como podemos saber quais mercados estão aquecidos?
Quais as tendências de compra de diferentes regiões?
Onde pode faltar estoque e onde está sobrando?
Por que estou perdendo market share?
Quais os gargalos da distribuição?
Quais os fatores mais impactantes na margem de lucro por produto, cidade, estado, país?
Big Data Analytics é chave para desvendar essas e muitas outras perguntas.
Dimensões do Big Data Analytics
Os 5Vs de Big Data
O que a Big Data Analytics faz, é lidar com esses grandes volumes de dados variados de forma veloz e verossímil, para transformá-los em valor para as empresas. Esses são os 5 Vs da Big Data, e entendê-los é fundamental para os aplicar no seu negócio:
Volume: Big Data lida com grandes volumes, transformando dados em informações, e informações em conhecimento. Não é incomum que nossos projetos lidem com milhões de amostras e milhares de variáveis. Fazendo um paralelo, pense em uma planilha com um milhão de linhas e mil colunas. Seria difícil entender algo sem Big Data Analytics, não?
Variedade: é comum que a aquisição de dados em empresas aconteça de forma múltipla. Pode ser necessário coletar dados de clientes, cruzar com bancos de dados geo-populacionais, dados do governo, entre outros. Claro, tudo isso respeitando a Lei Geral de Proteção de Dados (LGPD). Descobrir e agrupar dados relevantes e manter o pé na realidade é um grande desafio que exige uma cultura de dados desenvolvida;
Velocidade: claro que apenas coletar dados não é suficiente. Precisamos buscar estratégias para transformá-los em conhecimento o mais rápido possível, antes que o concorrente tome a frente. Na corrida por informações, entender dados rapidamente é poder;
Veracidade: aqui na Aquarela costumamos dizer que rodar modelos, mastigar números e chegar em resultados é a parte fácil. Difícil mesmo é ter certeza de que a análise está nos levando a conclusões coerentes, reais e com alto valor. Um modelo de Big Data é tão bons quanto os dados que entregamos a ele. Cabe a nós entender o que faz sentido e garantir que o resultado reflete a realidade;
Valor: É neste V que se encontra o principal resultado da Big Data Analytics: transformar dados em valor. Entender de verdade o que e porquê as coisas estão acontecendo é fundamental para tomarmos decisões mais conscientes e certeiras.
Dados certos + perguntas certas = respostas certas
Big Data Analytics aumenta a inteligência dos negócios. Enquanto análises tradicionais buscam desvendar o que está acontecendo (de forma bastante limitada), o uso de Advanced Analytics é capaz de encontrar os porquês, o que está oculto, ou até mesmo estimativas do que vai acontecer.
Big Data Analytics é uma grande aliada no desenvolvimento de novos produtos, na redução de custos e aumento de eficiência, além da tomada de decisão de forma rápida e assertiva.
Você já imaginou abrir uma planilha de 6 bilhões de cells no Excel? Ou, se a planilha abrir, tentar encontrar padrões de comportamento que façam sentido e ajudem a entender o que está acontecendo? Difícil, não?
Fase 1 – Aquisição dos dados
O primeiro desafio da Big Data Analytics sempre é adquirir os dados, um trabalho que os Engenheiros de Dados dominam. O desafio é, onde estão e como serão coletados.
Fase 2 – Limpeza dos dados
A limpeza dos dados tradicionalmente consome mais de 80% de todos os recursos dos projetos de analytics até se chegar aos datasets de análise (O que são Datasets?) . O desafio é, como garantir que os datasets estejam íntegros e maduros para análise. Somente os dados corretos são capazes de nos dar respostas certas mediante perguntas suficientemente assertivas.
Fase 3 – Mineração de padrões em dados
A mineração de dados, ou Data mining é fundamental (e um grande gargalo) para podermos acessar os dados e deixá-los prontos para serem analisados.
Nesse momento entram análises quantitativas com modelos matemáticos, ou mesmo modelos de Machine Learning. Isso tudo para conseguirmos utilizar dados para resolver os mais variados problemas.
Nesta fase entram os Cientistas de Dados e Engenheiros de Machine Learning, buscando soluções muitas vezes ocultas. É papel dessa equipe criar uma arquitetura que seja escalável, entender os reais problemas do cliente e atender aos 5 Vs.
Maturidade de Big Data Analytics no mercado Brasileiro
É claro que atingir essa maturidade e ter proficiência nos 5 Vs dentro de uma cultura coerente de dados e com processos bem definidos de governança não é tarefa fácil.
Para diagnosticar esse fato, realizamos em 2018 uma pesquisa que gerou um relatório revelando a realidade da maturidade de dados das empresas no Brasil. Em uma escala de 1 a 5, as empresas respondentes informaram o nível de maturidade de suas organizações.
Abaixo estão os resultados indicando que a automação de comportamentos inteligentes (nível 5) ainda é baixo, ao passo que a grande maioria já possui sistemas de BI (business Intelligence) implantados.
Resultado dos níveis de maturidade de dados das empresas Brasileiras (Aquarela 2018)
Big Data para Big Business
A projeção de receita mundial com análise de negócios e Big Data deve atingir 274.3 bilhões de dólares até 2022 (IDC), com empresas como Netflix economizando até 1 bilhão de dólares por ano com o uso de Big Data (TechJury). Para essas empresas, uma cultura de dados madura é essencial para se diferenciar e continuar crescendo. Organizações que utilizam Big Data, seja internamente ou externamente, veem um aumento entre 8 e 10% de lucro (Entrepreneur), com benefícios como (Chicago Analytics Group):
Ciclos de inovação 25% mais rápidos;
Aumento de 17% de eficiência e produtividade;
Pesquisa e Desenvolvimento 13% mais eficiente;
12% mais diferenciação de produtos e serviços. (transformar em gráfico)
Não é à toa que muitas empresas estão em busca de melhorar seu relacionamento com dados, mas infelizmente a cultura de dados ainda não é uma realidade global. Cerca de 87% das empresas ainda possui maturidade baixa quando se trata de inteligência de negócios e Analytics (Gartner). Os custos desta desinformação e da baixa qualidade dos dados chega a 3.1 trilhões de dólares por ano apenas na economia dos EUA (IBM).
O crescimento rápido associado a complexidade do tema, fica evidente que as organizações precisam do apoio de empresas especialistas em analytics para acelerar a transformação digital, principalmente nas questões de implementação rápida de soluções de dados e de inteligência artificial. Vemos que muitas empresas assumem um alto risco tecnológico ao tentar formar equipes para atividades relativamente distantes do seu core business como é o caso de Big Data Analytics.
A cultura de Advanced Analytics na Aquarela
Na Aquarela, nossa cultura de Big Data Advanced Analytics foi desenvolvida e evolui constantemente com foco em todos os Vs de Big Data Analytics, boas práticas de governança e também no aprimoramento do stack tecnológico que compõe a plataforma VORTX.
Buscamos entregar uma experiência de resultados a partir de analytics que é capaz de mudar a cultura dos clientes, da indústria e dos serviços que passam por um intenso e sério processo de transformação digital. Para atingir esse objetivo, confiamos em nossos clientes e buscamos as soluções junto a eles, com todas as partes sendo essenciais para o sucesso dos projetos. Isso tudo vai além das análises pontuais de dados, pois é um intenso processo de evolução colaborativa guiada por dados, conhecedores de processos de negócios e tecnologias de informação e comunicação.
Resultados tangíveis
Como resultados práticos, conseguimos elevar a maturidade de dados de nossos clientes, gerando por exemplo:
É uma grande gama de soluções que geram uma inteligência expandida, a qual não seria possível de ser alcançada sem todos os componentes da cultura de dados, atuando sinergicamente dentro de uma visão clara do que é inteligência artificial.
Conclusões
Big Data Analytics é um algo muito amplo, os 5vs ajudam a simplificar o conceito para os gestores promoverem mudanças práticas na realidade das organizações. Hoje muitas empresas apresentam dificuldades em se reinventarem nesta nova economia digital, seja por limitação técnica no uso intensivo de planilhas ou por limitações metodológicas/culturais relacionadas a dados.
Neste artigo, buscamos mostrar como o mercado vem apresentando sua demanda por analytics, quais os pontos de negócio mais importantes e até um pouco da maturidade de dados no cenário brasileiro. Desta forma, os principais temas que recomendamos aos gestores são:
Governança de dados
Desenvolvimento de cultura de dados
Otimização de cadeias de distribuição, logística e design de processos comerciais
Privacidade de dados – Lei Geral de Proteção de Dados (LGPD)
Nossos squads interdisciplinares trabalham dia-a-dia com tecnologias de ponta para entender os desafios, encontrar oportunidades, e resolver os seus maiores problemas. Se na indústria 4.0 dados são poder, nós buscamos empoderar nossos clientes para transformar dados em informação, informação em conhecimento, e conhecimento em valor estratégico para o seu negócio. É pela transformação digital que a Aquarela aumenta a inteligência do mundo.
Quais desafios de Big Data Analytics você enfrenta hoje? E O que estão fazendo para superar?
Cientista de Dados e Service Designer na Aquarela, especialista em Design Centrado no Usuário e doutorando em Engenharia Mecânica pela UFSC com foco em IA aplicada a criatividade e inovação em organizações. Tem experiência como consultor e palestrante em IA, criatividade, inovação e UX/Design de Serviço.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
A indústria 4.0 é caracterizada pela migração do fluxo de valor em um movimento que sai dos recursos físicos concebidos e produzidos de forma centralizada, para os serviços concebidos e produzidos de forma descentralizada e cada vez mais personalizados pelo forte apoio de Advanced Analytics e IA, a partir de um processo de transformação digital.
Esse processo tem seu início com o boom da internet na primeira década do milênio. A emancipação da Indústria 4.0, que atingiu a sua maioridade em 2018, deixa de existir apenas em artigos científicos e laboratórios e toma força e vigor nos orçamentos das maiores corporações do mundo, conforme estabelecem as pesquisas da OCDE, Gartner Group e PWC.
A indústria 4.0 é materializada a partir dos conceitos da Web 3.0, cujo cerne está na democratização da capacidade de ação e de conhecimento (como já discutido neste post em nosso blog ). Mas antes de chegarmos no 4.0, vamos entender as suas versões anteriores em perspectiva:
Caracterizada pela descoberta dos ganhos econômicos ao produzir algo em série ao invés de produção artesanal (individual), possibilitando a mecanização do trabalho, que anteriormente só era executado por pessoas ou animais, foi o momento em que o homem começou a usar a força das águas, dos ventos e também do fogo, a partir das máquinas a vapor e moinhos.
Essa visão foi estabelecida por Adam Smith em 1776 no livro – A riqueza das Nações – onde ele apresenta as vantagens da segmentação do trabalho em uma fábrica de alfinetes. (saiba mais)
Componentes fundamentais – Carvão e Máquinas a vapor.
Seu grande impulsionador foi a eletricidade que, a partir de geradores, motores e iluminação artificial, permitiu estabelecer as linhas de montagem, e assim se deu a produção em massa de bens de consumo.
Componentes Fundamentais – Eletricidade e Máquinas eletromecânicas
Caracterizada pela automação, tem como impulsionador o uso de robôs e computadores na otimização das linhas de produção.
Componentes Fundamentais: Computadores e Robôs
Indústria 4.0
A Indústria 4.0 é caracterizada pela forte automação das etapas de concepção, manufatura e distribuição de bens e serviços com forte uso de IC – Inteligência Coletiva – e IA – Inteligência Artificial. Na Indústria 4.0, com a evolução da Web, indivíduos são cada vez mais empoderados pelos seus agentes (smartphones). Dar vazão às necessidades desse novo consumidor é um dos grandes desafios da nova indústria.
Para ilustrar esse conceito criamos a seguinte tabela:
Gerações
Concepção (Design)
Manufatura
Distribuição
Serviços
Virtude
Era pré-industrial
Pessoas
Pessoas
Pessoas
Pessoas
Trabalho artesanal
Indústria 1.0
Pessoas
Máquinas
Pessoas
Pessoas
Uso de energia hidráulica, térmica (vapor) e eólica
Indústria 2.0
Pessoas
Máquinas
Pessoas
Pessoas
Uso de eletricidade e estabelecimento das linhas de montagem
Indústria 3.0
Pessoas usando máquinas (computadores) como assistentes
Máquinas
Pessoas e Máquinas
Pessoas
Uso de autômatos (robôs e computadores)
Indústria 4.0
Inteligência Coletiva + Máquinas
Máquinas
Máquinas
Inteligência Coletiva + Máquinas
Uso de inteligência coletiva e computacional na etapa de concepção de produtos e serviços
Quadro 1 – As gerações da indústria – Aquarela Advanced Analytics 2018
Para compreender a Indústria 4.0 é importante esclarecer alguns conceitos que compõem seus alicerces: a IA – Inteligência Artificial e a IC – Inteligência Coletiva.
Inteligência Coletiva
Vamos começar pela IC, que é mais tangível, uma vez que usamos constantemente mecanismos que se valem da inteligência coletiva na produção e curadoria de conteúdos como: wikipedia, Facebook, Waze e Youtube.
Wikipedia: Por exemplo, a maior parte do conteúdo na Wikipedia é produzido por centenas de milhares de editores mundo afora e curado por milhões de usuários que validam e revisam seu conteúdo.
Waze: O aplicativo Waze usa o movimento dos próprios usuários para construir e aperfeiçoar seus mapas, fornecendo em tempo real caminhos alternativos para fugir de congestionamentos e novas rotas de novos trechos criados pelas cidades.
Facebook: O Facebook e Youtube são serviços que hoje detêm uma gama diversa de conteúdo que é gerado e curado espontaneamente pelos seus usuários por meio de likes e compartilhamentos.
O que esses mecanismos têm em comum? Eles se fiam da chamada inteligência das massas, um conceito estabelecido pelo Marquês de Condorcet em 1785, que define um grau de certeza e incerteza sobre uma decisão a partir de um coletivo de indivíduos.
Com centenas ou milhares de indivíduos agindo ao seu modo, ao somar todas essas ações, obtém-se um todo que é maior que a soma das partes. Esse comportamento coletivo é observado nos chamados efeitos de enxame, em que insetos, pássaros, peixes e seres humanos, agindo de forma coletiva, alcançam feitos muito maiores que se agissem de forma individual.
Condorcet mostrou isso de forma matemática, o que inspirou muitos líderes iluministas que usaram suas ideias como base para a formação das democracias nos séculos 18 e 19.
De forma contemporânea, podemos olhar um banco de dados como um grande lago de experiências individuais que formam um coletivo, o Big Data é responsável por coletar e organizar esses dados e o Advanced Analytics por aprimorar, criar e recriar coisas (disrupção) com o uso intensivo de estatística e IA.
Inteligência Artificial
Em um escrutínio criterioso, é possível entender a IA como uma implementação artificial de agentes que usam os mesmos princípios da IC – Inteligência Coletiva. Ou seja, ao invés de formigas ou abelhas, são usados neurônios e/ou insetos artificiais, que de certa forma simulam os mesmos comportamentos do mundo real em um mundo computacional (nuvem) e, dessa forma, obtém a partir da inteligência das massas: decisões, respostas e criações, como esta peça usada para sustentar uma ponte na capital da Holanda, Haia.
Do lado esquerdo a peça original criada por engenheiros, no meio e à direita duas peças criadas a partir de uma abordagem de IA chamada de algoritmos genéticos. A peça da direita é 50% menor e usa 75% menos material e, apesar disso, por conta de seu design, é capaz de sustentar a mesma carga dinâmica da peça da esquerda.
Há centenas de casos de uso de IA, que vão desde a detecção de sorriso em máquinas fotográficas e celulares a carros que se locomovem de forma autônoma em meio a carros com motoristas humanos em grandes cidades.
Cada caso de uso de IA usa um conjunto de técnicas que podem envolver aprendizado (Machine Learning), descobertas de insights e geração de decisões ótimas por meio de predição e prescrição (Advanced Analytics) e ainda computação criativa (Creative Computing).
Exemplos
O uso intensivo de IC e IA podem gerar novos produtos e serviços gerando disrupções que hoje vemos em algumas indústrias promovidas por empresas como Uber, Tesla, Netflix e Embraer.
Uber
No caso do Uber, eles usam fortemente a IC para gerar competição e ao mesmo tempo colaboração entre motoristas e passageiros, o que é complementada por algoritmos de IA na entrega de um serviço de transporte confiável a um custo nunca antes disponível.
Apesar de ser 100% digital, está revolucionando a forma como nos transportamos e muito em breve lançará seus táxis 100% autônomos e, em um futuro próximo, drones que transportam seus passageiros pelos ares. Este é um exemplo claro de transformação digital a partir do redesenho por meio da perspectiva da Indústria 4.0.
Tesla
A Tesla usa IC a partir dos dados capturados dos motoristas de seus carros elétricos e, aplicando Advanced Analytics, optimiza seu próprio processo e ainda os usa para treinar a IA que hoje é capaz de dirigir um carro com segurança em meio ao trânsito de grandes cidades do mundo.
Eles são um exemplo material da Indústria 4.0. Usam IC e IA para desenhar seus produtos inovadores, uma cadeia de fábricas automatizadas para produzí-los e os vendem online. E muito em breve transportarão e entregarão seus produtos até a porta de seus clientes com seus novos caminhões elétricos e autônomos, fechando completamente o ciclo da Indústria 4.0.
Netflix
A Netflix, por sua vez, usa o histórico de acessos aos filmes e notas auferidas pelos seus usuários para gerar um lista de recomendações de preferências que servem de entrada para a criação de originais da própria empresa como os sucessos House of Cards e Stranger Things. Além disso eles usam a IA do algoritmo Bandit (da própria Netflix) para gerar capas de títulos e curadoria de lista, que atraiam os usuários (espectadores) a consumir novos conteúdos.
Embraer
A Embraer, 3ª maior fabricante de aviões do mundo e maior empresa de inovação no país usa IA, IC e Advanced Analytics em sistemas de manutenção de equipamentos.
Com o uso dessas técnicas é possível, a partir das experiências de manutenções e procedimentos de mitigação de riscos aplicados a uma IA, conseguir reduzir os custos de processos de troubleshooting em equipamentos de alto valor, chegando a uma economia de até 18% em uma indústria onde margens aparentemente baixas podem gerar impacto competitivo considerável.
Conclusões e recomendações
O caminho para a indústria 4.0 está sendo pavimentado pelas técnicas de IC, IA, Advanced Analytics, Big Data, Transformação Digital e Service Design e com bons exemplos de líderes globais.
A mudança é muitas vezes um processo que pode gerar ansiedade e desconforto, mas ela é necessária para alcançar as virtudes da Indústria 4.0.
Com relação às nações, a entrada tardia nos movimentos industriais pode gerar grandes dificuldades de competição. Por exemplo, no Brasil, a industrialização só foi possível pela força econômica do café centralizada no vale do Paraíba, e de certa forma foi tardia.
Qual a força e região do país que impulsionará a indústria 4.0? Acreditamos que regiões com alto IDH, alta conectividade e apoio ao trabalho em rede na forma de ecossistemas sairão na frente nessa nova corrida industrial.
Sugerimos começar pequeno e pensando grande, inicie pensando em Dados, eles são os blocos construtivos de toda a Transformação Digital. Comece alimentando uma Cultura de Dados em sua empresa/departamento/setor.
E como começar a pensar em Dados? Comece definindo seus dicionários, eles serão suas cartas náuticas em meio à jornada da Transformação Digital.
Entender o potencial dos dados e os novos negócios que eles podem gerar é instrumental para a transição de: produtor de bens físicos para: fornecedores de serviços que podem ser apoiados por produtos físicos ou não. Vide Uber e AirBnb, ambos não possuem carros ou imóveis, mas são os responsáveis por uma fatia generosa do mercado de transporte e acomodação.
Na Aquarela desenvolvemos um Business Analytics Canvas Model que trata-se de uma ferramenta de Service Design para a elaboração de novos negócios baseados em Dados. Com ele é possível promover o uso intensivo de IC, IA nas etapas de Concepção e Serviços, os elos que caracterizam a mudança da Indústria 3.0 para a 4.0.
Em breve publicaremos mais sobre sobre o Business Analytics Canvas Model e as técnicas de Service Design voltadas para Advanced Analytics e IA.
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.