Migração de Ambiente Data Lake Hadoop Cloudera para Hadoop Open Source: Desafios e Benefícios
Um fato importante que aconteceu nos últimos anos foi a fusão das empresas Hortonworks e Cloudera (cloudera.com), que juntas somam um capital de mais de 5.2 bilhões de dólares. Esse movimento gerou impactos diretos no mercado de dados, sendo o principal deles um aumento expressivo do custo do licenciamento dos clusters HDFS.
Dessa forma, as organizações que utilizam clusters Hadoop da distribuição Cloudera / Hortonworks em sua infraestrutura, se veem obrigadas a decidir entre uma das seguintes estratégias de continuidade de seus negócios:
- Opção de Licença e Suporte:
- Compliance Licenciado: Investir no novo licenciamento para atualizações e suporte especializado (lista de funcionalidades da plataforma)
- Manutenção Limitada sem Compliance: Arriscar-se com sistemas desatualizados sem cumprir os requisitos de compliance (não recomendado).
- Transição para Open Source:
- Migração para Ecossistema Open Source: Realizar a migração para uma abordagem totalmente open source baseada no ecossistema Apache Hadoop e outras soluções de código aberto.
- Estratégia de Nuvem:
- Transição para Arquitetura em Nuvem: Transferir recursos para provedores de nuvem, como AWS, Azure, Oracle, Google Cloud , com consideração dos custos cambiais e riscos de latência.
O objetivo deste artigo é apresentar aos gestores e profissionais de TI como reduzir os custos de licenças em infraestrutura, focando no sistema de arquivos e arquitetura do HDFS. Neste sentido a pergunta chave é:
“ É possível criar ou realizar a migração de um data lake Hadoop Cloudera ou Hortonworks para um ambiente sem custo de licenças? “
A resposta é: sim, é possível, uma vez que a estrutura das aplicações do ecossistema Hadoop são modularizadas e podem ser ajustadas conforme a necessidade do cliente, desde que os requisitos mínimos de infraestrutura sejam atingidos.
Por convenção, na Aquarela Analytics, buscamos realizar um projeto detalhado da arquitetura, visando garantir 100% de aderência às regras de negócio e suporte de hardware às soluções desenvolvidas. Dessa forma é possível acelerar o Retorno do Investimento (ROI) nos projetos de Data Lakes.
A seguir, falaremos sobre os principais desafios e benefícios do cenário de migração de um cluster on-premise baseado em licenças Cloudera ou Hortonworks para Apache Hadoop, livres dos custos de licenciamento. Custos esses que, quando existentes, podem inviabilizar, em alguns casos, o projeto de dados como um todo.
Ver também: 6 recomendações de gestão para projetos de Data Lake
Open source Data Lake
O stack tecnológico de dados Hadoop é bastante estável e consolidado, amplamente utilizado como parte integral da estratégia de desenvolvimento da cultura de dados ou cultura analítica. Muitos de nossos clientes de grande porte usam este stack em diferentes configurações há bastante tempo. Além de ser bastante estável e consolidada, neste contexto, significa ter uma baixa frequência de atualizações, muitos usuários e uma documentação que seja suficiente para que novas equipes possam trabalhar no projeto.
O Hadoop é uma plataforma construída baseada na linguagem JAVA, o que permite a sua utilização em computadores de diferentes tipos de hardware. Contudo, as operações de Data Lakes são operações de grande porte, o que demanda recursos computacionais com bastante memória, disco rígido e conectividade. Por isso, componentes do ecossistema Hadoop são geralmente “pesados” e isso requer conhecimento amplamente especializado e profissionais com anos de experiência.
É importante notar que as modelagens de arquitetura de data lake open source não precisam obrigatoriamente ficar presas somente aos componentes do Hadoop. Atualmente, está se consolidando o conceito de Data Lakehouse utilizando “Trino“, “Presto“, “Iceberg“, “Delta“, “Spark” e outras ferramentas com comunidades bem ativas e que podem impactar positivamente na qualidade da infraestrutura de dados.
Benefícios de uma arquitetura Hadoop de Data Lake 100% open source
Existem diversos fatores que influenciam a decisão de migrar uma plataforma Data Lake on-premise totalmente open source. Essa migração inclui diversos benefícios, tais como:
- Redução de custos vinculados à flutuação do dólar (muito presente em estratégias de operação em nuvem)
- Ganho de autonomia em relação aos dados e recursos de dados;
- Maior agilidade na resposta (baixa latência) e
- Maior segurança estratégica da informação.
Para uma análise mais detalhada desses fatores, elaboramos a tabela a seguir:
Fator de Impacto | Hadoop Data Lake (Open Source) | Hadoop Cloudera (Licenciado) |
---|---|---|
Custo | – Geralmente, custo mais baixo, pois as ferramentas são gratuitas e não há licenças a serem adquiridas. | – Custos mais altos devido às licenças de software e suporte pago. |
Flexibilidade | – Maior flexibilidade para escolher e personalizar as ferramentas que melhor se adequam às necessidades da empresa. | – Restrito às ferramentas oferecidas pela Cloudera, com menos flexibilidade para personalização. |
Comunidade e Inovação | – A comunidade open source é grande, ativa e inovadora, o que pode resultar em atualizações frequentes e novos recursos. | – Dependência da Cloudera para atualizações e inovações, que podem não ser tão ágeis quanto as comunidades open source. |
Suporte e Manutenção | – Pode depender de recursos internos ou de fornecedores de suporte open source. | – Suporte profissional disponível da Cloudera, o que pode ser vantajoso para empresas que valorizam o suporte técnico profissional e dedicado. |
Integração com Ecossistema | – Elevada capacidade de integração com outras ferramentas e sistemas open source. | – Integração simplificada com produtos Cloudera, podendo ser mais difícil integrar com ferramentas externas. |
Escalabilidade | – Escalabilidade potencialmente maior, pois pode-se dimensionar as ferramentas de acordo com suas necessidades sem preocupações com licenças adicionais. | – Escalabilidade limitada pelas licenças e custos associados à aquisição de mais capacidade. |
Comunidade de Desenvolvedores | – Maior pool de talentos disponíveis para desenvolvimento e manutenção, devido à popularidade das ferramentas open source. | – Talento especializado em produtos Cloudera pode ser mais restrito e caro. |
Independência do Fornecedor | – Menos dependência de um único fornecedor, o que pode reduzir riscos a longo prazo. | – Dependência contínua da Cloudera, o que pode aumentar os riscos de interrupção dos serviços se a relação com o fornecedor for interrompida. |
Segurança | – Possibilidade de auditar e personalizar as configurações de segurança de acordo com as necessidades da empresa. | – Cloudera oferece recursos de segurança, mas a customização pode ser limitada. |
Desafios da migração
A migração de sistemas e dados, sejam eles transacionais e/ou analíticos, é um desafio que pode gerar grande impacto na organização uma vez que não tenha sido bem definido, projetado e executado. Diversos elementos devem ser considerados no processo de migração, como: paralelismo, latência, segurança, velocidade de comunicação, curva de aprendizagem de novas tecnologias, dentre outros.
Leia também: Diferença entre sistemas transacionais e analíticos
Apesar de todos os componentes do ecossistema Hadoop estarem disponíveis para uso, isso não significa que serão de fácil instalação e customização. No caso da migração de um ecossistema de Data Lake licenciado Cloudera já em produção para uma solução totalmente open source com componentes do ecossistema Hadoop, o desafio e a complexidade podem ser mitigados dependendo do nível de maturidade analítica, de processo e de infraestrutura da empresa.
Abaixo estão alguns dos desafios e dificuldades que consideramos importantes a serem considerados antes e durante o processo de migração.
Componentes chave
A Cloudera é conhecida por seus diversos componentes proprietários e pelo seu envolvimento na contribuição para a comunidade open source a nível mundial. No entanto, um dos maiores desafios enfrentados ao considerar uma migração é a substituição do Cloudera Manager, que atua como um administrador de cluster e substitui o Ambari.
Fazer uma análise detalhada de uso dos componentes do cluster Cloudera para compreender como e pelo o que podem ser trocados. Nesses casos, versões de distribuições Cloudera / Hortonworks podem também ser um desafio, principalmente para planejar a migração de aplicações e usuários para a nova infra estrutura.
Integração de Dados e Ferramentas
A Cloudera fornece um ecossistema integrado com ferramentas que funcionam bem juntas. Migrar para uma solução open source pode exigir uma reestruturação significativa para integrar várias ferramentas de diferentes projetos e comunidades open source. A interoperabilidade pode ser um problema, porém pode ser contornada com equipes especializadas de integração.
Requalificação da Equipe
A equipe que está familiarizada com a tecnologia da Cloudera pode precisar adquirir novas habilidades e conhecimentos para lidar com ferramentas e tecnologias open source. Isso pode exigir treinamento extensivo e tempo para a equipe se adaptar.
Perda de Suporte Técnico Específico
A Cloudera oferece suporte técnico dedicado aos seus clientes. Ao migrar para uma solução open source, a empresa pode perder esse suporte específico e precisará confiar em recursos de suporte da comunidade ou contratar suporte externo.
Customização e Configuração
A flexibilidade das soluções open source pode ser uma vantagem, mas também pode ser desafiadora. A empresa precisará personalizar e configurar as ferramentas para atender às suas necessidades específicas, o que pode ser demorado e complexo.
Segurança e Governança
A Cloudera fornece recursos de segurança e governança integrados. Ao migrar para uma solução open source, a empresa precisa planejar e implementar esses recursos por conta própria.
Nós recomendamos Apache Ranger, que integra perfeitamente com o Active Directory e permite uma boa gestão de segurança e governança dos dados. O sucesso dessa implementação vai depender do nível de envolvimento da empresa.
Desafios de Escala
A escala de um Data Lake pode ser um desafio significativo. Ao migrar para uma solução open source, a empresa deve garantir que a nova arquitetura possa lidar com o volume crescente de dados de maneira eficaz.
Conclusões e Recomendações – Migração de Ambiente Data Lake Hadoop Cloudera para Hadoop Open Source: Desafios e Benefícios
Embora a Cloudera ofereça um ecossistema robusto, se bem planejado, é viável realizar uma transição completa para uma abordagem de código aberto, optando por ferramentas alternativas que atendam às necessidades específicas da sua empresa. Essa mudança demandará um planejamento detalhado e minucioso, porém proporcionará maior flexibilidade e controle sobre o seu ambiente de Data Lake.
A estratégia que sugerimos é que seja realizada a migração em paralelo. Ou seja, mantendo o sistema de produção em ambiente Cloudera, enquanto um Data Lakehouse é preparado. Isso possibilitaria uma sinergia de economia de custos e modernização das infraestruturas, mitiga impactos na produção e garante uma transição suave entre tecnologias.
O processo pode ser custoso em termos de tempo e recursos financeiros, normalmente ultrapassando seis meses. É essencial alinhar os processos e funções dependentes do Data Lake, pois isso pode afetar os requisitos não funcionais do sistema, como disponibilidade, usabilidade, segurança, compatibilidade e portabilidade, entre outros.
Tanto manter o ambiente Cloudera/Hortonworks, quanto iniciar um processo de migração para tecnologias Open Source terá seus custos. De um lado, o pagamento das licenças e o investimento recorrente em suporte dedicado, de outro os investimentos na migração de ambiente e dados. O que deve ser considerado como fator primordial de decisão é a estratégia de modernização a médio e longo prazo da organização. Certamente, a migração para sistemas Open Source será uma boa escolha para redução de custos no longo prazo.
Portanto, é fundamental compreender os diferentes cenários e as opções de ferramentas disponíveis para cada etapa do processo de integração de dados, escolhendo aquelas que melhor se adequam às necessidades específicas do seu projeto.
Evitar ficar preso a padrões específicos da indústria, escolher ferramentas com boa adesão da comunidade, considerar a possibilidade de interconexão entre ambientes on-premise e na nuvem, e priorizar a federalização da segurança são aspectos a serem considerados.
Ao projetar a nova arquitetura, é necessário envolver técnicos de migração/instalação, equipes de TI e gestão para garantir a conformidade com todos os requisitos e a utilização eficaz do novo cluster pelos usuários finais, além de possuir um período de “hypercare” de três a seis meses para garantir a identificação e correção de quaisquer erros ou comportamentos indesejados, bem como para realizar treinamentos necessários.Em resumo, a migração de uma solução de Data Lake Cloudera licenciada para uma abordagem totalmente open source pode oferecer benefícios, mas também envolve desafios significativos. É fundamental que a empresa avalie cuidadosamente suas necessidades, recursos e capacidades antes de prosseguir com essa transição, e esteja preparada para enfrentar os obstáculos ao longo do caminho. A Aquarela Analytics está à disposição para auxiliar nessa transição e garantir que atenda às necessidades específicas de sua indústria 4.0 de dados.
Quem é a Aquarela Analytics?
A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!
Autor
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Ph.D. em Ciência da Computação pela Sapienza Università di Roma (Itália). Doutor em Engenharia e Gestão do Conhecimento pela UFSC. Mestre em Engenharia Elétrica – ênfase em Inteligência Artificial. Especialista em Redes de Computadores e Aplicações para Web, Especialista em Metodologias e Gestão para EaD, Especialista em Docência no Ensino Superior e Bacharel em informática.
Possui experiência acadêmica como Professor, Coordenador, Palestrante e é Avaliador ad hoc do Ministério da Educação (INEP) bem como da Secretaria de Educação Profissional e Tecnológica (MEC) e do Conselho Estadual de Educação (SC).
Nas suas atividades profissionais, atua com de projetos nas áreas de: Ciência de Dados, Inteligência de Negócios, Posicionamento Estratégico, Empreendedorismo Digital e Inovação. Atua como Consultor na área de Projetos para Inovação e Soluções Computacionais Inteligentes utilizando Data Science e Inteligência Artificial.