Em um conto do escritor Isaac Asimov, existe uma IA tão avançada que consegue resolver as equações da mecânica quântica e da relatividade geral; e projetar uma nave de dobra espacial (tipo aquelas do Star-Wars) e esta mesma IA a constrói, utilizando uma espécie de impressão 3D com auxílio de robôs. Por mais utópico que possa parecer esse futuro, aplicações de IA na ciência de ponta vêm crescendo tanto (impulsionados também pela indústria) que não é mais tão difícil imaginar tais feitos como deve ter sido para o Asimov ainda na década de 50.
O desenvolvimento da ciência básica é importante não apenas para responder questões fundamentais da natureza e de interesse da humanidade, como também impulsiona o desenvolvimento de novas tecnologias das quais o uso prático ainda nem existe. Sendo assim, motivados em grande parte pela sua popularização na indústria 4.0, o uso de algoritmos de ML e IA vêm favorecendo o avanço de áreas na pesquisa básica de uma forma que ainda nem podemos prever as repercussões dos estudos que estão sendo feitos neste instante. (Afinal, quem diria, no início do séc. XX, que algo tão teórico quanto a física quântica fosse nos levar a uma revolução digital, graças à miniaturização dos transistores?)
IA na ciência básica
Dentre os principais usos da IA na ciência básica, podemos destacar algumas aplicações na física, química e biologia. Porém, adianto que, nos últimos anos, devido à popularização dos algoritmos e à capacidade de processamento computacional, tais aplicações tornaram-se inúmeras nas mais diversas áreas da atividade humana.
Aplicações de ML na física de partículas
O Grande Colisor de Hádrons (LHC, na sigla em inglês), localizado na fronteira da França com a Suíça, é a maior máquina já construída pelo homem. Tem um formato de um anel com 27km de circunferência e seu propósito principal é compreender a estrutura básica da matéria em seu estado mais fundamental.
No LHC, e em institutos de pesquisa que colaboram com o CERN (Organização Europeia para a Pesquisa Nuclear, instituição que administra o LHC), são armazenados, processados e analisados 15 petabytes de dados por ano (não é à toa que foi no CERN que nasceu o protocolo WWW, ainda no século passado, para o compartilhamento dos dados dos primeiros colisores construídos lá). Isso se deve, em grande parte, ao sistema de “gatilhos” (triggers) que seleciona ainda no nível de hardware apenas 200 dos quase 1 bilhão de eventos de interesse por segundo que o acelerador produz quando está ligado. Por isso, em suas últimas atualizações, os grupos de pesquisa vinculados ao CERN vêm testando e aprimorando algoritmos de Machine Learning para selecionar eventos de interesse em todos os níveis de triggers do LHC.
Além de reduzir o custo de processamento e armazenamento dos dados, o processamento com IA evita falhas humanas e intensifica as chances de um evento apresentar uma reação nunca antes vista (vale lembrar que o bóson de Higgs, descoberto em 2012, foi verificado em alguns poucos eventos de trilhões que foram previamente analisados). Atualmente, devido à sua riqueza e complexidade, os conjuntos de dados abertos do LHC são reanalisados por grupos de pesquisa do mundo todo, que podem testar e desenvolver seus próprios sistemas de análise.
O Laboratório Nacional de Luz Síncrotron (LNLS), vinculado ao Centro Nacional de Pesquisa em Energia e Materiais, opera no Brasil um dos maiores aceleradores do mundo, capazes de produzir luz síncrotron, radiação que, segundo as palavras do próprio site da instituição, “pode ser utilizada para investigar a composição e a estrutura da matéria em suas mais variadas formas, com aplicações em praticamente todas as áreas do conhecimento”. Todo o projeto do SIRIUS, além de fomentar o desenvolvimento da tecnologia e inovação nacional desde a planta, promove treinamentos e investe na capacitação de cientistas para que estes possam usar IA e ML para analisar os dados provenientes do experimento, principalmente na representação gráfica dos dados experimentais.
Recentemente, foi publicado um artigo que utilizou dados do experimento para investigar a estrutura interna e a síntese proteica do vírus SARS-CoV-2, estudo importantíssimo para entender possíveis mecanismos de ação contra o vírus que ainda podem ser desenvolvidos.
Aplicações de IA na astrofísica
Outra aplicação interessante que fez avançar mais um pouco a compressão humana sobre a natureza foi o uso da IA para reconstruir a primeira imagem de um buraco negro. A conhecida “foto” do buraco negro que circulou em todas as mídias foi fruto de “toneladas” de dados, cuidadosamente adquiridos, armazenados e processados.
O Prêmio Nobel de física de 2020 foi dividido entre três pesquisadores pelas suas contribuições na descoberta e caracterização de propriedades de buracos negros. Nesse contexto, a primeira foto de um buraco negro, divulgada naquele mesmo ano, foi fruto da coleta de dados provenientes de 8 telescópios espalhados pelo globo (incluindo um na América do Sul e outro na Antártica).
Dito de maneira simples, o algoritmo de IA responsável por recriar a imagem foi alimentado durante anos com os dados destes telescópios que estavam apontados para o centro de uma galáxia a cerca de 50 milhões de anos luz da nossa. Como cada telescópio só via “uma parte” do centro da galáxia, foi preciso usar IA para reconstruir a imagem. Para verificar se o algoritmo não estava apenas reproduzindo aquilo que eles queriam ver, o time responsável no MIT, liderado por Katie Bouman, treinou a mesma IA com diferentes conjuntos de imagens. O resultado foi surpreendente. Quando alimentada com dados dos telescópios, todas as IA convergiam para reconstruir a mesma imagem do buraco negro no centro da galáxia M87.
Diferentes conjuntos de treino criam a mesma imagem do buraco negro. Fonte: TED talk by Katie Bouman
Uso de IA na estabilização de fusão nuclear
Outro uso interessante de IA, que pode vir a ter implicações de médio prazo em nossas vidas, é o uso de aprendizagem de máquina para controlar um reator de fusão nuclear.
A fusão nuclear é o combustível pelo qual as estrelas (incluindo o nosso Sol) produzem tanta energia. Se dominada pelo homem (ou por uma IA), ela seria capaz de gerar muito mais energia que Itaipu, a maior usina hidrelétrica do planeta. Claro que este ainda é um cenário hipotético, afinal os reatores de fusão atuais ainda enfrentam diversos problemas, tanto na sua construção quanto na manutenção em atividade. Um desses desafios, especialmente em reatores do tipo Tokamak, é manter o plasma de hidrogênio (estado da matéria onde os átomos estão totalmente ionizados) estável, já que para isso é necessário controlar e ajustar vários parâmetros do campo magnético dentro do reator.
A reação de fusão precisa ocorrer em uma câmara de vácuo no interior do reator, e este campo é ao mesmo tempo responsável por fundir os átomos de hidrogênio quanto de evitar com que o plasma ultra-aquecido (que pode chegar a temperaturas mais elevadas que a do núcleo solar) entre em contato com a parede do reator, o que levaria a sérios acidentes.
Pensando nisso, a empresa DeepMind desenvolveu um algoritmo de ML que aprende com os dados obtidos do reator um ajuste ótimo de todos os parâmetros para que se controle o campo magnético interno do processo de fusão. Recentemente, o uso desta IA, ainda em estado de desenvolvimento, conseguiu manter a fusão ativa por 2 segundos no reator do Instituto Federal Suíço de Tecnologia em Lausanne. Esse reator é de testes e foi projetado para manter uma fusão por no máximo 3s, porém o recorde mundial é de um grupo no Reino Unido, que conseguiu manter uma fusão por 5 s, mas ainda com o auxílio de um operador humano.
Sensoriamento remoto e monitoramentos de queimadas
Temos também uma aplicação interessante de IA em solo brasileiro. É o caso do INPE (Instituto Brasileiro de Pesquisas Espaciais), que coleta dados de queimadas e desmatamento na floresta amazônica desde 1984. Nesta época, a coleta ainda era feita utilizando computadores com sistema operacional DOS, e o processamento das imagens era feito num poderoso PC-XT com processador de 4,7 MHz, 32 KB de memória e um HD de 20 MB (verdade seja dita, nada mal para a época).
O primeiro mapa de queimadas na Amazônia foi lançado em parceria com a NASA em 1996. Desde então, existem satélites polares e geoestacionários que coletam dados diariamente da floresta e que são disponibilizados de forma gratuita na plataforma TerraBrasilis, mantida pela instituição.
Dito isso, podemos perceber que esta série temporal de dados que o INPE possui é valiosíssima, e possibilita fazer diversos estudos com aplicação de ML e DL. A principal vantagem desse tipo de análise é combinar os dados das séries temporais do INPE com dados recentes de nano satélites, de altíssima resolução, para fazer regressões, monitoramento e previsão quanto ao bem-estar da maior floresta tropical do mundo. Segundo Lucas Fonseca, CEO da Airvantis, uma empresa de pesquisa espacial, um cenário ideal seria o financiamento de uma startup para desenvolver uma metodologia baseada em inteligência artificial para poder analisar as imagens obtidas em grande quantidade e combiná-las com os dados do INPE.
Emprego de técnicas IA na produção de vacinas e edição genômica
Por fim, a aplicação de IA na Ciência vai além. Sabemos que técnicas de IA foram amplamente utilizadas para investigar o vírus causador da Covid-19 e, principalmente, no desenvolvimento de vacinas.
Dave Johnson, chefe de dados e Inteligência Artificial da Moderna, comenta que graças à automação robótica e algoritmos de IA, eles passaram de 30 para cerca de mil testes com mRNA por mês, com muito mais consistência e qualidade nos resultados. Além disso, ele ainda comenta que outro uso importante no laboratório foi para síntese de proteínas, que, devido à sua complexidade, podem ser construídas numa infinidade de combinações a partir de aminoácidos mais simples.
Graças à riqueza nos dados históricos do laboratório, hoje é possível que um cientista desenvolvendo uma sequência para um tratamento específico possa apenas clicar um botão e a IA retorne a melhor sequência para aquele procedimento. Ademais, técnicas de ML, associadas com procedimentos de edição genética como o CRISPR, já são aplicadas com terapias de gene na área médica e na agricultura para a produção de versões mais sustentáveis de maior rendimento e de alguns transgênicos já amplamente utilizados na indústria.
Estamos passando por uma nova revolução industrial, e no meio do turbilhão de novos conceitos, aplicações e novas tecnologias, ainda é difícil saber exatamente quais os rumos que a Indústria 4.0 irá tomar. Não obstante, já podemos entrever alguns dos benefícios do uso de IA na Ciência e de análise avançada de processos, não só no terceiro setor, agregando valor em produtos e serviços, como também motivados por governos e instituições de pesquisa básica, em todas as esferas do conhecimento humano, que veem na cultura de dados oportunidades de fazer a vela no escuro da ciência brilhar um pouco mais.
Gostou de saber mais sobre os usos de IA na Ciência? Deixe seu comentário.
Cientista de Dados na Aquarela. Graduado em Física Licenciatura pela Universidade Federal de Uberlândia (2017). Atuou como professor de Matemática e Física na rede pública de educação básica. Possui Mestrado em Física Teórica pela Universidade Federal do Rio Grande do Sul (2020) e é Doutorando pela mesma instituição. Tem experiência na área de Física de Partículas e Cosmologia com interesse na modelagem teórica e busca experimental da matéria escura.
Há diversas razões para a criação de projetos de Data Lake, Big Data e Data Analytics na indústria. Pois, a partir desses projetos, torna-se possível concretizar a ideia de tomadas de decisão baseadas em dados (Data-driven) e a automação de decisões inteligentes por algoritmos de Inteligência Artificial.
Nesse caminho, vale lembrar que a construção de grandes bancos de dados já é, por si, um grande desafio técnico. Além disso, há a necessidade do alinhamento entre pessoas, processos e o negócio para que o tão esperado Data Lake não se torne um Data Swamp (pântano de dados).
Neste artigo, apresentamos alguns pontos de atenção aos gerentes, diretores de tecnologia da informação e CIOs neste processo de alto risco e que geralmente está atrelado a altas cifras.
O que é um Data Lake?
Antes de mais nada, existem diversas definições de Data. Para embasar nossa discussão, escolhemos a definição da Amazon que diz (tradução livre):
“Data Lake (Lago de dados) é um repositório centralizado que permite armazenar dados estruturados e não estruturados em qualquer escala. Em um data lake é possível armazenar dados como eles são/estão, sem ter que primeiro estruturá-los, sendo também possível executar diferentes tipos de análise sobre os dados”.
Pontos de Atenção em Projetos de Data Lake
A ideia de um data lake é de fato muito interessante e acaba evidenciando sua importância estratégica no médio e longo prazo. No entanto, aqui vão algumas dicas gerenciais (não tecnológicas) relacionadas aos processos de construção e estruturação de Data Lake.
01 – Estruturar os dados: significado e metadados
Após a realização de diversos tipos de projetos relacionados a Data Lakes, chegamos a algumas conclusões interessantes que detalhamos abaixo:
O principal fator relacionado ao sucesso ou fracasso das iniciativas de lago de dados era a concepção incompleta e até ambígua das análises. Isso nos levou à criação, registro e publicação do Analytics Business Canvas, que tem o objetivo de extrair o real significado de cada esforço analítico.
Embora o conceito “Lago de Dados” informe que os dados podem ser guardados como são/estão, começar projetos guardando os dados sem uma estratégia clara de negócios não é uma boa intuição. Além disso, ter membros sêniores na equipe ajuda a mitigar muito esse tipo de risco.
O grande sucesso dos projetos de analytics geralmente está na estratégia do uso dos dados frente às oportunidades de negócio e não necessariamente na tecnologia envolvida. O foco deve ser nas motivações e “PORQUÊS” e depois nos “COMOS”. Inclusive, com boas motivações até “COMOS” se tornam mais fáceis de responder.
Além das questões dos significados dos processos de negócio, é importante (muito importante) o uso sistemático de metadados (informações sobre os dados).
Uma dica importante para quem está começando a organizar a área de análise e data lakes é começar estruturando os dicionários dados (um modelo básico pode ser baixado aqui).
É fundamental entender a diferença entre a natureza dos dados transacionais e dados analíticos e os seus papéis/expectativas no projeto. Neste artigo – Como estruturar projetos de analytics de alto nível – apresentamos essa diferença e o porquê isso é fundamental para o processo.
02 – Escolher o stack tecnológico adequado
Embora a tecnologia seja o segundo passo para a estruturação dos lagos de dados, ela é uma das decisões mais importantes a serem tomadas no projeto. A palavra-chave desse processo é a “Arquitetura de sistemas”.
A escolha do stack tecnológico para a criação do data lake (O que é um stack tecnológico de analytics?) deve estar alinhado tanto ao problema de negócio quanto ao conhecimento técnico do time de operação.
Neste ponto, para desenhar a arquitetura da(s) solução(ões) recomendamos profissionais com experiência em engenharia de software, bancos de dados, administração e criação de processos de ETL, escalabilidade de infraestruturas de armazenamento.
Para que o stack tecnológico analítico não entre em desuso é altamente recomendado garantir um alto nível de interoperabilidade entre os sistemas.
03 e 04 – Cuidar com a sub/super estimação do volume de dados
Assim como no planejamento e construção de uma casa, nos projetos, os lagos de dados necessitam de informações mínimas à correta estruturação. Entretanto, muitas vezes, essas informações mínimas não são claras nem para o time de negócios, nem para os arquitetos de sistemas.
Super-estimação
Já vimos casos em que se imaginava um conjunto imenso de dados (muito acima da realidade) para se investigar padrões dos comportamentos de uma indústria em específico.
Com o tempo foi verificado que pequenos ajustes na estratégia dos indicadores de desempenho (dicas sobre estruturação de KPIs) com o uso de técnicas de amostragem (O que é amostragem?) já solucionaram com elegância e precisão mais de 80% dos problemas analíticos.
A dica é questionar diferentes atores envolvidos no projeto, buscando entender a natureza do problema, das perguntas e então olhar para os dados internos e externos.
Sub-estimação de dados
Do mesmo modo que é possível superestimar a necessidade de dados, é também possível subestimá-los.
Existem inovações vindas de outras áreas, com especial ênfase aos projetos de IOT (Internet das Coisas) que, na sua natureza, baseia-se a obter o máximo de dados possível dos sensores. Isso implica de fato em estratégias de armazenamento, compactação, tipos de análise, segurança e ainda velocidade de transmissão.
Outra forma de subestimação de dados é a exploração combinatória dos registros que em alguns casos se tornam computacionalmente inviáveis ao processamento e/ou armazenamento. Assim, são imperativas técnicas apropriadas para cada caso.
05 – Analisar a necessidade do uso de índices
A criação de índices nos bancos de dados deve estar bem estruturados e não criados descontroladamente.
“Uso inapropriado e/ou excessivo de índices”
O uso de índices em bancos de dados é uma boa prática que visa aumentar a eficiência de consultas muito frequentes. Isso possibilita ao sistema gerenciador de bancos de dados (SGBD) fazer busca de menor complexidade, evitando as custosas buscas sequenciais. No entanto, índices ocupam espaço, podendo um índice muito facilmente chegar a corresponder a 25% do tamanho de uma tabela.
Em data lakes, o acesso não é repetitivo, não são necessárias consultas de alto desempenho. Portanto, utilizar índices além de chaves primárias para estabelecer as relações entre entidades pode vir a criar volumes desnecessários para atingir uma eficiência não-desejada.
“Lembre-se que nos livros os índices são menores do que o próprio conteúdo”.
06 – Manter a segurança da informação
É evidente que onde há informação valiosa há também riscos de segurança.
A segurança requer um nível de maturidade das estruturas de permissões que, por um lado permitam, acesso rápido e fácil aos analistas e máquinas de analytics sem comprometer regras de acesso que rompam com o sigilo de determinadas informações.
As soluções mais avançadas de governança de dados que conhecemos usam com maestria a teoria da identidade em seus sistemas, não permitindo assim que haja usuários utilizando acessos de terceiros.
Toda a engenharia de software do projeto deve estar em constante comunicação com os times da gestão e do negócio para garantir o nível correto de permissão de cada usuário a cada dataset (O que são datasets?)
Atualmente, com a entrada em vigor da Lei Geral de Proteção Dados (LGPD), o fator segurança se torna ainda mais crítico, caso em que os dados armazenados são dados pessoais.
Data Lake – Conclusões e recomendações
Projetos relacionados à estruturação de data lake, big data, analytics de grande escala são complexos por natureza e com grandes riscos de se tornarem pântanos de dados (Data Swamps) inacessíveis e com alta complexidade.
Os pontos apresentados aqui não são exaustivos, mas pontos de vista que minimamente devem ser levados em consideração para mitigação do risco do projeto de montagem de lagos de dados.
Não existem soluções mágicas ou prontas devido ao alto grau de customização dos dados para cada negócio, setor e estratégia empresarial.
A contratação (terceirização) de empresas especializadas no processo é um caminho que pode ser mais seguro e eficiente. Contudo, a terceirização de analytics merece alguns cuidados. Pensando nisso, separamos estes dois artigos:
Finalizando, a transformação digital está se tornando real em várias empresas e indústrias. Os data lakes serão, cada dia mais, um ponto central na estratégia empresarial digital. O tema é relevante e deve ser abordado de forma irrestrita entre os vários departamentos.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Cientista de dados na Aquarela, com experiência em gestão de conhecimento, integração de dados e arquitetura de sistemas. Graduando em Ciências da Computação pela UFSC, entusiasta de software livre e amante de Python.
Diante da economia da informação, da evolução do poder computacional e da Indústria 4.0, as empresas têm visto cada vez mais valor nas respostas das análises de dados. Mas o que é Data Analytics? E como isso se aplica nos negócio?
Data Analytics:
Data Analytics é o processo de analisar informações (dados) com um propósito específico. Isto é, pesquisar e responder perguntas com base em dados e com uma metodologia clara para todos os participantes.
Um projeto de Analytics pode ser executado de maneira individual, contudo, dependendo da dinâmica e complexidade das questões e dos dados disponíveis, é comum que o trabalho seja colaborativo, com diversos indivíduos atuando em papéis diferentes ao longo de cada etapa.
Falar da história do analytics e não citar Florence Nightingale (confira aqui) é como falar de computador e não citar Alan Turing.
Vinda de família rica que esperava um casamento promissor da filha, frustrou-os pela sua escolha em ser ajudante dos médicos, uma vez que a enfermagem ainda não existia.
Este trabalho era considerado indigno e desempenhado por mulheres desacompanhadas na sociedade. Porém, seu objetivo de vida era e sempre foi salvar vidas, independentemente da maneira.
Florence foi pioneira em utilizar métodos estatísticos e representações visuais para gerar relatórios médicos ao governo inglês durante a Guerra da Crimeia.
Além de ser uma inspiração feminista e valorizar a profissão da enfermagem, Florence também foi membro do grupo real de estatística. Com seu trabalho e muita resiliência, transformou mundialmente os métodos de saúde, criando a enfermagem como profissão e afetando diretamente a qualidade de vida de milhões de pessoas até hoje.
A rosa de Florence
Florence sabia que as doenças eram derivadas da péssima higiene hospitalar, mas como provar para os políticos que acompanhavam a guerra de longe?
Durante seus trabalhos de apoio aos feridos da guerra na Crimeia, Florence começou registrar todas as mortes com apoio de estatísticos, porém não conseguia transformar as informações de modo que melhores decisões fossem tomadas.
“Os gráficos devem atingir os olhos, para evidenciar aquilo que não conseguimos expressar apenas com os números”
Entre indas e vindas, Florence criou em seu relatório o famoso diagrama abaixo, conhecido como a Rosa de Florence:
Provavelmente este é um dos diagramas mais importantes da história, relatando as projeções das mortes dos soldados ingleses da seguinte forma:
Mortes por infecções hospitalares/doenças (azul);
Mortes por ferimentos em batalha (vermelho);
Mortes por outras causas (preto).
Ferramentas de Data Analytics
Antes de citar ferramentas de análise, é muito importante destacar que Data analytics pode ocorrer sem mesmo a utilização de computadores.
Indicadores
Digamos que precisamos fazer o controle em papel de todas as vezes que alguém da empresa entrou na sala X.
Abaixo está uma demonstração deste processo, onde cada presença é marcada ao longo dos meses com um risco. A coleta dos indicadores é o primeiro passo de qualquer processo de análise. Sugerimos que este trabalho seja feito por profissionais com experiência em Design de Indicadores.
Colaborador
Janeiro
Fevereiro
João Silva
IIII
IIIII
Maria Dos Santos
II
II
…
Cultura de analytics:
Com o tempo, notamos que mesmo coisas simples podem gerar dificuldades nas análises de dados.
Assim, para que os indicadores possam ser coletados de forma adequada e as análises possam ocorrer com o maior número de pessoas (de forma a se replicar dentro dos diversos setores), é fundamental níveis elevados de cultura de Data Analytics, como definido neste Diagrama.
A ordem evolucionária da complexidade dos dados e tecnologia abordamos neste artigo.
A comunicação
A boa comunicação dos profissionais envolvidos em processos de Data Analytics é fundamental. Todos os envolvidos devem falar o mesmo idioma (leia-se entender dos dados) desde a primeira fase do projeto, onde se levantam as perguntas de negócio, até a entrega do relatório analítico ou sistemas inteligentes. Qualquer ruído entre os pontos envolvidos pode influenciar negativamente no resultado.
Além disso, o primeiro passo para a evolução da cultura de análise e melhoria da comunicação está na conformação dos primeiros dicionários de dados de análise.
Neste link você pode baixar nossa sugestão de dicionário de dados. Fiquem a vontade para criar seus próprios, só não esqueça de verificar se todos os departamentos envolvidos na análise são capazes de entender o documento.
Muitos projetos de analytics falham por falta de consenso sobre os itens das hipóteses e/ou por má formação da mesma. Assim, seguem algumas dicas para melhoria dos processos de comunicação:
Utilização de sistemas de informação avançados para que todos do grupo possam interagir de forma plena sobre o problema.
Registros das atividades ao longo do tempo.
Evite aplicar metodologias tradicionais de gestão de projetos, elas interrompem o fluxo interativo, criativo e colaborativo das análises. A necessidade de controle deve ser o mais baixa possível. Times que demandam muito controle possivelmente não possuem o perfil de analista de dados.
Hipóteses claras e adaptadas ao escopo do projeto, criadas de forma afirmativa, para que possam ser aceitas ou rejeitadas pelos testes efetuados nos dados. Ex. Se elevarmos em 3% o valor das mercadorias A e B, então teremos 20% a mais de lucratividade ao final do mês em relação às lojas que não aplicaram o aumento. No final do mês será possível dizer claramente se a hipóteses estava certa ou errada.
Para desenvolver projetos de analytics com sucesso é necessário ter em mente os diversos tipos de dados disponíveis, conhecer os níveis de maturidade da organização e ter um alinhamento com todos os participantes do projeto.
O que é Data Analytics: How to – como fazer.
Invariavelmente, os processos de analytics seguem um padrão bastante consistente de fluxo como mostrado abaixo:
Nossa recomendação é conhecer bem o funcionamento de arquivos do tipo .CSV pois é um dos padrões de exportação dos principais sistemas existentes. Neste link há algumas demonstrações de como gerar estes arquivos.
Limpeza e Transformação:
Uma vez que o dado é extraído, em raríssimos casos, ele está pronto para análise. Por exemplo, digamos que os usuários preencheram suas cidades como: São Paulo, sao paulo, Sao paulo.
Claramente vemos as três opções se referem ao mesmo município, porém foram escritos de maneiras distintas. Isso impossibilita uma análise assertiva da quantidade de fatos que aconteceram nestes locais.
Por isso, é obrigatório executar processos de limpeza e organização dos dados antes de qualquer análise manual, ou mesmo com apoio de algoritmos de inteligência artificial.
Análise de negócio:
Toda análise precisa de um propósito bastante definido, em muitos casos ferramentas com excesso de funcionalidades fazem os analistas perderem o foco e a objetividade do trabalho.
Por isso, se recomenda que pelo menos um dos integrantes de projetos de analytics tenha o perfil de analista de negócios, para ser o norteador de todos as perguntas criadas, e consequentemente das respostas.
Validação do Analytics:
A única forma de analytics gerar retorno financeiro é alterando processos de gestão, e para isso as validações de analytics servem para avaliar se os ajustes sugeridos pelas análises surtem efeitos reais, e se eles são suficientes para garantir a continuidade das pesquisas.
O comportamento inteligente e o raciocínio lógico podem ser instigados de maneira lúdica tanto para crianças quanto adultos. Lev Vygotsky, importante estudioso da área da educação, afirmava que o brinquedo e a brincadeira estimulam a curiosidade, criatividade, autoconfiança e o pensamento.
O brincar e o jogar transformam o aprendizado em algo dinâmico, entusiasmante e natural. Seguindo esta linha, Piaget já dizia que o conhecimento não se cria sozinho dentro do sujeito, e nem isolado no brinquedo/jogo, mas na interação e experimentação dos dois.
Utilizamos desta linha de pensamento em nossas capacitações e imersões, o primeiro exemplo prático e de senso comum que ajuda a desbloquear o cérebro para o que é Data Analytics é o jogo Super Trunfo, que de uma forma lúdica e didática ajuda na compreensão e mensuração de variáveis numéricas e categóricas para análises comparativas.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
A indústria 4.0 é caracterizada pela migração do fluxo de valor em um movimento que sai dos recursos físicos concebidos e produzidos de forma centralizada, para os serviços concebidos e produzidos de forma descentralizada e cada vez mais personalizados pelo forte apoio de Advanced Analytics e IA, a partir de um processo de transformação digital.
Esse processo tem seu início com o boom da internet na primeira década do milênio. A emancipação da Indústria 4.0, que atingiu a sua maioridade em 2018, deixa de existir apenas em artigos científicos e laboratórios e toma força e vigor nos orçamentos das maiores corporações do mundo, conforme estabelecem as pesquisas da OCDE, Gartner Group e PWC.
A indústria 4.0 é materializada a partir dos conceitos da Web 3.0, cujo cerne está na democratização da capacidade de ação e de conhecimento (como já discutido neste post em nosso blog ). Mas antes de chegarmos no 4.0, vamos entender as suas versões anteriores em perspectiva:
Caracterizada pela descoberta dos ganhos econômicos ao produzir algo em série ao invés de produção artesanal (individual), possibilitando a mecanização do trabalho, que anteriormente só era executado por pessoas ou animais, foi o momento em que o homem começou a usar a força das águas, dos ventos e também do fogo, a partir das máquinas a vapor e moinhos.
Essa visão foi estabelecida por Adam Smith em 1776 no livro – A riqueza das Nações – onde ele apresenta as vantagens da segmentação do trabalho em uma fábrica de alfinetes. (saiba mais)
Componentes fundamentais – Carvão e Máquinas a vapor.
Seu grande impulsionador foi a eletricidade que, a partir de geradores, motores e iluminação artificial, permitiu estabelecer as linhas de montagem, e assim se deu a produção em massa de bens de consumo.
Componentes Fundamentais – Eletricidade e Máquinas eletromecânicas
Caracterizada pela automação, tem como impulsionador o uso de robôs e computadores na otimização das linhas de produção.
Componentes Fundamentais: Computadores e Robôs
Indústria 4.0
A Indústria 4.0 é caracterizada pela forte automação das etapas de concepção, manufatura e distribuição de bens e serviços com forte uso de IC – Inteligência Coletiva – e IA – Inteligência Artificial. Na Indústria 4.0, com a evolução da Web, indivíduos são cada vez mais empoderados pelos seus agentes (smartphones). Dar vazão às necessidades desse novo consumidor é um dos grandes desafios da nova indústria.
Para ilustrar esse conceito criamos a seguinte tabela:
Gerações
Concepção (Design)
Manufatura
Distribuição
Serviços
Virtude
Era pré-industrial
Pessoas
Pessoas
Pessoas
Pessoas
Trabalho artesanal
Indústria 1.0
Pessoas
Máquinas
Pessoas
Pessoas
Uso de energia hidráulica, térmica (vapor) e eólica
Indústria 2.0
Pessoas
Máquinas
Pessoas
Pessoas
Uso de eletricidade e estabelecimento das linhas de montagem
Indústria 3.0
Pessoas usando máquinas (computadores) como assistentes
Máquinas
Pessoas e Máquinas
Pessoas
Uso de autômatos (robôs e computadores)
Indústria 4.0
Inteligência Coletiva + Máquinas
Máquinas
Máquinas
Inteligência Coletiva + Máquinas
Uso de inteligência coletiva e computacional na etapa de concepção de produtos e serviços
Quadro 1 – As gerações da indústria – Aquarela Advanced Analytics 2018
Para compreender a Indústria 4.0 é importante esclarecer alguns conceitos que compõem seus alicerces: a IA – Inteligência Artificial e a IC – Inteligência Coletiva.
Inteligência Coletiva
Vamos começar pela IC, que é mais tangível, uma vez que usamos constantemente mecanismos que se valem da inteligência coletiva na produção e curadoria de conteúdos como: wikipedia, Facebook, Waze e Youtube.
Wikipedia: Por exemplo, a maior parte do conteúdo na Wikipedia é produzido por centenas de milhares de editores mundo afora e curado por milhões de usuários que validam e revisam seu conteúdo.
Waze: O aplicativo Waze usa o movimento dos próprios usuários para construir e aperfeiçoar seus mapas, fornecendo em tempo real caminhos alternativos para fugir de congestionamentos e novas rotas de novos trechos criados pelas cidades.
Facebook: O Facebook e Youtube são serviços que hoje detêm uma gama diversa de conteúdo que é gerado e curado espontaneamente pelos seus usuários por meio de likes e compartilhamentos.
O que esses mecanismos têm em comum? Eles se fiam da chamada inteligência das massas, um conceito estabelecido pelo Marquês de Condorcet em 1785, que define um grau de certeza e incerteza sobre uma decisão a partir de um coletivo de indivíduos.
Com centenas ou milhares de indivíduos agindo ao seu modo, ao somar todas essas ações, obtém-se um todo que é maior que a soma das partes. Esse comportamento coletivo é observado nos chamados efeitos de enxame, em que insetos, pássaros, peixes e seres humanos, agindo de forma coletiva, alcançam feitos muito maiores que se agissem de forma individual.
Condorcet mostrou isso de forma matemática, o que inspirou muitos líderes iluministas que usaram suas ideias como base para a formação das democracias nos séculos 18 e 19.
De forma contemporânea, podemos olhar um banco de dados como um grande lago de experiências individuais que formam um coletivo, o Big Data é responsável por coletar e organizar esses dados e o Advanced Analytics por aprimorar, criar e recriar coisas (disrupção) com o uso intensivo de estatística e IA.
Inteligência Artificial
Em um escrutínio criterioso, é possível entender a IA como uma implementação artificial de agentes que usam os mesmos princípios da IC – Inteligência Coletiva. Ou seja, ao invés de formigas ou abelhas, são usados neurônios e/ou insetos artificiais, que de certa forma simulam os mesmos comportamentos do mundo real em um mundo computacional (nuvem) e, dessa forma, obtém a partir da inteligência das massas: decisões, respostas e criações, como esta peça usada para sustentar uma ponte na capital da Holanda, Haia.
Do lado esquerdo a peça original criada por engenheiros, no meio e à direita duas peças criadas a partir de uma abordagem de IA chamada de algoritmos genéticos. A peça da direita é 50% menor e usa 75% menos material e, apesar disso, por conta de seu design, é capaz de sustentar a mesma carga dinâmica da peça da esquerda.
Há centenas de casos de uso de IA, que vão desde a detecção de sorriso em máquinas fotográficas e celulares a carros que se locomovem de forma autônoma em meio a carros com motoristas humanos em grandes cidades.
Cada caso de uso de IA usa um conjunto de técnicas que podem envolver aprendizado (Machine Learning), descobertas de insights e geração de decisões ótimas por meio de predição e prescrição (Advanced Analytics) e ainda computação criativa (Creative Computing).
Exemplos
O uso intensivo de IC e IA podem gerar novos produtos e serviços gerando disrupções que hoje vemos em algumas indústrias promovidas por empresas como Uber, Tesla, Netflix e Embraer.
Uber
No caso do Uber, eles usam fortemente a IC para gerar competição e ao mesmo tempo colaboração entre motoristas e passageiros, o que é complementada por algoritmos de IA na entrega de um serviço de transporte confiável a um custo nunca antes disponível.
Apesar de ser 100% digital, está revolucionando a forma como nos transportamos e muito em breve lançará seus táxis 100% autônomos e, em um futuro próximo, drones que transportam seus passageiros pelos ares. Este é um exemplo claro de transformação digital a partir do redesenho por meio da perspectiva da Indústria 4.0.
Tesla
A Tesla usa IC a partir dos dados capturados dos motoristas de seus carros elétricos e, aplicando Advanced Analytics, optimiza seu próprio processo e ainda os usa para treinar a IA que hoje é capaz de dirigir um carro com segurança em meio ao trânsito de grandes cidades do mundo.
Eles são um exemplo material da Indústria 4.0. Usam IC e IA para desenhar seus produtos inovadores, uma cadeia de fábricas automatizadas para produzí-los e os vendem online. E muito em breve transportarão e entregarão seus produtos até a porta de seus clientes com seus novos caminhões elétricos e autônomos, fechando completamente o ciclo da Indústria 4.0.
Netflix
A Netflix, por sua vez, usa o histórico de acessos aos filmes e notas auferidas pelos seus usuários para gerar um lista de recomendações de preferências que servem de entrada para a criação de originais da própria empresa como os sucessos House of Cards e Stranger Things. Além disso eles usam a IA do algoritmo Bandit (da própria Netflix) para gerar capas de títulos e curadoria de lista, que atraiam os usuários (espectadores) a consumir novos conteúdos.
Embraer
A Embraer, 3ª maior fabricante de aviões do mundo e maior empresa de inovação no país usa IA, IC e Advanced Analytics em sistemas de manutenção de equipamentos.
Com o uso dessas técnicas é possível, a partir das experiências de manutenções e procedimentos de mitigação de riscos aplicados a uma IA, conseguir reduzir os custos de processos de troubleshooting em equipamentos de alto valor, chegando a uma economia de até 18% em uma indústria onde margens aparentemente baixas podem gerar impacto competitivo considerável.
Conclusões e recomendações
O caminho para a indústria 4.0 está sendo pavimentado pelas técnicas de IC, IA, Advanced Analytics, Big Data, Transformação Digital e Service Design e com bons exemplos de líderes globais.
A mudança é muitas vezes um processo que pode gerar ansiedade e desconforto, mas ela é necessária para alcançar as virtudes da Indústria 4.0.
Com relação às nações, a entrada tardia nos movimentos industriais pode gerar grandes dificuldades de competição. Por exemplo, no Brasil, a industrialização só foi possível pela força econômica do café centralizada no vale do Paraíba, e de certa forma foi tardia.
Qual a força e região do país que impulsionará a indústria 4.0? Acreditamos que regiões com alto IDH, alta conectividade e apoio ao trabalho em rede na forma de ecossistemas sairão na frente nessa nova corrida industrial.
Sugerimos começar pequeno e pensando grande, inicie pensando em Dados, eles são os blocos construtivos de toda a Transformação Digital. Comece alimentando uma Cultura de Dados em sua empresa/departamento/setor.
E como começar a pensar em Dados? Comece definindo seus dicionários, eles serão suas cartas náuticas em meio à jornada da Transformação Digital.
Entender o potencial dos dados e os novos negócios que eles podem gerar é instrumental para a transição de: produtor de bens físicos para: fornecedores de serviços que podem ser apoiados por produtos físicos ou não. Vide Uber e AirBnb, ambos não possuem carros ou imóveis, mas são os responsáveis por uma fatia generosa do mercado de transporte e acomodação.
Na Aquarela desenvolvemos um Business Analytics Canvas Model que trata-se de uma ferramenta de Service Design para a elaboração de novos negócios baseados em Dados. Com ele é possível promover o uso intensivo de IC, IA nas etapas de Concepção e Serviços, os elos que caracterizam a mudança da Indústria 3.0 para a 4.0.
Em breve publicaremos mais sobre sobre o Business Analytics Canvas Model e as técnicas de Service Design voltadas para Advanced Analytics e IA.
Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
No post I, ver aqui, falamos sobre o quanto é importante o planejamento e se preparar para a nossa guerra contemporânea, que tem como objetivo a informação certa no menor prazo possível.
Nosso soldado data scientist já tem consciência de ferramentas e possíveis estratégias para a batalha da análise de dados. Porém, o fato de ter apenas os métodos comprados e instalados na empresa nem sempre geram resultados, e por que isso acontece?
Disposição de Ferramentas
“7. Prever uma vitória que o homem comum pode prever não corresponde ao auge da habilidade.”
Sun Tzu falava da Disposição das Tropas, nós falamos da Disposição de Ferramentas. Descobrir o óbvio não agrega valor à empresa e é o principal ponto de atenção das equipes de analytics. A exceção a essa regra está nos casos onde análise tem o objetivo de testar um algoritmo ou abordagem e então saber se as ferramentas (metodologia + inteligência artificial) foram capazes de encontrar o que já se sabe e ir além.
Verificamos que a experiência dos analistas é um fator determinante no sucesso dos estudos de analytics. Isso se deve, principalmente, por prever erros estruturais nos fluxos de análise e a criatividade para desenvolver testes contra os algoritmos. Ainda, compará-los em diversas dimensões e eventualmente encontrar explicações esperadas de validação e no auge da habilidade, informações não previstas que geram oportunidades reais de melhoria.
Forças normais e extraordinárias
“5. Na batalha, valha-se da força normal para o combate e utilize a extraordinária para vencer.”
Existem forças normais que podemos usar para complementar as extraordinárias, é o exemplo das ferramentas livres e open source ou mesmo estratégias coerentes de indicadores (KPIs – Key Performance Indicators) já fazem uma diferença bastante grande no desempenho com impacto direto nos níveis de maturidade de analytics.
Agora dependendo do nível da competição, do timing e tamanho do mercado, utilizar ferramentas fechadas podem fazer a diferença do extraordinário, por isso, fique atendo a soluções fechadas disponibilizadas por APIs.
O preço da dúvida
“9. Na guerra, o perito age de maneira sutil e insubstancial, não deixa pistas; divinamente misterioso, é inaudível; torna-se, ele próprio, senhor do destino de seu inimigo.”
No mundo analytics, cases detalhados são raramente divulgados. Do que dá certo ou errado, cada um guarda para si, mais ou menos como no investimento em ações. Aparentemente, uma das formas mais plausíveis de se obter conhecimento real das tentativas e erros é pela incorporação e disseminação de processos de gestão do conhecimento e contratações estratégicas.
Conclusão: Estratégias
“4. Na guerra, tanto a vantagem quanto o perigo são inerentes às manobras.”
Há uma expectativa bastante grande com relação a qualquer iniciativa de Data Analytics dentro das organizações e isto acontece independentemente do nível de maturidade de dados em que elas se encontram. O fato é que, para chegar a modelos preditivos realmente assertivos, o caminho é tortuoso e multidisciplinar. Por tanto, projetos com poucos recursos (horas de analistas, computadores parrudos, ferramentas de análise e capacitação) tendem a ter resultados coerentes com o investimento.
Então é isso pessoal, espero que a analogia ajudou no entendimento e que gere valor no seu negócio. Um forte abraço de toda a equipe da Aquarela Advanced Analytics.
People Manager na Aquarela Advanced Analytics. Graduada em Psicologia e entusiasta em novas tecnologias e como elas podem oferecer qualidade de vida para as pessoas.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.