Como a estratégia de clusterização em Big Data otimiza negócios?

Como a estratégia de clusterização em Big Data otimiza negócios?

O conceito de clusterização, também chamado de clustering, agrupamentos, por análise de grupos é um tema recorrente na área de aprendizado de máquina e inteligência artificial, por isso criamos um vídeo tutorial que, em síntese, demonstra um problema de forma visual, um caso real e algumas conclusões.

Descrição do vídeo em português

Para facilitar a absorção do conceito, utilizamos um exemplo bastante visual. Assim, imagine que você tem em uma fábrica têxtil e quer produzir o maior número de bandeiras de todo os países conhecidos, algo em torno de 200 tipos com cores e formatos diferentes.

Interessa saber quais quais os padrões de cores e formatos para otimizar e organizar a linha de produção? Essa é a ideia, reduzir custos e tempo, mantendo qualidade e volume.

Figura 1. Representação dos dados brutos, sem detecção de padrões.

Um bom algoritmo de agrupamento deve ser capaz de identificar padrões nos dados como nós humanos conseguimos identificar visualmente bandeiras com características comuns, por terem os mesmos padrões, como são as bandeiras da Itália, Irlanda e México, no exemplo abaixo.

Podem existir padrões de cores, forma, figuras, etc. Um fator que diferencia algoritmos de clusterização para os de classificação é que estes não tem a informação do padrão junto com os dados, ou seja, ele deve descobrir automaticamente.

Figura 2 – Cluster zero (0) composto pelas bandeiras Itália, Irlanda e México.

Neste contexto, tão importante quanto identificar os grupos com indivíduos semelhantes são as identificações dos indivíduos que não se assemelham com nenhum outro. Os chamados outliers, que são as exceções, elementos únicos que não compartilham características com outros elementos.

Figura 3 – Cluster seis (6) composto pela bandeira do Nepal. Uma exceção.

Por fim, em um resultado final de clusterização, temos um número de 8 grupos formados pelas bandeiras que apresentam características semelhantes e indivíduos isolados, por serem ouliers.

Figura 4 – Clusters formados ao final do processamento.

Um dos fatores mais importantes de processamento de grupos é número de grupos onde os elementos serão alocados. Em muitos casos, temos observado resultados diferentes quando aplicamos os mesmos dados, nas mesmas condições de processamento e parametrização, em diferentes algoritmos.

sso é muito importante. Veja o que poderia ser o resultado de uma clusterização imprecisa.

bandeiras4

Figura 5: Clusters resultantes de um agrupamento impreciso.

A questão prática é:

Você investiria o seu dinheiro nisso?

Provavelmente não, e resolver esse problema é o desafio dos cientistas de dados. Na prática, já aplicamos em diversos segmentos, em um deles identificamos padrões da características dos pacientes que mais faltam às consultas médicas, gerando custos e ingerência em consultórios, clínicas e hospitais.

O resultado foi um surpreendente grupo com 50% dos dados analisados, o que merece realmente uma política específica para redução dos custos e impactos de operação.

O que pensariam os clientes que ficaram sem horário para consulta? Como não dar razão aos diretores financeiros destas organizações?

 Outras possíveis aplicações estão no post “14 setores para aplicação de Big Data e dados necessários para as análises”. no blog da Aquarela.

Conclusões

  • Nossa visão é muito poderosa para classificação de imagens como no caso das bandeiras.
  • É humanamente impossível fazer análises e correlações lógicas dos números de um grande banco de dados, para isso foram criados os algoritmos de clusterização.
  • A acurácia (exatidão) dos resultados de clusterização são fundamentais para a tomada de decisão de investimentos.
  • Diversos setores podem se beneficiar dessa abordagem de gestão.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

O que é a web 3.0? Qual sua importância para os negócios?

O que é a web 3.0? Qual sua importância para os negócios?

Saudações a todos!
O conceito Web 3.0 e seu stack tecnológico (tecnologias envolvidas) são importantes e aqui explicamos o porquê. 

A cada dia o volume de dados e informações na internet cresce exponencialmente. Novos sites, imagens, vídeos e outras mídias são postadas a cada segundo. Assim, com esse volume de dados, como tornar as buscas por informação relevante com um custo benefício aceitável para atividades diárias? Portanto:

Em um contexto complexo de informações intensivas em constante mudança, as ferramentas da Web 3.0 são valiosas para usuários na organização de informações e processos de negócios em grande escala.

A evolução da Web

Desde o surgimento da primeira versão da Web, criada no início da década de 90 por Tim Berners-Lee na Suíça, suas tecnologias sofreram significativas evoluções, principalmente na interatividade com o usuário e na massificação da utilização da rede.

Em resumo, de acordo com nossas pesquisas, a história da web se deu em três fases importantes:

A Web Statica – Web 1.0

A Web 1.0 apresentava dados e informações de forma predominantemente estáticas, era caracterizada pela baixa interação do usuário, permitindo pouca ou nenhuma interação.

As tecnologias e métodos da Web 1.0 ainda são utilizadas para a exibição de conteúdos como leis, informativos e manuais. Assim, essa geração da Web foi marcada pela produção centralizada de conteúdos como os portais, UOL, ZAZ, Terra, AOL e os diretórios, Yahoo, Cadê e Craigslist. 

Nestes portais e diretórios, o usuário é apenas o consumidor de conteúdos em um contexto onde poucos produzem para muitos. Isto é, um modelo muito próximo de broadcasting (TVs, rádios, jornais e revistas). 

A grande virtude da Web 01 é a democratização do acesso à informação.

A Web Interativa – Web 2.0

A Web 2.0 em contraste à Web 1.0, tem seu conteúdo gerado predominantemente por seus usuários em um processo onde: muitos produzem e muitos consomem. 

Um exemplo, talvez um dos principais, desse modelo é a plataforma Wikipédia. Da mesma forma, também se beneficiaram deste conceito foram os blogs, as redes sociais e o conhecido Youtube

Na Web 2.0 o usuário deixa de ser apenas consumidor e se torna um produtor, ou coprodutor de conteúdos. 

A grande virtude da Web 2.0 está na democratização da produção de conteúdo.

A Web da interação inteligente – Web 3.0

A Web 3.0 ou Web Semântica reúne as virtudes da Web 1.0 e 2.0 adicionando a inteligência das máquinas. 

Em 2001 Tim-Berners Lee, o criador da Web, apresenta um artigo na revista Scientific American estabelecendo os pilares para a Web Semântica. 

No texto, Berners-Lee explica como dois irmãos combinam a logística do tratamento médico que a mãe deles precisava fazer. 

Na estória de Berners, os irmãos usando agentes inteligentes fazem todo o planejamento do tratamento, incluindo a marcação das consultas e a escala de caronas que os dois deveriam revezar, os agentes interagem com os sistemas das clínicas, entre si e com os dispositivos da casa.

Na Web 3.0, as máquinas se unem aos usuários na produção de conteúdo e na tomada de ações, tornando a infraestrutura da internet, de coadjuvante para protagonista na geração de conteúdos e processos. 

Assim, os serviços da Web 3.0, unem-se aos usuários e aos produtores profissionais na criação ativa de conhecimento.  Dessa forma, com sua grande capacidade de processamento, a Web 3.0 é capaz de trazer para as pessoas e para as empresas, serviços e produtos com alto valor agregado por conta da sua assertividade e alta personalização,

A grande virtude da Web 3.0 é a democratização da capacidade de ação e conhecimento, que antes só estava acessível às empresas e aos governos.

Resumo comparativo das Webs

comparativos das webs
Resumo da análise da evolução da Web

Exemplos Web 3.0

Alguns exemplos de aplicações da Web 3.0 são o Wolfram Alfa e na Siri da Apple: estes dois aplicativos conseguem resumir grandes quantidades de informações em conhecimento e ações úteis para as pessoas.

Wolfram Alpha

Para entender melhor a diferença entre a Web 2.0 e a 3.0, podemos fazer um pequeno comparativo entre o Wolfram Alfa e o Google, usando as duas ferramentas, digitando a frase “Brasil vs Argentina” em ambos buscadores, vemos a diferença nos resultados, veja na figura abaixo:

Comparativos dos resultados das ferramentas de busca

Comparativo Google e Wofram Alpha como exemplo de aplicação Web 3.0

Primeiramente, no caso do Google, os resultados são voltados aos conteúdos mais frequentes, enfatizando os jogos entre Brasil e Argentina. Nota-se que a palavra “futebol” ou “jogos” não foram mencionadas na busca.

Por outro lado, no resultado do Wolfram Alpha, a ferramenta entende que a busca se trata de uma comparação entre os dois países. Consequentemente retorna dados estatísticos, históricos, geográficos (mapas), demográficos, linguísticos entre outros aspectos úteis de comparação.

Siri Apple

A Siri da Apple, por sua vez, usa técnicas de reconhecimento de voz e inteligência artificial para trazer resultados e efetuar ações, como por exemplo: 

“onde fica a pizzaria mais próxima?”, “estou a quantos quilômetros do próximo posto de gasolina” ou ainda “marque uma reunião para às 15h00 amanhã”.

Na Web 1.0 e 2.0 a busca é espécie de pesquisa “cara-crachá” do texto em relação ao que existe publicado na rede, muitas vezes com o viés do que é mais abundante, não trazendo o que é mais relevante para o usuário naquele momento.

Uma das distinções dos buscadores da Web 3.0, com relação aos da Web 1.0 e 2.0, está no tempo que usuário pode gastar navegando em um mar de informações até realmente encontrar o que ele realmente procurava.

Já os sistemas que operam nos padrões Web 3.0 buscam conhecimento contextualizado para auxiliar as pessoas em suas tarefas, apontando uma série de possibilidades de análise e informações relevantes. 

Conclusões e recomendações

A Web 3.0 surge de maneira gradual, tal qual foi da versão 1.0 para a 2.0, se encaminhando para um ambiente mais dinâmico onde o conhecimento em ação pode acelerar exponencialmente negócios em processos de:

Lembrando que o conhecimento é a informação justificada e contextualizada capaz de mudar algo ou alguém, o que pode ser traduzido como capacidade de ação. Portanto, entendemos que:

 a Web 3.0 começa a trazer conhecimento capaz de promover mudanças em larga escala para as pessoas, organizações promovendo a democratização da capacidade de ação e conhecimento em uma magnitude muito maior se comparada com o que foi alcançado com as Web 1.0 e 2.0.

Empresas como Apple e IBM vêm investindo pesado em tecnologias da Web 3.0, por exemplo, a Google Inc. na última década fez várias aquisições de empresas que trabalham com as tecnologias da Web Semântica, como por exemplo a Applied Semantics, e a Metaweb Technologies, Inc, entre outras.

Vale a pena aos inovadores, sejam eles empresários, políticos ou pesquisadores, entender mais sobre esse novo horizonte de possibilidades e estarem preparados para a nova geração de negócios. 

Sem a visão das mudanças da Web 3.0 há um risco grande de empresas tradicionais tornarem obsoletas no momento da virada de paradigma, assim como aconteceu com gigantes do passado como Kodak,  Nokia e Altavista, que em seus mercados, não se modernizaram em tempo.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores