Olá a todos,
O objetivo deste post é mostrar o que acontece quando entregamos apenas números de 188 países à uma máquina (VORTX) e ele descobre por si só como eles devem ser organizados em diferentes caixas. Esta técnica é conhecida como análise de agrupamentos ou clustering! As questões que o artigo irá responder são:
- Como os 188 países analisados são segmentados com base em seus índices?
- Quais são as características de cada grupo?
- Quais fatores são os mais influentes para a formação dos grupos?
O que vou encontrar neste artigo?
Dados Primeiro – De onde eles vem?
Reuni 65 índices de 188 países do mundo, formando uma tabela excel de 65 colunas e 189 linhas. As fontes são principalmente:
- UNDESA 2015,
- Instituto de Estatística da UNESCO de 2015,
- United Divisão de Estatística das Nações de 2015,
- Banco Mundial de 2015,
- FMI de 2015.
As variáveis selecionadas para análise foram:
- Índice de Desenvolvimento Humano IDH-2014
- Coeficiente de Gini 2005-2013
- Taxa de natalidade entre adolescentes de 15-19 por 100k 2010-2015
- Registro de nascimento abaixo de 5 anos 2005-2013
- Crescimento das emissões de dióxido de carbono anual médio
- Emissões de dióxido de carbono per capita 2011 (toneladas)
- Alteração percentual de florestas florestas 1900-2012
- Alteração de uso de dispositivos móveis 2009-2014
- Índice de preços do consumidor 2013
- Crédito interno fornecido pelo setor financeiro 2013
- Índice doméstico de preços 2009-2014
- Índice de volatilidade doméstica de alimentos 2009-2014
- Taxa de electrificação da população (distribuição elétrica)
- Anos de escolaridade esperados – Anos
- Exportações e importações percentual GPD – 2013
- Taxa de suicídio feminino para cada 100k pessoas
- Investimento estrangeiro direto entradas líquidas porcentagem do PIB 2013
- Área de floresta Percentual da área total de terras 2012
- Combustíveis fósseis percentual do total 2012
- Retiradas de água doce 2005
- Índice de Desigualdade de gênero 2014
- Despesa das administrações públicas – o crescimento anual 2005 2013
- Despesa das administrações públicas – Percentual do PIB 2005-2013
- PIB 2013
- PIB per capta
- Formação bruta de capital fixo do PIB 2005-2013
- RNB – Rendimento Nacional Bruto per capita – 2011 Dólares
- Pessoas desabrigadas devido a desastres naturais 2005 2014 por milhões de pessoas
- Taxa de homicídios por 100 mil pessoas 2008-2012
- Mortalidade Infantil 2013 por milhares
- Entrada de turistas internacionais por milhares 2013
- Mobilidade internacional de estudantes em escolarização superior 2013
- Usuários de internet percentagem da população 2014
- Violência por parceiro íntimo 2001-2011
- Expectativa de vida à ao nascimento em anos
- Taxa de suicídio masculino 100k pessoas
- Taxa de mortalidade materna por 100 nascidos vivos 2013
- Média de anos de escolaridade – Anos
- Assinantes de telefonia móvel para cada 100 pessoas 2014
- Esgotamento dos recursos naturais
- Taxa de migração por 1k pessoas 2010-2015
- Médicos por 10k pessoas
- População afetada por desastres naturais média anual por milhão de pessoas 2005-2014
- Percentual da população vivendo em área degradada de terras 2010
- População percentual com ensino secundário 2005-2013
- Ensino Pré-primário 2008-2014
- Ensino Primária-2008-2014
- Taxa de abandono escolar no primário 2008-2014
- População carcerária para cada 100k pessoas
- Fluxos de capital privado porcentagem do PIB 2013
- Despesa pública em percentagem do PIB educação
- Percentual despesas de saúde pública do PIB 2013
- Proporção de alunos por professor na escola relação primária 2008-2014
- Refugiados por país de origem
- Remessas entradas PIB 2013
- Percentual de fontes renováveis 2012
- Despesa em Pesquisa e Desenvolvimento 2005-2012
- Percentual da população em edução secundária 2008-2014
- Percentual de Quotas de assentos no parlamento para mulheres 2014
- Percentual de estoque de imigrantes da população 2013
- Os impostos sobre o lucro de renda e ganho de capital 205 2013
- População com educação terciária -2008-2014
- Receita tributária total do PIB 2005-2013
- Taxa de tuberculose por milhares 2012
- Menores de cinco anos Mortalidade 2013 milhares
E quais foram os resultados?
Vamos começar a olhar para o mapa, onde estes grupos são, então vamos para a visualização do VORTX para uma melhor compreensão do DNA (composição de fatores de cada grupo).
Ok, eu vejo os grupos, mas agora que saber qual é a combinação de características que unem ou separam esses países. Na figura abaixo é a visualização VORTX considerando todos os grupos e todos os índices.
No lado esquerdo, há os grupos e sua proporção. Segmentação nitidez é a medição das diferenças de grupos com base em todos os fatores. No lado direito é a composição total de variáveis ou que podemos chamar o DNA do mundo. Verifique a diferença entre o grupo 3 e os grupos 1 e 2 em relação a densidade de países no lado direito do gráfico que indica um acumulo nos valores maiores de suas escadas.

Grupo 1 – A situação mais típica de países, onde se encontra o Brasil e que representa 51,60 do total.

Grupo 2 O segundo tipo mais comum que representa 26,46% do globo.

Grupo 3. Este é o cluster que tem os chamados países de primeiro mundo, com resultados acima da média que representa 14,89% do globo. Os Estados Unidos não pertencem a este grupos, mas o Canadá, Austrália, Nova Zelândia e Israel.

Grupo 4 – Os EUA são numericamente tão diferentes do resto do mundo que VORTX decidiu separar-lo sozinho em um grupo que teve o maior índice de distintividade = 38,93%.

Emirados Árabes Unidos – Outros países não têm países semelhantes para compartilhar do mesmo grupo, este é o caso dos Emirados Árabes Unidos.
Antes de terminar, abaixo eu adicionei os 5 fatores mais e menos influentes para a conformação dos grupos de acordo com o algoritmo do VORTX:
Top 5
- Mortes taxa de mortalidade materna por 100 nascidos vivos 2013-91% de influência
- Menores de cinco anos Mortalidade 2013 milhares – 90%
- Índice de Desenvolvimento Humano IDH-2014-90%
- Mortalidade Infantil 2013 por milhares – de 90%
- Esperança de vida à nascença anos – 90%
Os 5 inferiores
- Fontes renováveis percentual do total 2012 – influência de 70%
- Receita tributária total do PIB 2005-2013 – 72%
- Percentual despesas de saúde pública do PIB 2013 73%
- Administrações públicas a despesa de consumo final – Percentual do PIB 2005-2013 73%
- Administrações públicas a despesa de consumo final – o crescimento anual 2005 2013 75%
Conclusões
De acordo com VORTX se você pretende viver em outro país ou vender o seu produto no exterior, seria sensato ver a qual grupo este país pertence. Se ele pertence ao mesmo grupo que você vive, então você sabe o que esperar.
Outros fatores podem ser adicionados ou removido da análise? Sim, certamente! No entanto, às vezes não é tão fácil de obter as informações que você precisa no momento em que você precisar dele, as análises de Big Data normalmente têm várias restrições, por isso os resultados úteis vão depender da criatividade do analista (cientista de dados).
A abordagem de agrupamento está se tornando cada vez mais comum na indústria devido ao seu papel estratégico na organização simplificando o caos informacional de tomada de decisão. Então, como poderia um gerente de olhar para 12.220 células, como neste caso 65X188, para definir uma estratégia regional?
Qualquer dúvida ou dúvidas? Ou qualquer coisa que chame a sua atenção? Deixe um comentário!
Inteligência Artificial VORTX
A Aquarela desenvolveu a inteligência artificial VORTX para tornar as análises de mineração de dados e preditivas muito mais fáceis, precisas e robustas do que as soluções atuais de mercado, com impacto significativo em problemas de negócios como: redução de churn, descoberta de cenários de negócios, manutenção preditiva, segmentação de mercado e otimização de recursos. Mais informações, confira no site oficial do produto: www.vortx.io
Assine nossa Newsletter:
http://materiais.aquare.la/newsletter-aquarela
Veja outros estudos
- Como o VORTX Organiza o mundo
- Descoberta dos fatores chaves do IDH
- Minerando os dados da votação do impeachment
- VORTX no Judiciário Brasileiro
- 14 setores para Big Data e os dados necessários para análises
- Dos Dados à Inovação
Siga nossas redes sociais:

Fundador da Aquarela, CEO e arquiteto da plataforma VORTX. Mestre em Engenharia e Gestão do Conhecimento, entusiasta de novas tecnologias, tendo expertise em linguagem funcional Scala e em algoritmos de Machine Learning e IA.

Mestre em Business Information Technology pela Universidade politécnica de Twente – Holanda, Fundador da Aquarela, professor e palestrante na área de Ciência de Dados, especialista em arquitetura de sistemas de inteligência e desenvolvimento de novos negócios.