Normalização geográfica: o que é e quais suas implicações?

Normalização geográfica: o que é e quais suas implicações?

Há grande valor em representar a realidade por meio de visualizações, sobretudo as informações espaciais. Se você já viu um mapa, sabe que os polígonos que constituem os limites políticos de cidades e Estados são geralmente irregulares (ver Figura 1a). Essa irregularidade dificulta a condução de análises e, por isso, não pode ser tratada por ferramentas de Business Intelligence tradicionais.  

Repare o ponto verde na Figura 1b, ele está sobre o polígono (‘bairro’) n.14, situado entre n.16 e n.18. Então responda agora: qual região está exercendo maior influência no ponto verde? É o bairro n.16 ou o n.18? O ponto verde é representativo pela região n.14, região n.16 ou n.18? 

Para responder questões como essas e para minimizar o viés gerado por visualizações com polígonos irregulares, a Plataforma Vortx faz o que se conhece por Normalização da Geografia, transformando os polígonos irregulares em polígonos de tamanho único e formato regular (ver Figura 1c). 

Após a “normalização geográfica”, é possível analisar os dados de determinado espaço por meio de estatísticas absolutas, não somente relativas, e sem distorções provocadas por polígonos de tamanhos e formatos distintos.

normalização geográfica - mapa Florianópolis
Figura 1 – Fonte: Adaptado de Associação Comercial e Industrial de Florianópolis – ACIF (2018) https://www.acif.org.br/a-acif/historico/attachment/mapa-acif-1/

Diariamente, pessoas, empresas e governos realizam inúmeras decisões considerando o espaço geográfico. Qual academia é mais perto de casa para eu me matricular? Em qual local devemos instalar o novo Centro de Distribuição da empresa? Ou, onde o Município deve posicionar as centrais do SAMU? 

Assim, no artigo de hoje, propomos duas perguntas: 

  1. O que acontece quando as informações georreferenciadas estão distorcidas? 
  2. Quão próximo podem chegar nossas generalizações sobre o espaço?

Normalização geográfica

Trabalhando com polígonos e regiões 

Lembrando que o conceito de polígono é derivado da geometria, sendo definido como: “uma figura plana, fechada e formada por segmentos de reta“. Quando o polígono possui todos os lados iguais e, consequentemente, todos os ângulos iguais, podemos chamá-lo de polígono regular. Quando isso não acontece, este é definido como um polígono irregular.

Fazemos o uso da divisão política da organização do território para entender seus contrastes, delimitando entre Nações, Estados e Municípios, por exemplo, mas também podemos delimitar regiões segundo diversas características, como a região da Caatinga, a região da Bacia Amazônica e até mesmo a zona do Euro ou zonas de eleitores do Trump e Biden. Enfim, basta cercar determinado local do espaço por alguma característica em comum. Os polígonos regionais, portanto, são extensamente utilizados para representar determinadas regiões ou a organização do território dessas regiões.

Diversas ferramentas de mercado preenchem polígonos com tonalidades distintas de cores, de acordo com os dados da região, buscando por contrastes entre estes.  Mas, cuidado! No caso dos tamanhos e formatos dos polígonos não serem constantes, pode haver vieses geográficos, tornando a visualização passível a interpretações errôneas. 

Dessa forma, a abordagem de polígonos se torna limitada nos seguintes aspectos: 

  • Comparações entre regiões de forma desigual;
  • Necessidade de relativização de indicadores por número da população, área ou outros fatores;
  • Não permite análises mais granulares;
  • Demanda mais atenção dos analistas ao criarem afirmações sobre determinadas regiões. 

Finalidade da normalização geográfica

Portanto, a razão de existir da normalização geográfica é a superação dos problemas típicos associados a análises de dados relacionadas aos polígonos irregulares, transformando a organização do território em um conjunto de polígonos (no caso, hexágonos) de tamanho e formato regulares.

No exemplo abaixo, comparamos as duas abordagens; 

1) Análise com polígonos de mesorregiões e; 2) Hexágonos sobre a região sudeste do Brasil. 

Normalização da Geografia
Figura 2 – Fonte: Aquarela Advanced Analytics (2020)

A Normalização Geográfica busca minimizar possíveis distorções de análise gerados por polígonos irregulares ao substituí-los por polígonos de formato e tamanho regulares. Isso proporciona uma alternativa elegante, agradável aos olhos e precisa, capaz de evidenciar padrões inicialmente desconhecidos.  

A normalização deixa mais claro e simples a definição de vizinhança entre os polígonos, inclusive, promovendo melhor aderência aos algoritmos de inteligência artificial que buscam padrões e eventos que se autocorrelacionam no espaço. 

Afinal, de acordo com Primeira Lei da Geografia:

“Todas as coisas estão relacionadas com todas as outras, mas coisas próximas estão mais relacionadas do que coisas distantes.” 

Waldo Tobler

A normalização geográfica pode também ser feita de diferentes formas, como por triângulos equiláteros, quadrados ou hexágonos. No entanto, o hexágono proporciona o menor viés, dentre esses, devido ao menor tamanho de suas paredes laterais. 

Com a normalização, torna-se possível a sumarização das estatísticas dos pontos (habitantes, residências, escolas, unidades de saúde, supermercados, indústrias, etc.) contidos dentro desses hexágonos de modo a haver constância na área de análise e, claro, significância estatística dessas sumarizações. Empresas de analytics maduras, com um datalake robusto e bem consolidado, passam a ter a vantagem nesse tipo de abordagem. Confira também nosso artigo sobre Como escolher uma empresa de analytics.

Utilização da geografia normalizada

A geografia normalizada pode também ser utilizada por meio de mapas interativos. Mapas desse tipo possibilitam um nível de aproximação bastante interessante nas análises, como podemos ver na animação abaixo, onde mostramos uma visualização da Plataforma Vortx que apresenta as escolas na cidade de Curitiba. 

Quanto mais escuro o hexágono, maior a quantidade de escolas. Perceba que também podemos ter acesso a outros dados através do pop-up e alterar o tamanho do hexágono a gosto. 

“Quanto maior a quantidade de dados pontuais disponíveis em uma região, menor o tamanho possível dos hexágonos”. 

Limitações da análise normalizada

Como toda a representação da realidade, modelos que utilizam a análise normalizada – apesar de grande valia na tomada de decisão – não substituem por completo a ilustração dos dados espaciais em polígonos irregulares, sobretudo quando: 

  • Há uma divisão política clara a ser considerada;
  • Não há razoável volume de dados;
  • Não há um consenso sobre o tamanho dos polígonos regulares.

Além disso, o processamento computacional para produzir mapas normalizados também deve ser levado em consideração, posto que o processamento dos dados nesse não se resume ao número de observações do fenômeno analisado, mas também ao tratamento da geografia sob análise. Por exemplo, workstations ou notebooks convencionais podem levar horas para processar cálculos geoestatísticos básicos das 5573 cidades do Brasil.

Conclusões e recomendações 

Nesse artigo explicamos sobre normalização geográfica, sua importância, vantagens e cuidados para condução de análises espaciais. Além disso, comparamos duas abordagens importantes para análises de dados espaciais. Vale notar que essas abordagens se mostram complementares para haver um melhor entendimento da distribuição dos dados sobre o espaço. Portanto, recomendamos a visualização das análises em múltiplas facetas.

Percebemos que, ao desenhar o espaço geográfico de forma equânime, torna-se factível uma série de benefícios às análises, tais como: 

  • Alinhar o tamanho das visualizações de acordo com a necessidade do negócio;
  • Adaptar as visualizações conforme a disponibilidade dos dados; 
  • Poder fazer comparativos “justos” entre os indicadores absolutos de cada região;
  • Observar zonas de intensidade com menor viés;  
  • Simplificar a definição de vizinhança entre os polígonos, proporcionando, assim, melhor aderência a algoritmos espaciais; 
  • Encontrar padrões e eventos que se autocorrelacionam no espaço com maior acurácia;
  • Utilizar algoritmos de inteligência artificial (supervisionados e não supervisionados) para assim identificar pontos de interesse que não seriam identificados sem a normalização. Mais informações em: Aplicação de Inteligência Artificial em análises georreferenciadas

Por fim: toda ferramenta tem um propósito, as visualizações georreferenciadas podem levar a decisões ruins ou boas. 

Dessa forma, usar a visualização correta, em conjunto com os algoritmos certos e bem implementados, a partir de um processo de analytics adequado, podem potencializar decisões críticas que levarão a grandes vantagens competitivas tão importantes frente aos desafios econômicos atuais.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

O perfil do Cientista de Dados na visão da Aquarela em 2017

O perfil do Cientista de Dados na visão da Aquarela em 2017

Como prometido, segue aqui nossas impressões sobre o processo de contratação de cientista de dados na Aquarela. Por que estamos fazendo isso? Porque sabemos o quão frustrante é não ter um retorno de nossas informações, ou pelo menos um feedback da submissão. Já vivemos muito disso em editais e na época de bolsas de estudo.

Este artigo é, sobretudo, para aqueles que nos confidenciaram suas informações da vida profissional em nosso processo de seleção 07 – 2017. Ainda, sendo bem transparentes, fomos surpreendidos com a quantidade de currículos enviados e isso nos causou um atraso considerável no processo. Queríamos garantir que todas as informações fossem analisadas e respondidos adequadamente. Nosso trabalho é analisar!

Principais percepções

  • Para vagas mais definidas, como para Back-end e Front-end, houveram candidatos com perfis muito similares, já para analista de dados, foi bem difícil encontrar parecidos pois é de fato algo ainda sem uma formação específica. Isso fez com que a tarefa de análise fosse ainda mais complexa.
  • Muitas vezes, o currículo que chega na nossa mão não expressa detalhadamente a vida profissional, acadêmica ou social do candidato. Assim, os perfis que mais nos chamaram a atenção foram aqueles que apresentaram claramente experiência nas tecnologias citadas e com publicações de estudos de caso reais. Também, alguns transformaram o próprio CV em um dashboard de habilidades (muito interessante).
  • Há uma grande tendência na migração de carreira para Data Science, mais de 85% dos candidatos se mostram dispostos a fazer este processo de troca de áreas técnicas e negócios para esse campo.
  • Nestes últimos anos trabalhando diretamente com Data Science, vemos que os perfis dos analistas advindos do quadrante de negócio apresentam uma curva menor para atingir o planalto de produtividade (plateau de produtividade) nas análise de dados em relação aos perfis do quadrante técnico, possivelmente pela prática de atividades de comunicação, redação de textos e apresentação de resultados e pelo salto na usabilidade das ferramentas de Analytics nos últimos meses.
  • Não foi possível (pelo menos ainda) afirmar algo consistente sobre uma formação (diploma) ideal para análise de dados, tivemos pessoas excelentes da engenharia, física, administração, estatística, etc. O que é mais aparente, usando uma metáfora, é que o os perfis mais desenvolvedores criam a guitarra e os perfis mais de negócio e de Data Science, tocam a guitarra e ainda cantam. Existem músicos que fazem a própria guitarra a própria músicas, mas são raros.
  • O inglês é um dos conhecimentos menos comuns dos candidatos, o mesmo continua sendo um diferencial. Data Science é um dos processos mais intensivos de comunicação na atualidade, sobre tudo na  tangibilidade de conceitos abstratos, o inglês é necessário em todos os aspectos e um ponto chave no processo de autodidatismo.
  • Alguns perfis se adaptam bem à vaga de análise de dados, mas não ao perfil de empresa startup (ver na continuação).

Perfil das Startups

Além dos conhecimentos básicos profissionais já amplamente conhecidos, vale a pena um parecer sobre as diferenças dos ambientes de trabalho corporativos e das startups.

  • Carreiras em startup não se encaixam em modelos acadêmicos e nem corporativos, havendo dificuldade até de atribuir cargos nas mesmas. Pois, as coisas acontecem de forma tão dinâmica que as funções ficam mais amarradas as tarefas definidas para semana do que algo planejado, sequencia em estruturas.
  • Risco da distância geográfica. O alto grau de complexidade do trabalho e dinâmicas com dados ainda exige (pelo menos para nós) muito a interação presencial já que grande parte do conhecimento está sendo desenvolvido internamente.
  • Para uma startup cada novo membro representa muito para o todo do grupo, se de um lado em grandes organizações alguns profissionais se sentem apenas um número, em startups eles se tornam praticamente membros da família. Por isso levamos tão a sério esse processo aqui.
  • Startups são times de vôlei de praia. Se necessário é preciso sacar, bloquear, se jogar na areia, pegar sol e chuva e como os recursos nem sempre são abundantes às vezes podem parecer até futevôlei que é a expressão máxima da habilidade dos jogadores se virando com o que tem. Quem o faz, é por pura paixão. Isso pode causar muitas e severas quebras de expectativas, além da insatisfação laboral. O quanto isso é importante pode ser percebido nesta análise, por meio de Data Analytics, de otimização de gestão de pessoas.
  • Startups, antes da tecnologia, são essencialmente empresas gestoras de conhecimento, só que de forma muito mais dinâmica e fragmentada do que ambientes de grande porte. No caso da Aquarela, estamos trabalhando na fronteira de processos de engenharia e machine learning no país e esse padrão de necessidade de gestão do conhecimento se repete continuamente. Neste artigo aqui escrevemos como funcionam os diferentes níveis de gerenciamento de dados até à sabedoria organizacional e o diferencial competitivo.

Recomendações

Dando um sul para aqueles que querem atuar como analistas de dados, seguem algumas sugestões de atividades:

  • Busque dados (datasets) públicos para gerar análises, preferencialmente com informações do nosso país para aprender e a ensinar.
  • Foque em conceitos mais do que em ferramentas, ferramentas mudam muito rápido, conceitos ficam com vocês.
  • Invista no inglês para que ele se torne seu amigo no longo prazo.
  • Refine sua redação e gramática, tanto em português como em inglês voltado a descrição de gráficos, tendências e possíveis interpretações.
  • Uma forma de facilitar o aprendizado é participando das comunidades de ciência de dados. Por exemplo Data Science Floripa.
  • Aprimore seus conhecimentos em R, Python ou Scala. Aqui um post falando sobre R e Python.
  • Defina uma área dentro de ciência de dados para produzir os cases, aqui no blog já escrevemos com algumas sugestões.
  • Estude seriamente o Linux, por quê? porque ele é muito legal e útil, nós usamos o Ubuntu e CentOS.
  • Procure estar próximo, fisicamente, dos ambientes das empresas de análise, por mais virtual que seja o mundo a conversa olho no olho ainda faz e fara toda a diferença.
  • Busque formas de comprovar seu perfil autodidata, transforme seu CV em um dashboard criativo usando técnicas de visualização.
  • Caso tiver um perfil apenas acadêmico ou apenas empresarial, sugerimos mesclar, só acadêmico ou só empresarial são perfis mais fracos.
  • Utilizar o processo de ensino para fixar conceitos e práticas com as ferramentas, conseguir expressão o conhecimento em linguagem clara e didática é fundamental. Tornar as coisas simples é o trabalho de todos os cientistas.

O nosso muito obrigado

Foi muito difícil fazer uma escolha com tantos candidatos ninjas e dispostos a crescer conosco. Encaramos este processo não somente como um preenchimento de uma vaga, mas um primeiro contato (em muitos casos) com pessoas de diversas partes do Brasil. A vontade era de poder admitir mais umas quinze pessoas pelo menos nesta onda de contratação, contudo, encaminhamos diversos currículos para nossos parceiros e alguns até já estão sendo empregados. Sim, queremos todos trabalhando e gerando riquezas para esse país!

Caso alguém não tenha sido contactado, por gentileza entre em contato conosco (pelo email daniela.zanesco@aquare.la ou redes sociais).

Desejamos manter contato com as pessoas, abertos para direcioná-las para um caminho de desenvolvimento pessoal e profissional, bem como potencializar os indivíduos que entraram para o nosso time.

Saudações do time de Gestão de Talentos da Aquarela!

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autores

Em dia de Greve, 70 cientistas de dados se reúnem na operação “Serenata de Amor”. [Parte 1]

Em dia de Greve, 70 cientistas de dados se reúnem na operação “Serenata de Amor”. [Parte 1]

Amanhã, dia 28 de abril de 2017, ao invés de greve (não necessariamente contra ou a favor dela), 70 cientistas de dados, matemáticos, estatísticos, jornalistas, programadores e outros talentos estarão reunidos de forma voluntária até sábado a noite minerando dados governamentais para a redução imediata de desvios indevidos do dinheiro público federal que poderiam certamente melhorar escolas, hospitais e também garantir a aposentadoria de muita gente vem perdendo esse direito por simples má gestão dos recursos nacionais.

As organizações que estão apoiando e participando ativamente neste evento são Resultados DigitaisAquarela Advanced AnalyticsOperação Serenata de Amor

Ficou curioso? Para mais informações segue o link deste belíssimo projeto – Operação Serenata de Amor – https://serenatadeamor.org/

Aqui estão os resultados de como foi o evento:

Operação Serenata de amor parte 2.

Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

Projeto Serenata de amor no Fantástico

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor