O processo de visualização de dados consiste na representação de dados de forma mais eficiente e que possibilite um melhor entendimento do problema em questão, normalmente através de gráficos, tabelas e dashboards.
Essa prática é de grande importância no ambiente de negócios para auxílio na tomada de decisões e de planejamento estratégico. Entretanto, representar dados complexos de uma forma visual simples e que chame a atenção não é uma tarefa fácil.
Por isso, este texto irá abordar algumas boas práticas para visualização de dados que podem alavancar o processo de comunicação — podendo ser adotado por times de dados, gerência, marketing, comercial, entre outros.
4 boas práticas para visualização de dados
A seguir serão apresentadas algumas boas práticas para o processo de visualização de dados.
1. Entendimento do contexto
O primeiro passo para uma boa visualização de dados é entender o contexto do problema. Antes de sair procurando os melhores gráficos para representar os dados, é preciso entender o público que irá visualizar as informações, de forma a saber quais os pontos esse público considera importante e as melhores formas de chamar a atenção para aquilo que se deseja transmitir.
Além disso, é necessário ter uma visão clara e objetiva do que será o foco da visualização. Boas reflexões para serem feitas para entender o contexto são: o que a pessoa deseja? Quais dúvidas ela pode ter? A minha visualização cobre essas questões?
2. Escolha da visualização adequada
Existem diversas formas de visualização de dados e cada uma é desenvolvida para atender a um determinado propósito. Por exemplo, se eu estou analisando duas variáveis e gostaria de mostrar de forma visual a correlação entre elas, um gráfico de dispersão (scatter plot) atende muito bem esse propósito.
Exemplo de Gráfico de Dispersão
Para acompanhar séries temporais, um gráfico de linha é uma boa opção ou então podemos comparar e acompanhar duas variáveis utilizando um gráfico de barras. Nesse sentido, é necessário garantir que a visualização escolhida atende ao propósito do que se deseja comunicar.
Exemplo de gráfico de linhaExemplo de gráfico de barras
3. Simplicidade
É normal que queiramos visualizar uma grande quantidade de informações, entretanto, é preciso entender o que de fato é essencial para o contexto. Uma visualização com diversos gráficos e tabelas gera muita poluição visual e acaba desfocando a atenção e, no fim, nenhuma informação é transmitida direito.
Portanto, a ideia é: seja simples. Comunique o que precisa ser comunicado da maneira mais simples e direta possível, de forma a atender o contexto e comunicar através da visualização dos dados a ideia que se deseja transmitir.
4. Contar uma história
Uma prática muito boa e didática que auxilia muito na visualização dos dados e efetividade da comunicação é o storytelling. Essa atividade consiste na comunicação através de uma história com o auxílio da visualização dos dados.
Dessa forma, é possível montar uma visualização que tenha uma lógica e apresente as informações em uma sequência que faça com que o público alvo absorva as informações da melhor maneira possível.
Conclusão – Boas práticas para visualização de dados
A visualização de dados é uma ferramenta muito poderosa para tirar insights e compreender melhor os dados. Além disso, também atua como um instrumento de comunicação e planejamento. Neste texto, pudemos ver algumas boas práticas que ajudam a desenvolver uma boa visualização de dados. De forma complementar, fica a sugestão de um excelente livro sobre este assunto, chamado de Storytelling with data, da autora Cole Nussbaumer Knaflic.
Cientista de dados na Aquarela. Graduado em engenharia elétrica pela UFSC. Entusiasta nas áreas de ciência de dados, aprendizado de máquina e processamento de sinais.
Há grande valor em representar a realidade por meio de visualizações, sobretudo as informações espaciais. Se você já viu um mapa, sabe que os polígonos que constituem os limites políticos de cidades e Estados são geralmente irregulares (ver Figura 1a). Essa irregularidade dificulta a condução de análises e, por isso, não pode ser tratada por ferramentas de Business Intelligence tradicionais.
Repare o ponto verde na Figura 1b, ele está sobre o polígono (‘bairro’) n.14, situado entre n.16 e n.18. Então responda agora: qual região está exercendo maior influência no ponto verde? É o bairro n.16 ou o n.18? O ponto verde é representativo pela região n.14, região n.16 ou n.18?
Para responder questões como essas e para minimizar o viés gerado por visualizações com polígonos irregulares, a Plataforma Vortx faz o que se conhece por Normalização da Geografia, transformando os polígonos irregulares em polígonos de tamanho único e formato regular (ver Figura 1c).
Após a “normalização geográfica”, é possível analisar os dados de determinado espaço por meio de estatísticas absolutas, não somente relativas, e sem distorções provocadas por polígonos de tamanhos e formatos distintos.
Diariamente, pessoas, empresas e governos realizam inúmeras decisões considerando o espaço geográfico. Qual academia é mais perto de casa para eu me matricular? Em qual local devemos instalar o novo Centro de Distribuição da empresa? Ou, onde o Município deve posicionar as centrais do SAMU?
Assim, no artigo de hoje, propomos duas perguntas:
O que acontece quando as informações georreferenciadas estão distorcidas?
Quão próximo podem chegar nossas generalizações sobre o espaço?
Normalização geográfica
Trabalhando com polígonos e regiões
Lembrando que o conceito de polígono é derivado da geometria, sendo definido como: “uma figura plana, fechada e formada por segmentos de reta“. Quando o polígono possui todos os lados iguais e, consequentemente, todos os ângulos iguais, podemos chamá-lo de polígono regular. Quando isso não acontece, este é definido como um polígono irregular.
Fazemos o uso da divisão política da organização do território para entender seus contrastes, delimitando entre Nações, Estados e Municípios, por exemplo, mas também podemos delimitar regiões segundo diversas características, como a região da Caatinga, a região da Bacia Amazônica e até mesmo a zona do Euro ou zonas de eleitores do Trump e Biden. Enfim, basta cercar determinado local do espaço por alguma característica em comum. Os polígonos regionais, portanto, são extensamente utilizados para representar determinadas regiões ou a organização do território dessas regiões.
Diversas ferramentas de mercado preenchem polígonos com tonalidades distintas de cores, de acordo com os dados da região, buscando por contrastes entre estes. Mas, cuidado! No caso dos tamanhos e formatos dos polígonos não serem constantes, pode haver vieses geográficos, tornando a visualização passível a interpretações errôneas.
Dessa forma, a abordagem de polígonos se torna limitada nos seguintes aspectos:
Comparações entre regiões de forma desigual;
Necessidade de relativização de indicadores por número da população, área ou outros fatores;
Não permite análises mais granulares;
Demanda mais atenção dos analistas ao criarem afirmações sobre determinadas regiões.
Finalidade da normalização geográfica
Portanto, a razão de existir da normalização geográfica é a superação dos problemas típicos associados a análises de dados relacionadas aos polígonos irregulares, transformando a organização do território em um conjunto de polígonos (no caso, hexágonos) de tamanho e formato regulares.
No exemplo abaixo, comparamos as duas abordagens;
1) Análise com polígonos de mesorregiões e; 2) Hexágonos sobre a região sudeste do Brasil.
Figura 2 – Fonte: Aquarela Advanced Analytics (2020)
A Normalização Geográfica busca minimizar possíveis distorções de análise gerados por polígonos irregulares ao substituí-los por polígonos de formato e tamanho regulares. Isso proporciona uma alternativa elegante, agradável aos olhos e precisa, capaz de evidenciar padrões inicialmente desconhecidos.
A normalização deixa mais claro e simples a definição de vizinhança entre os polígonos, inclusive, promovendo melhor aderência aos algoritmos de inteligência artificial que buscam padrões e eventos que se autocorrelacionam no espaço.
Afinal, de acordo com Primeira Lei da Geografia:
“Todas as coisas estão relacionadas com todas as outras, mas coisas próximas estão mais relacionadas do que coisas distantes.”
Waldo Tobler
A normalização geográfica pode também ser feita de diferentes formas, como por triângulos equiláteros, quadrados ou hexágonos. No entanto, o hexágono proporciona o menor viés, dentre esses, devido ao menor tamanho de suas paredes laterais.
Com a normalização, torna-se possível a sumarização das estatísticas dos pontos (habitantes, residências, escolas, unidades de saúde, supermercados, indústrias, etc.) contidos dentro desses hexágonos de modo a haver constância na área de análise e, claro, significância estatística dessas sumarizações. Empresas de analytics maduras, com um datalake robusto e bem consolidado, passam a ter a vantagem nesse tipo de abordagem. Confira também nosso artigo sobre Como escolher uma empresa de analytics.
Utilização da geografia normalizada
A geografia normalizada pode também ser utilizada por meio de mapas interativos. Mapas desse tipo possibilitam um nível de aproximação bastante interessante nas análises, como podemos ver na animação abaixo, onde mostramos uma visualização da Plataforma Vortx que apresenta as escolas na cidade de Curitiba.
Quanto mais escuro o hexágono, maior a quantidade de escolas. Perceba que também podemos ter acesso a outros dados através do pop-up e alterar o tamanho do hexágono a gosto.
Figura 3 – Fonte: Aquarela Advanced Analytics (2020)
“Quanto maior a quantidade de dados pontuais disponíveis em uma região, menor o tamanho possível dos hexágonos”.
Limitações da análise normalizada
Como toda a representação da realidade, modelos que utilizam a análise normalizada – apesar de grande valia na tomada de decisão – não substituem por completo a ilustração dos dados espaciais em polígonos irregulares, sobretudo quando:
Há uma divisão política clara a ser considerada;
Não há razoável volume de dados;
Não há um consenso sobre o tamanho dos polígonos regulares.
Além disso, o processamento computacional para produzir mapas normalizados também deve ser levado em consideração, posto que o processamento dos dados nesse não se resume ao número de observações do fenômeno analisado, mas também ao tratamento da geografia sob análise. Por exemplo, workstations ou notebooks convencionais podem levar horas para processar cálculos geoestatísticos básicos das 5573 cidades do Brasil.
Conclusões e recomendações
Nesse artigo explicamos sobre normalização geográfica, sua importância, vantagens e cuidados para condução de análises espaciais. Além disso, comparamos duas abordagens importantes para análises de dados espaciais. Vale notar que essas abordagens se mostram complementares para haver um melhor entendimento da distribuição dos dados sobre o espaço. Portanto, recomendamos a visualização das análises em múltiplas facetas.
Percebemos que, ao desenhar o espaço geográfico de forma equânime, torna-se factível uma série de benefícios às análises, tais como:
Alinhar o tamanho das visualizações de acordo com a necessidade do negócio;
Adaptar as visualizações conforme a disponibilidade dos dados;
Poder fazer comparativos “justos” entre os indicadores absolutos de cada região;
Observar zonas de intensidade com menor viés;
Simplificar a definição de vizinhança entre os polígonos, proporcionando, assim, melhor aderência a algoritmos espaciais;
Encontrar padrões e eventos que se autocorrelacionam no espaço com maior acurácia;
Utilizar algoritmos de inteligência artificial (supervisionados e não supervisionados) para assim identificar pontos de interesse que não seriam identificados sem a normalização. Mais informações em: Aplicação de Inteligência Artificial em análises georreferenciadas.
Por fim: toda ferramenta tem um propósito, as visualizações georreferenciadas podem levar a decisões ruins ou boas.
Dessa forma, usar a visualização correta, em conjunto com os algoritmos certos e bem implementados, a partir de um processo de analytics adequado, podem potencializar decisões críticas que levarão a grandes vantagens competitivas tão importantes frente aos desafios econômicos atuais.
Graduando em Ciências Econômicas (UFSC), atua como cientista de dados na Aquarela. Competência em programação e análise de dados em R e especialidade em frameworks de visualizações dinâmicas e dashboards de analytics.
Mestre em Engenharia de Produção com graduação em Engenharia de Transportes e Logística. Durante o mestrado, se aprofundou nas áreas de macrologística e economia regional, e desenvolveu pesquisas nas áreas de logística reversa, relocalização de cadeias produtivas, terceirização logística e pesquisa operacional.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
Como prometido, segue aqui nossas impressões sobre o processo de contratação de cientista de dados na Aquarela. Por que estamos fazendo isso? Porque sabemos o quão frustrante é não ter um retorno de nossas informações, ou pelo menos um feedback da submissão. Já vivemos muito disso em editais e na época de bolsas de estudo.
Este artigo é, sobretudo, para aqueles que nos confidenciaram suas informações da vida profissional em nosso processo de seleção 07 – 2017. Ainda, sendo bem transparentes, fomos surpreendidos com a quantidade de currículos enviados e isso nos causou um atraso considerável no processo. Queríamos garantir que todas as informações fossem analisadas e respondidos adequadamente. Nosso trabalho é analisar!
Principais percepções
Para vagas mais definidas, como para Back-end e Front-end, houveram candidatos com perfis muito similares, já para analista de dados, foi bem difícil encontrar parecidos pois é de fato algo ainda sem uma formação específica. Isso fez com que a tarefa de análise fosse ainda mais complexa.
Muitas vezes, o currículo que chega na nossa mão não expressa detalhadamente a vida profissional, acadêmica ou social do candidato. Assim, os perfis que mais nos chamaram a atenção foram aqueles que apresentaram claramente experiência nas tecnologias citadas e com publicações de estudos de caso reais. Também, alguns transformaram o próprio CV em um dashboard de habilidades (muito interessante).
Há uma grande tendência na migração de carreira para Data Science, mais de 85% dos candidatos se mostram dispostos a fazer este processo de troca de áreas técnicas e negócios para esse campo.
Nestes últimos anos trabalhando diretamente com Data Science, vemos que os perfis dos analistas advindos do quadrante de negócio apresentam uma curva menor para atingir o planalto de produtividade (plateau de produtividade) nas análise de dados em relação aos perfis do quadrante técnico, possivelmente pela prática de atividades de comunicação, redação de textos e apresentação de resultados e pelo salto na usabilidade das ferramentas de Analytics nos últimos meses.
Não foi possível (pelo menos ainda) afirmar algo consistente sobre uma formação (diploma) ideal para análise de dados, tivemos pessoas excelentes da engenharia, física, administração, estatística, etc. O que é mais aparente, usando uma metáfora, é que o os perfis mais desenvolvedores criam a guitarra e os perfis mais de negócio e de Data Science, tocam a guitarra e ainda cantam. Existem músicos que fazem a própria guitarra a própria músicas, mas são raros.
O inglês é um dos conhecimentos menos comuns dos candidatos, o mesmo continua sendo um diferencial. Data Science é um dos processos mais intensivos de comunicação na atualidade, sobre tudo na tangibilidade de conceitos abstratos, o inglês é necessário em todos os aspectos e um ponto chave no processo de autodidatismo.
Alguns perfis se adaptam bem à vaga de análise de dados, mas não ao perfil de empresa startup (ver na continuação).
Perfil das Startups
Além dos conhecimentos básicos profissionais já amplamente conhecidos, vale a pena um parecer sobre as diferenças dos ambientes de trabalho corporativos e das startups.
Carreiras em startup não se encaixam em modelos acadêmicos e nem corporativos, havendo dificuldade até de atribuir cargos nas mesmas. Pois, as coisas acontecem de forma tão dinâmica que as funções ficam mais amarradas as tarefas definidas para semana do que algo planejado, sequencia em estruturas.
Risco da distância geográfica. O alto grau de complexidade do trabalho e dinâmicas com dados ainda exige (pelo menos para nós) muito a interação presencial já que grande parte do conhecimento está sendo desenvolvido internamente.
Para uma startup cada novo membro representa muito para o todo do grupo, se de um lado em grandes organizações alguns profissionais se sentem apenas um número, em startups eles se tornam praticamente membros da família. Por isso levamos tão a sério esse processo aqui.
Startups são times de vôlei de praia. Se necessário é preciso sacar, bloquear, se jogar na areia, pegar sol e chuva e como os recursos nem sempre são abundantes às vezes podem parecer até futevôlei que é a expressão máxima da habilidade dos jogadores se virando com o que tem. Quem o faz, é por pura paixão. Isso pode causar muitas e severas quebras de expectativas, além da insatisfação laboral. O quanto isso é importante pode ser percebido nesta análise, por meio de Data Analytics, de otimização de gestão de pessoas.
Startups, antes da tecnologia, são essencialmente empresas gestoras de conhecimento, só que de forma muito mais dinâmica e fragmentada do que ambientes de grande porte. No caso da Aquarela, estamos trabalhando na fronteira de processos de engenharia e machine learning no país e esse padrão de necessidade de gestão do conhecimento se repete continuamente. Neste artigo aqui escrevemos como funcionam os diferentes níveis de gerenciamento de dados até à sabedoria organizacional e o diferencial competitivo.
Recomendações
Dando um sul para aqueles que querem atuar como analistas de dados, seguem algumas sugestões de atividades:
Busque dados (datasets) públicos para gerar análises, preferencialmente com informações do nosso país para aprender e a ensinar.
Foque em conceitos mais do que em ferramentas, ferramentas mudam muito rápido, conceitos ficam com vocês.
Invista no inglês para que ele se torne seu amigo no longo prazo.
Refine sua redação e gramática, tanto em português como em inglês voltado a descrição de gráficos, tendências e possíveis interpretações.
Uma forma de facilitar o aprendizado é participando das comunidades de ciência de dados. Por exemplo Data Science Floripa.
Aprimore seus conhecimentos em R, Python ou Scala. Aqui um post falando sobre R e Python.
Defina uma área dentro de ciência de dados para produzir os cases, aqui no blog já escrevemos com algumas sugestões.
Estude seriamente o Linux, por quê? porque ele é muito legal e útil, nós usamos o Ubuntu e CentOS.
Procure estar próximo, fisicamente, dos ambientes das empresas de análise, por mais virtual que seja o mundo a conversa olho no olho ainda faz e fara toda a diferença.
Busque formas de comprovar seu perfil autodidata, transforme seu CV em um dashboard criativo usando técnicas de visualização.
Caso tiver um perfil apenas acadêmico ou apenas empresarial, sugerimos mesclar, só acadêmico ou só empresarial são perfis mais fracos.
Utilizar o processo de ensino para fixar conceitos e práticas com as ferramentas, conseguir expressão o conhecimento em linguagem clara e didática é fundamental. Tornar as coisas simples é o trabalho de todos os cientistas.
O nosso muito obrigado
Foi muito difícil fazer uma escolha com tantos candidatos ninjas e dispostos a crescer conosco. Encaramos este processo não somente como um preenchimento de uma vaga, mas um primeiro contato (em muitos casos) com pessoas de diversas partes do Brasil. A vontade era de poder admitir mais umas quinze pessoas pelo menos nesta onda de contratação, contudo, encaminhamos diversos currículos para nossos parceiros e alguns até já estão sendo empregados. Sim, queremos todos trabalhando e gerando riquezas para esse país!
Caso alguém não tenha sido contactado, por gentileza entre em contato conosco (pelo email daniela.zanesco@aquare.la ou redes sociais).
Desejamos manter contato com as pessoas, abertos para direcioná-las para um caminho de desenvolvimento pessoal e profissional, bem como potencializar os indivíduos que entraram para o nosso time.
Saudações do time de Gestão de Talentos da Aquarela!
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
People Manager na Aquarela Advanced Analytics. Graduada em Psicologia e entusiasta em novas tecnologias e como elas podem oferecer qualidade de vida para as pessoas.
Amanhã, dia 28 de abril de 2017, ao invés de greve (não necessariamente contra ou a favor dela), 70 cientistas de dados, matemáticos, estatísticos, jornalistas, programadores e outros talentos estarão reunidos de forma voluntária até sábado a noite minerando dados governamentais para a redução imediata de desvios indevidos do dinheiro público federal que poderiam certamente melhorar escolas, hospitais e também garantir a aposentadoria de muita gente vem perdendo esse direito por simples má gestão dos recursos nacionais.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.