Boas práticas para visualização de dados

Boas práticas para visualização de dados

O processo de visualização de dados consiste na representação de dados de forma mais eficiente e que possibilite um melhor entendimento do problema em questão, normalmente através de gráficos, tabelas e dashboards. 

Essa prática é de grande importância no ambiente de negócios para auxílio na tomada de decisões e de planejamento estratégico. Entretanto, representar dados complexos de uma forma visual simples e que chame a atenção não é uma tarefa fácil. 

Por isso, este texto irá abordar algumas boas práticas para visualização de dados que podem alavancar o processo de comunicação — podendo ser adotado por times de dados, gerência, marketing, comercial, entre outros.

4 boas práticas para visualização de dados

A seguir serão apresentadas algumas boas práticas para o processo de visualização de dados.

1. Entendimento do contexto

O primeiro passo para uma boa visualização de dados é entender o contexto do problema. Antes de sair procurando os melhores gráficos para representar os dados, é preciso entender o público que irá visualizar as informações, de forma a saber quais os pontos esse público considera importante e as melhores formas de chamar a atenção para aquilo que se deseja transmitir. 

Além disso, é necessário ter uma visão clara e objetiva do que será o foco da visualização. Boas reflexões para serem feitas para entender o contexto são: o que a pessoa deseja? Quais dúvidas ela pode ter? A minha visualização cobre essas questões?

2. Escolha da visualização adequada

Existem diversas formas de visualização de dados e cada uma é desenvolvida para atender a um determinado propósito. Por exemplo, se eu estou analisando duas variáveis e gostaria de mostrar de forma visual a correlação entre elas, um gráfico de dispersão (scatter plot) atende muito bem esse propósito.

Exemplo de Gráfico de Dispersão

Para acompanhar séries temporais, um gráfico de linha é uma boa opção ou então podemos comparar e acompanhar duas variáveis utilizando um gráfico de barras. Nesse sentido, é necessário garantir que a visualização escolhida atende ao propósito do que se deseja comunicar.

Exemplo de gráfico de linha
Exemplo de gráfico de barras

3. Simplicidade

É normal que queiramos visualizar uma grande quantidade de informações, entretanto, é preciso entender o que de fato é essencial para o contexto. Uma visualização com diversos gráficos e tabelas gera muita poluição visual e acaba desfocando a atenção e, no fim, nenhuma informação é transmitida direito. 

Portanto, a ideia é: seja simples. Comunique o que precisa ser comunicado da maneira mais simples e direta possível, de forma a atender o contexto e comunicar através da visualização dos dados a ideia que se deseja transmitir.

4. Contar uma história

Uma prática muito boa e didática que auxilia muito na visualização dos dados e efetividade da comunicação é o storytelling. Essa atividade consiste na comunicação através de uma história com o auxílio da visualização dos dados. 

Dessa forma, é possível montar uma visualização que tenha uma lógica e apresente as informações em uma sequência que faça com que o público alvo absorva as informações da melhor maneira possível.

Conclusão – Boas práticas para visualização de dados

A visualização de dados é uma ferramenta muito poderosa para tirar insights e compreender melhor os dados. Além disso, também atua como um instrumento de comunicação e planejamento
Neste texto, pudemos ver algumas boas práticas que ajudam a desenvolver uma boa visualização de dados. De forma complementar, fica a sugestão de um excelente livro sobre este assunto, chamado de Storytelling with data, da autora Cole Nussbaumer Knaflic.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

Web scraping: coleta de dados automatizada

Web scraping: coleta de dados automatizada

Web scraping é uma ferramenta que permite a coleta de dados automatizada de websites. Essa técnica possibilita a aquisição de grandes quantidades de dados em tempo reduzido, permitindo assim análises e estudos para desenvolvimento de modelos de inteligência artificial. Diversos setores fazem uso e se beneficiam dessa ferramenta, portanto vale a pena conferir melhor o que é, como funciona e qual é a sua utilidade.

Digamos que você queira obter informações de um site. Basta entrar nesse site, procurar a informação desejada e então copiá-la para um arquivo. Imagine agora que você precisa obter informações de dezenas de sites. O processo se torna muito mais demorado e cansativo de ser realizado manualmente. E se pudéssemos automatizar esse processo de busca, adquirindo e armazenando diversas informações de diversos sites distintos? É nesse cenário que entra o conceito de web scraping.

O que é web scraping?

Web scraping pode ser entendido como uma coleta de dados automatizada de websites. Dessa forma, é possível adquirir e armazenar grandes quantidades de dados disponíveis publicamente em diversos sites. Posteriormente, podemos utilizar esses dados para análise e obtenção de insights, comparação de dados, criação de modelos de inteligência artificial e outras aplicações. Alguns exemplos de dados coletados por web scraping podem ser preços de mercadorias, dados de monitoramento climático e ações.

Como funciona?

É muito comum que os dados de diversos sites sejam não estruturados, misturando informações de textos, imagens e links. Dessa forma, a utilização de web scraping converte esses dados para um formato estruturado, agrupando informações semelhantes em uma planilha, por exemplo, para melhor visualização e acesso.

O conceito básico envolvido no web scraping é: 

  1. Especificar o site do qual se deseja obter informações;
  2. Solicitar o código HTML da página do site;
  3. Identificar no código a marcação das informações a serem coletadas;
  4. Salvar os dados no formato desejado.

Pode-se aplicar essa metodologia utilizando a linguagem de programação Python em conjunto com algumas bibliotecas voltadas para web scraping.

Qual a utilidade do web scraping?

Podemos utilizar o Web scraping em diversas áreas para a mesma finalidade: coleta de dados.

Pesquisa de mercado: é muito comum a utilização da coleta de dados automatizada para obtenção de informações de concorrentes, por exemplo: preço, vendas e demanda. Essas informações são de grande interesse para auxiliar na decisão de estratégias de precificação e promoções.

Monitoramento de notícias: outra aplicação é para obtenção e estruturação de notícias. Muitas empresas utilizam notícias para tomada de decisão, por isso é tão importante o monitoramento automatizado dessas informações.

Monitoramento do tempo: dados climáticos são de extrema importância para os setores agropecuário e de energia, tendo assim grande impacto em sua produção e geração. Diversas empresas utilizam a coleta de dados do tempo para a construção de modelos de inteligência artificial e tomada de decisão.

Sistemas de recomendação: grandes empresas de redes sociais coletam grandes quantidades de dados para o desenvolvimento de sistemas de recomendação de seus produtos para os usuários, considerando o seu histórico de buscas e interesses.

Conforme mencionado, o web scraping automatiza a coleta de dados e, posteriormente, utilizam-se esses dados para alguma finalidade dentre tantas áreas.

Web scraping – Considerações finais 

Para uma grande geração de dados, é necessário ferramentas para lidar com coletas e armazenamento. A técnica de web scraping é amplamente utilizada por empresas para coletar e armazenar automaticamente grandes quantidades de dados de diversas fontes que são posteriormente utilizadas para o benefício da empresa.Vale ressaltar que o web scraping é uma ferramenta única para cada site, sendo que sua construção varia de acordo com o site a ser examinado. Além disso, se o site sofrer alguma atualização ou alteração, é muito possível que o scraper (código que implementa o web scraping) desse site também precise ser alterado. Portanto, apesar da facilidade trazida pelo scraper, é necessário um constante monitoramento para garantir seu bom funcionamento.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

6 recomendações de gestão para projetos de Data Lake

6 recomendações de gestão para projetos de Data Lake

Há diversas razões para a criação de projetos de Data Lake, Big Data e Data Analytics na indústria. Pois, a partir desses projetos, torna-se possível concretizar a ideia de tomadas de decisão baseadas em dados (Data-driven) e a automação de decisões inteligentes por algoritmos de Inteligência Artificial

Nesse caminho, vale lembrar que a construção de grandes bancos de dados já é, por si, um grande desafio técnico. Além disso, há a necessidade do alinhamento entre pessoas, processos e o negócio para que o tão esperado Data Lake não se torne um Data Swamp (pântano de dados). 

Neste artigo, apresentamos alguns pontos de atenção aos gerentes, diretores de tecnologia da informação e CIOs neste processo de alto risco e que geralmente está atrelado a altas cifras.

O que é um Data Lake? 

Antes de mais nada, existem diversas definições de Data. Para embasar nossa discussão, escolhemos a definição da Amazon que diz (tradução livre):

“Data Lake (Lago de dados) é um repositório centralizado que permite armazenar dados estruturados e não estruturados em qualquer escala. Em um data lake é possível armazenar dados como eles são/estão, sem ter que primeiro estruturá-los, sendo também possível executar diferentes tipos de análise sobre os dados”.  

Pontos de Atenção em Projetos de Data Lake

A ideia de um data lake é de fato muito interessante e acaba evidenciando sua importância estratégica no médio e longo prazo. No entanto, aqui vão algumas dicas gerenciais (não tecnológicas) relacionadas aos processos de construção e estruturação de Data Lake.  

01 – Estruturar os dados: significado e metadados

Após a realização de diversos tipos de projetos relacionados a Data Lakes, chegamos a algumas conclusões interessantes que detalhamos abaixo:

  • O principal fator relacionado ao sucesso ou fracasso das iniciativas de lago de dados era a concepção incompleta e até ambígua das análises. Isso nos levou à criação, registro e publicação do Analytics Business Canvas, que tem o objetivo de extrair o real significado de cada esforço analítico.
  • Embora o conceito “Lago de Dados” informe que os dados podem ser guardados como são/estão, começar projetos guardando os dados sem uma estratégia clara de negócios não é uma boa intuição. Além disso, ter membros sêniores na equipe ajuda a mitigar muito esse tipo de risco. 
  • O grande sucesso dos projetos de analytics geralmente está na estratégia do uso dos dados frente às oportunidades de negócio e não necessariamente na tecnologia envolvida. O foco deve ser nas motivações e “PORQUÊS” e depois nos “COMOS”. Inclusive, com boas motivações até “COMOS” se tornam mais fáceis de responder.
  • Além das questões dos significados dos processos de negócio, é importante (muito importante) o uso sistemático de metadados (informações sobre os dados). 

Uma dica importante para quem está começando a organizar a área de análise e data lakes é começar estruturando os dicionários dados (um modelo básico pode ser baixado aqui). 

  • É fundamental entender a diferença entre a natureza dos dados transacionais e dados analíticos e os seus papéis/expectativas no projeto. Neste artigo – Como estruturar projetos de analytics de alto nível –  apresentamos essa diferença e o porquê isso é fundamental para o processo. 

02 – Escolher o stack tecnológico adequado

Embora a tecnologia seja o segundo passo para a estruturação dos lagos de dados, ela é uma das decisões mais importantes a serem tomadas no projeto. A palavra-chave desse processo é a “Arquitetura de sistemas”. 

A escolha do stack tecnológico para a criação do data lake (O que é um stack tecnológico de analytics?) deve estar alinhado tanto ao problema de negócio quanto ao conhecimento técnico do time de operação.

Neste ponto, para desenhar a arquitetura da(s) solução(ões) recomendamos profissionais com experiência em engenharia de software, bancos de dados, administração e criação de processos de ETL, escalabilidade de infraestruturas de armazenamento. 

Para que o stack tecnológico analítico não entre em desuso é altamente recomendado garantir um alto nível de interoperabilidade entre os sistemas. 

03 e 04 – Cuidar com a sub/super estimação do volume de dados

Assim como no planejamento e construção de uma casa, nos projetos, os lagos de dados necessitam de informações mínimas à correta estruturação. Entretanto, muitas vezes, essas informações mínimas não são claras nem para o time de negócios, nem para os arquitetos de sistemas. 

Super-estimação

Já vimos casos em que se imaginava um conjunto imenso de dados (muito acima da realidade) para se investigar padrões dos comportamentos de uma indústria em específico. 

Com o tempo foi verificado que pequenos ajustes na estratégia dos indicadores de desempenho (dicas sobre estruturação de KPIs) com o uso de técnicas de amostragem (O que é amostragem?) já solucionaram com elegância e precisão mais de 80% dos problemas analíticos. 

A dica é questionar diferentes atores envolvidos no projeto, buscando entender a natureza do problema, das perguntas e então olhar para os dados internos e externos. 

Sub-estimação de dados

Do mesmo modo que é possível superestimar a necessidade de dados, é também possível subestimá-los. 

Existem inovações vindas de outras áreas, com especial ênfase aos projetos de IOT (Internet das Coisas) que, na sua natureza, baseia-se a obter o máximo de dados possível dos sensores. Isso implica de fato em estratégias de armazenamento, compactação, tipos de análise, segurança e ainda velocidade de transmissão. 

Neste mesmo assunto, comentamos anteriormente sobre as diferenças conceituais entre amostragem e recorte de dados.

Outra forma de subestimação de dados é a exploração combinatória dos registros que em alguns casos se tornam computacionalmente inviáveis ao processamento e/ou armazenamento. Assim, são imperativas técnicas apropriadas para cada caso. 

05 – Analisar a necessidade do uso de índices

A criação de índices nos bancos de dados deve estar bem estruturados e não criados descontroladamente. 

“Uso inapropriado e/ou excessivo de índices”

O uso de índices em bancos de dados é uma boa prática que visa aumentar a eficiência de consultas muito frequentes. Isso possibilita ao sistema gerenciador de bancos de dados (SGBD) fazer busca de menor complexidade, evitando as custosas buscas sequenciais. No entanto, índices ocupam espaço, podendo um índice muito facilmente chegar a corresponder a 25% do tamanho de uma tabela.

Em data lakes, o acesso não é repetitivo, não são necessárias consultas de alto desempenho. Portanto, utilizar índices além de chaves primárias para estabelecer as relações entre entidades pode vir a criar volumes desnecessários para atingir uma eficiência não-desejada.

“Lembre-se que nos livros os índices são menores do que o próprio conteúdo”.

06 – Manter a segurança da informação

É evidente que onde há informação valiosa há também riscos de segurança. 

A segurança requer um nível de maturidade das estruturas de permissões que, por um lado permitam, acesso rápido e fácil aos analistas e máquinas de analytics sem comprometer regras de acesso que rompam com o sigilo de determinadas informações. 

As soluções mais avançadas de governança de dados que conhecemos usam com maestria a teoria da identidade em seus sistemas, não permitindo assim que haja usuários utilizando acessos de terceiros. 

Toda a engenharia de software do projeto deve estar em constante comunicação com os times da gestão e do negócio para garantir o nível correto de permissão de cada usuário a cada dataset (O que são datasets?)

Atualmente, com a entrada em vigor da Lei Geral de Proteção Dados (LGPD), o fator segurança se torna ainda mais crítico, caso em que os dados armazenados são dados pessoais.  

Data Lake – Conclusões e recomendações

Projetos relacionados à estruturação de data lake, big data, analytics de grande escala são complexos por natureza e com grandes riscos de se tornarem pântanos de dados (Data Swamps) inacessíveis e com alta complexidade. 

Os pontos apresentados aqui não são exaustivos, mas pontos de vista que minimamente devem ser levados em consideração para mitigação do risco do projeto de montagem de lagos de dados.

Não existem soluções mágicas ou prontas devido ao alto grau de customização dos dados para cada negócio, setor e estratégia empresarial.

A contratação (terceirização) de empresas especializadas no processo é um caminho que pode ser mais seguro e eficiente. Contudo, a terceirização de analytics merece alguns cuidados. Pensando nisso, separamos estes dois artigos:  

Como escolher o melhor fornecedor de Data Analytics?

Quanto investir em Analytics e Inteligência Artificial? 

Finalizando, a transformação digital está se tornando real em várias empresas e indústrias. Os data lakes serão, cada dia mais, um ponto central na estratégia empresarial digital. O tema é relevante e deve ser abordado de forma irrestrita entre os vários departamentos. 

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

O que Sun Tzu ensina sobre Data Analytics Parte II

O que Sun Tzu ensina sobre Data Analytics Parte II

No post I, ver aqui, falamos sobre o quanto é importante o planejamento e se preparar para a nossa guerra contemporânea, que tem como objetivo a informação certa no menor prazo possível.

Nosso soldado data scientist  já tem consciência de ferramentas e possíveis estratégias para a batalha da análise de dados. Porém, o fato de ter apenas os métodos comprados e instalados na empresa nem sempre geram resultados, e por que isso acontece?

Disposição de Ferramentas

“7. Prever uma vitória que o homem comum pode prever não corresponde ao auge da habilidade.”

Sun Tzu falava da Disposição das Tropas, nós falamos da Disposição de Ferramentas. Descobrir o óbvio não agrega valor à empresa e é o principal ponto de atenção das equipes de analytics. A exceção a essa regra está nos casos onde análise tem o objetivo de testar um algoritmo ou abordagem e então saber se as ferramentas (metodologia + inteligência artificial) foram capazes de encontrar o que já se sabe e ir além.

Verificamos que a experiência dos analistas é um fator determinante no sucesso dos estudos de analytics. Isso se deve, principalmente, por prever erros estruturais nos fluxos de análise e a criatividade para desenvolver testes contra os algoritmos. Ainda, compará-los em diversas dimensões e eventualmente encontrar explicações esperadas de validação e no auge da habilidade, informações não previstas que geram oportunidades reais de melhoria.

Forças normais e extraordinárias

“5. Na batalha, valha-se da força normal para o combate e utilize a extraordinária para vencer.”

Existem forças normais que podemos usar para complementar as extraordinárias, é o exemplo das ferramentas livres e open source ou mesmo estratégias coerentes de indicadores (KPIs – Key Performance Indicators) já fazem uma diferença bastante grande no desempenho com impacto direto nos níveis de maturidade de analytics.

Agora dependendo do nível da competição, do timing e tamanho do mercado, utilizar ferramentas fechadas podem fazer a diferença do extraordinário, por isso, fique atendo a soluções fechadas disponibilizadas por APIs.

O preço da dúvida

“9. Na guerra, o perito age de maneira sutil e insubstancial, não deixa pistas; divinamente misterioso, é inaudível; torna-se, ele próprio, senhor do destino de seu inimigo.”

No mundo analytics, cases detalhados são raramente divulgados. Do que dá certo ou errado, cada um guarda para si, mais ou menos como no investimento em ações. Aparentemente, uma das formas mais plausíveis de se obter conhecimento real das tentativas e erros é pela incorporação e disseminação de processos de gestão do conhecimento e contratações estratégicas.   

Conclusão: Estratégias

“4. Na guerra, tanto a vantagem quanto o perigo são inerentes às manobras.”

Há uma expectativa bastante grande com relação a qualquer iniciativa de Data Analytics dentro das organizações e isto acontece independentemente do nível de maturidade de dados em que elas se encontram. O fato é que, para chegar a modelos preditivos realmente assertivos, o caminho é tortuoso e multidisciplinar. Por tanto, projetos com poucos recursos (horas de analistas, computadores parrudos, ferramentas de análise e capacitação) tendem a ter resultados coerentes com o investimento.  

Então é isso pessoal, espero que a analogia ajudou no entendimento e que gere valor no seu negócio. Um forte abraço de toda a equipe da Aquarela Advanced Analytics.

Gostou da leitura? Tem muito mais da onde veio este post, inscreva-se em nossa Newsletter e não perca nossos conteúdos!

Fiquem ligados em nossas redes sociais:

Facebook, Twitter, Linkedin

*SUN TZU. A Arte Da Guerra – por uma estratégia perfeita. São Paulo: Madras Editora, 2003.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

Com os feedbacks dos artigos relacionados ao projeto Serenata de Amor e a introdução dos conceitos de política supervisionada que eles estão ajudando a introduzir no país, descobrirmos que existem muitas pessoas curiosas (futuros cidadãos cientistas de dados) querendo informações mais detalhadas sobre o comportamento dos gastos dos parlamentares por partidos e por estados. Como não podemos responder a todos os questionamentos e hipóteses levantadas, vamos virar o jogo e facilitar a digestão dos dados de maneira que a grande massa consiga alcançar e replicar esses dados da maneira mais ampla e rápida possível para suas realidades.

Entraves técnicos do acesso aos dados públicos

A estratégia definida pelo time SERENATA foi utilizar tecnologias de ponta e utilizando o idioma inglês para a construção da plataforma de captura e disseminação dos dados. Estas duas medidas são absolutamente acertadas, pois assim, estão conseguindo que diversos programadores, cientistas e pesquisadores (Brasileiros ou não) de qualquer parte do mundo possam colaborar e manter o crescimento acelerado da plataforma.

Só para se ter uma ideia, neste exato momento são 576 membros no grupo do Telegram discutindo melhorias do projeto, tudo em inglês.

Para fazer com que as informações geradas pelo projeto sejam mais acessíveis à população, levantei alguns pontos que considero como barreiras técnicas temporárias do processo:

  • Grande parte da população não é alfabetizada em inglês.
  • O conjunto de dados (1580942 linhas)  ultrapassa o limite de linhas que o Excel ou LibreOffice são capazes de processar – Mais informações neste post sobre os limites do Excel.
  • O repositório Github (onde ficam guardados todos os códigos e dados de forma pública 100% na nuvem) ainda é um mistério para muitos. E realmente não é fácil explicar como funciona um mecanismo de gestão de códigos capaz de manter a integridade do projeto com mais de 500 pessoas trabalhando 24×7.Imaginem que seria uma forma de organizar a edição de um documento do no Word de forma colaborativa e sem perder nenhuma informação.
  • Formatos de dados e códigos Python, assim como o inglês não são amplamente conhecidos.

Dos pontos levantados, gostaria de reafirmar que todas as decisões de projetos que visualizei e que criaram esses entraves são absolutamente necessários e sem eles não teríamos nada para discutir. Estamos ampliando um trabalho “semente”, e esse esforço é comum em todos os processos de inovação.

Processo de Facilitação

Para que mais pessoas possam inferir conhecimento a partir dos dados, gerei diversas versões recortadas dos dados traduzindo os nome das colunas para o português. Assim pessoas com noções mínimas de Excel possam usar filtros, planilhas dinâmicas e até gráficos para estudar esses dados 100% públicos da forma mais detalhada possível no menor tempo.

Abaixo está um printscreen da tela do super Ubuntu 17 tunado durante esse processo. Isso dá uma boa noção de como o trabalho sobre dados demanda processamento e memória RAM ou paciência.

Download dos arquivos

Neste link você deve ter acesso as pastas compartilhadas do Google Drive com as seguintes informações:

  • ArquivoCompleto – Contém todos os registros de reembolsos desde 2009 – não pode ser aberto em Excel.
  • RecortePeloAno – O arquivo completo foi retalhado em arquivos menores no formato Excel contendo todos os registros de reembolsos de todos os partidos e todos os estados, porém, fechados por cada ano desde 2009.
  • RecortePorEstado – Neste estão todos os lançamentos de todos os partidos de todos os anos, porém, isolados por estado da federação.

Recomendações

Este artigo tem um objetivo de disseminar o conhecimento tanto da complexidade geralmente não prevista em projetos de análise de dados (aspectos técnicos matam projetos caso não sejam bem arquitetados) e também promover o conceito da política supervisionada em nosso país, área que vai crescer muito nos próximos anos assim como o tema de análise avançada de dados (Advanced Analaytics).

Ao proporcionar dados fatiados e já tratados recomendo fortemente que profissionais de tecnologia, professores, alunos e cientistas façam o seguinte:

  • Encontrem padrões sozinhos nos dados e abram discussões com colegas e alunos;
  • Descubram novas ferramentas para analisar dados;
  • Divulguem as informações de forma abrangente, curtam e compartilhem os achados;
  • Apoiem o projeto Serenata de Amor;
  • Utilizem dados reais para testar seus algoritmos (geralmente os exemplos na internet são dados sintéticos que dão mais de 98% de acerto nas predições, na vida real essa taxa de acerto é bastante difícil se chegar).

Por hora é isso, um abraço a todos e ótimas análises! Seguimos!

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor