Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

Com os feedbacks dos artigos relacionados ao projeto Serenata de Amor e a introdução dos conceitos de política supervisionada que eles estão ajudando a introduzir no país, descobrirmos que existem muitas pessoas curiosas (futuros cidadãos cientistas de dados) querendo informações mais detalhadas sobre o comportamento dos gastos dos parlamentares por partidos e por estados. Como não podemos responder a todos os questionamentos e hipóteses levantadas, vamos virar o jogo e facilitar a digestão dos dados de maneira que a grande massa consiga alcançar e replicar esses dados da maneira mais ampla e rápida possível para suas realidades.

Entraves técnicos do acesso aos dados públicos

A estratégia definida pelo time SERENATA foi utilizar tecnologias de ponta e utilizando o idioma inglês para a construção da plataforma de captura e disseminação dos dados. Estas duas medidas são absolutamente acertadas, pois assim, estão conseguindo que diversos programadores, cientistas e pesquisadores (Brasileiros ou não) de qualquer parte do mundo possam colaborar e manter o crescimento acelerado da plataforma.

Só para se ter uma ideia, neste exato momento são 576 membros no grupo do Telegram discutindo melhorias do projeto, tudo em inglês.

Para fazer com que as informações geradas pelo projeto sejam mais acessíveis à população, levantei alguns pontos que considero como barreiras técnicas temporárias do processo:

  • Grande parte da população não é alfabetizada em inglês.
  • O conjunto de dados (1580942 linhas)  ultrapassa o limite de linhas que o Excel ou LibreOffice são capazes de processar – Mais informações neste post sobre os limites do Excel.
  • O repositório Github (onde ficam guardados todos os códigos e dados de forma pública 100% na nuvem) ainda é um mistério para muitos. E realmente não é fácil explicar como funciona um mecanismo de gestão de códigos capaz de manter a integridade do projeto com mais de 500 pessoas trabalhando 24×7.Imaginem que seria uma forma de organizar a edição de um documento do no Word de forma colaborativa e sem perder nenhuma informação.
  • Formatos de dados e códigos Python, assim como o inglês não são amplamente conhecidos.

Dos pontos levantados, gostaria de reafirmar que todas as decisões de projetos que visualizei e que criaram esses entraves são absolutamente necessários e sem eles não teríamos nada para discutir. Estamos ampliando um trabalho “semente”, e esse esforço é comum em todos os processos de inovação.

Processo de Facilitação

Para que mais pessoas possam inferir conhecimento a partir dos dados, gerei diversas versões recortadas dos dados traduzindo os nome das colunas para o português. Assim pessoas com noções mínimas de Excel possam usar filtros, planilhas dinâmicas e até gráficos para estudar esses dados 100% públicos da forma mais detalhada possível no menor tempo.

Abaixo está um printscreen da tela do super Ubuntu 17 tunado durante esse processo. Isso dá uma boa noção de como o trabalho sobre dados demanda processamento e memória RAM ou paciência.

Download dos arquivos

Neste link você deve ter acesso as pastas compartilhadas do Google Drive com as seguintes informações:

  • ArquivoCompleto – Contém todos os registros de reembolsos desde 2009 – não pode ser aberto em Excel.
  • RecortePeloAno – O arquivo completo foi retalhado em arquivos menores no formato Excel contendo todos os registros de reembolsos de todos os partidos e todos os estados, porém, fechados por cada ano desde 2009.
  • RecortePorEstado – Neste estão todos os lançamentos de todos os partidos de todos os anos, porém, isolados por estado da federação.

Recomendações

Este artigo tem um objetivo de disseminar o conhecimento tanto da complexidade geralmente não prevista em projetos de análise de dados (aspectos técnicos matam projetos caso não sejam bem arquitetados) e também promover o conceito da política supervisionada em nosso país, área que vai crescer muito nos próximos anos assim como o tema de análise avançada de dados (Advanced Analaytics).

Ao proporcionar dados fatiados e já tratados recomendo fortemente que profissionais de tecnologia, professores, alunos e cientistas façam o seguinte:

  • Encontrem padrões sozinhos nos dados e abram discussões com colegas e alunos;
  • Descubram novas ferramentas para analisar dados;
  • Divulguem as informações de forma abrangente, curtam e compartilhem os achados;
  • Apoiem o projeto Serenata de Amor;
  • Utilizem dados reais para testar seus algoritmos (geralmente os exemplos na internet são dados sintéticos que dão mais de 98% de acerto nas predições, na vida real essa taxa de acerto é bastante difícil se chegar).

Por hora é isso, um abraço a todos e ótimas análises! Seguimos!

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autor

14 setores para aplicação de Data Analytics

14 setores para aplicação de Data Analytics

Na grande maioria das conversas com nossos clientes sobre Analytics e Inteligência Artificial, notamos que há uma lacuna entre a realidade do negócio e expectativas de projetos de Data Analytics.

Muitos destes clientes ainda buscam saber por onde começar e até como contratar fornecedor, neste sentido, fizemos uma pesquisa para responder às questões sobre aplicação de Data Analytics:

  • Quais principais setores (áreas de negócio) utilizam Data Analytics hoje?
  • Quais os resultados mais comuns das iniciativas de Data Analytics por setor?
  • Quais são os dados mínimos (datasets) de entrada para cada iniciativa?

Setores para Aplicação de Data Analytics

Sabemos que é muito raro que duas organizações detenham o mesmo conjunto de dados, mesmo assim formatamos um resumo de nossas pesquisas sobre itens que consideramos genéricos suficientes por setor, assim temos:

Conclusões

 A tabela traz dados de forma resumida para fácil visualização, porém a realidade de cada empresa se desdobra em muitas variáveis de entrada, gerando muitas oportunidades (e riscos) atreladas aos níveis de maturidade em gestão de dados (Níveis de Maturidade de Analytics).

  • Existem vários outros setores que já utilizam recursos e metodologias da ciência de dados, porém estes já podem servir de exemplo para uma grande parcela dos negócios em operação.
  • Soluções de Data Analytics necessitam obrigatoriamente de dados de entrada e como cada negócio é um negócio, é importante conhecer bem os dados de entrada e sua qualidade. Em muitas situações as organizações não estão capturando os dados corretamente em seus sistemas, apresentando um baixo nível de maturidade.
  • Um obstáculo comum dos projetos de Data Analytics é o elevado esforço necessário para coletar, organizar e “limpar” os dados de entrada. Isso é, geralmente, o principal gerador de grandes frustrações entre os interessados no projeto. Cursos e capacitações na área podem acelerar o processo de construção dos modelos de análise de forma significativa, mas este conhecimento é escasso no mercado.
  • Não existem, pelo menos até onde se estendem nossas pesquisas, aplicativos “Plug & Play” de “Data Analytics” que possam ser instalados e  possam produzir os resultados das análises imediatamente. Em 100% dos casos toda a equipe (pessoal técnico e de negócio) precisa meter a mão na massa, criar hipóteses, definir amostras de dados, fazer testes, ajustar o modelo, calibrar o processo e finalmente chegar a resultados de fato conclusivos. Uma metodologia científica de trabalho voltada à dados que se ajuste ao negócio é fundamental para que esse processo seja bem sucedido. Na Aquarela, criamos e disponibilizando para Download o Analytics Business Canvas.

Este post dá um panorama bem geral (e pé no chão) sobre algumas áreas de mercado aonde sabemos que existem dados, e que, de alguma forma, estão estruturados para análise.

Existem sim outros mercados (você leitor deve ser deste “outro mercado”) que estão geram muitas informações (marketing digital por exemplo), mas escolhemos focar naqueles que são de senso comum, e ainda operam de maneira cética em relação aos dados.

Se você quer se aprofundar melhor sobre como esse novo olhar pode mudar o seu negócio, leia nosso Guia de introdução à cultura de Data Analytics. 

Lá mostramos os caminhos e etapas necessárias para que você entre no mundo do Data Analytics sabendo dos desafios que irá encontrar, dividimos o processo de adaptação em sete etapas, da identificação da oportunidade até a replicação de um projeto de sucesso.

Baixe agora e esteja pronto para a revolução dos dados!

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

O que é a web 3.0? Qual sua importância para os negócios?

O que é a web 3.0? Qual sua importância para os negócios?

Saudações a todos!
O conceito Web 3.0 e seu stack tecnológico (tecnologias envolvidas) são importantes e aqui explicamos o porquê. 

A cada dia o volume de dados e informações na internet cresce exponencialmente. Novos sites, imagens, vídeos e outras mídias são postadas a cada segundo. Assim, com esse volume de dados, como tornar as buscas por informação relevante com um custo benefício aceitável para atividades diárias? Portanto:

Em um contexto complexo de informações intensivas em constante mudança, as ferramentas da Web 3.0 são valiosas para usuários na organização de informações e processos de negócios em grande escala.

A evolução da Web

Desde o surgimento da primeira versão da Web, criada no início da década de 90 por Tim Berners-Lee na Suíça, suas tecnologias sofreram significativas evoluções, principalmente na interatividade com o usuário e na massificação da utilização da rede.

Em resumo, de acordo com nossas pesquisas, a história da web se deu em três fases importantes:

A Web Statica – Web 1.0

A Web 1.0 apresentava dados e informações de forma predominantemente estáticas, era caracterizada pela baixa interação do usuário, permitindo pouca ou nenhuma interação.

As tecnologias e métodos da Web 1.0 ainda são utilizadas para a exibição de conteúdos como leis, informativos e manuais. Assim, essa geração da Web foi marcada pela produção centralizada de conteúdos como os portais, UOL, ZAZ, Terra, AOL e os diretórios, Yahoo, Cadê e Craigslist. 

Nestes portais e diretórios, o usuário é apenas o consumidor de conteúdos em um contexto onde poucos produzem para muitos. Isto é, um modelo muito próximo de broadcasting (TVs, rádios, jornais e revistas). 

A grande virtude da Web 01 é a democratização do acesso à informação.

A Web Interativa – Web 2.0

A Web 2.0 em contraste à Web 1.0, tem seu conteúdo gerado predominantemente por seus usuários em um processo onde: muitos produzem e muitos consomem. 

Um exemplo, talvez um dos principais, desse modelo é a plataforma Wikipédia. Da mesma forma, também se beneficiaram deste conceito foram os blogs, as redes sociais e o conhecido Youtube

Na Web 2.0 o usuário deixa de ser apenas consumidor e se torna um produtor, ou coprodutor de conteúdos. 

A grande virtude da Web 2.0 está na democratização da produção de conteúdo.

A Web da interação inteligente – Web 3.0

A Web 3.0 ou Web Semântica reúne as virtudes da Web 1.0 e 2.0 adicionando a inteligência das máquinas. 

Em 2001 Tim-Berners Lee, o criador da Web, apresenta um artigo na revista Scientific American estabelecendo os pilares para a Web Semântica. 

No texto, Berners-Lee explica como dois irmãos combinam a logística do tratamento médico que a mãe deles precisava fazer. 

Na estória de Berners, os irmãos usando agentes inteligentes fazem todo o planejamento do tratamento, incluindo a marcação das consultas e a escala de caronas que os dois deveriam revezar, os agentes interagem com os sistemas das clínicas, entre si e com os dispositivos da casa.

Na Web 3.0, as máquinas se unem aos usuários na produção de conteúdo e na tomada de ações, tornando a infraestrutura da internet, de coadjuvante para protagonista na geração de conteúdos e processos. 

Assim, os serviços da Web 3.0, unem-se aos usuários e aos produtores profissionais na criação ativa de conhecimento.  Dessa forma, com sua grande capacidade de processamento, a Web 3.0 é capaz de trazer para as pessoas e para as empresas, serviços e produtos com alto valor agregado por conta da sua assertividade e alta personalização,

A grande virtude da Web 3.0 é a democratização da capacidade de ação e conhecimento, que antes só estava acessível às empresas e aos governos.

Resumo comparativo das Webs

comparativos das webs
Resumo da análise da evolução da Web

Exemplos Web 3.0

Alguns exemplos de aplicações da Web 3.0 são o Wolfram Alfa e na Siri da Apple: estes dois aplicativos conseguem resumir grandes quantidades de informações em conhecimento e ações úteis para as pessoas.

Wolfram Alpha

Para entender melhor a diferença entre a Web 2.0 e a 3.0, podemos fazer um pequeno comparativo entre o Wolfram Alfa e o Google, usando as duas ferramentas, digitando a frase “Brasil vs Argentina” em ambos buscadores, vemos a diferença nos resultados, veja na figura abaixo:

Comparativos dos resultados das ferramentas de busca

Comparativo Google e Wofram Alpha como exemplo de aplicação Web 3.0

Primeiramente, no caso do Google, os resultados são voltados aos conteúdos mais frequentes, enfatizando os jogos entre Brasil e Argentina. Nota-se que a palavra “futebol” ou “jogos” não foram mencionadas na busca.

Por outro lado, no resultado do Wolfram Alpha, a ferramenta entende que a busca se trata de uma comparação entre os dois países. Consequentemente retorna dados estatísticos, históricos, geográficos (mapas), demográficos, linguísticos entre outros aspectos úteis de comparação.

Siri Apple

A Siri da Apple, por sua vez, usa técnicas de reconhecimento de voz e inteligência artificial para trazer resultados e efetuar ações, como por exemplo: 

“onde fica a pizzaria mais próxima?”, “estou a quantos quilômetros do próximo posto de gasolina” ou ainda “marque uma reunião para às 15h00 amanhã”.

Na Web 1.0 e 2.0 a busca é espécie de pesquisa “cara-crachá” do texto em relação ao que existe publicado na rede, muitas vezes com o viés do que é mais abundante, não trazendo o que é mais relevante para o usuário naquele momento.

Uma das distinções dos buscadores da Web 3.0, com relação aos da Web 1.0 e 2.0, está no tempo que usuário pode gastar navegando em um mar de informações até realmente encontrar o que ele realmente procurava.

Já os sistemas que operam nos padrões Web 3.0 buscam conhecimento contextualizado para auxiliar as pessoas em suas tarefas, apontando uma série de possibilidades de análise e informações relevantes. 

Conclusões e recomendações

A Web 3.0 surge de maneira gradual, tal qual foi da versão 1.0 para a 2.0, se encaminhando para um ambiente mais dinâmico onde o conhecimento em ação pode acelerar exponencialmente negócios em processos de:

Lembrando que o conhecimento é a informação justificada e contextualizada capaz de mudar algo ou alguém, o que pode ser traduzido como capacidade de ação. Portanto, entendemos que:

 a Web 3.0 começa a trazer conhecimento capaz de promover mudanças em larga escala para as pessoas, organizações promovendo a democratização da capacidade de ação e conhecimento em uma magnitude muito maior se comparada com o que foi alcançado com as Web 1.0 e 2.0.

Empresas como Apple e IBM vêm investindo pesado em tecnologias da Web 3.0, por exemplo, a Google Inc. na última década fez várias aquisições de empresas que trabalham com as tecnologias da Web Semântica, como por exemplo a Applied Semantics, e a Metaweb Technologies, Inc, entre outras.

Vale a pena aos inovadores, sejam eles empresários, políticos ou pesquisadores, entender mais sobre esse novo horizonte de possibilidades e estarem preparados para a nova geração de negócios. 

Sem a visão das mudanças da Web 3.0 há um risco grande de empresas tradicionais tornarem obsoletas no momento da virada de paradigma, assim como aconteceu com gigantes do passado como Kodak,  Nokia e Altavista, que em seus mercados, não se modernizaram em tempo.

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores

Dos dados à inovação com Analytics

Dos dados à inovação com Analytics

Neste artigo apresentamos uma breve visão sobre quatro conceitos fundamentais para a leitura dos próximos conteúdos deste blog. Trataremos aqui da noção de dados, informação, conhecimento e sabedoria, conceitos que estão associados a diferentes potenciais de inovação (capacidade de transformação da realidade). Ilustramos tal relação no gráfico a seguir:

Complexidade x Valor

Entendemos que o potencial de inovação é sustentado por duas forças, a complexidade e o valor, respectivamente dispostas no gráfico acima em suas coordenadas vertical e horizontal. Logo, quanto mais acima e à direita, maior o potencial de impacto inovador.

Além do plano formado pela complexidade e valor, representando as capacidades de transformação da realidade (potenciais de inovação), o gráfico também aponta os elementos relacionados com o universo humano e computacional dentro deste plano.

A seguir são apresentados os significados das cores dos elementos do gráfico.

  • Vermelho Ser humano com seus sentidos, práticas e vivências.
  • Laranja – Elementos potencializadores da inovação.
  • Verde – Fases de desenvolvimento do potencial de inovação até a tomada de decisão.
  • Azul claro – Ferramentas digitais e computadores que servem de apoio ao trabalho humano, entendidos aqui como próteses cognitivas, as quais nos ajudam a executar tarefas criativas em crescente complexidade.

O que são dados, informação, conhecimento e Sabedoria?

Para definirmos cada um dos elementos potencializadores da inovação (dado, informação, conhecimento e sabedoria), utilizaremos como metáfora o caso da leitura de um termômetro:

A metáfora do termômetro - O que são dados, informação, conhecimento e Sabedoria?
A metáfora do termômetro – O que são dados, informação, conhecimento e Sabedoria?

Olhando a figura, o que podemos inferir dela? O que é dado, informação e conhecimento? E quais possíveis conclusões podemos tirar a partir da leitura de um termômetro (intuição e sabedoria)?

No caso da leitura de um termômetro, temos a seguinte descrição quanto aos elementos potencializadores da inovação:

  • Dados – são os sinais não interpretados, o menor grão e a matéria prima da escala do conhecimento e base para qualquer atividade com potencial de inovação. Eles surgem a partir daquilo que vivenciamos (eventos da vida) e capturamos por meio dos nossos sentidos e pelos dispositivos eletrônicos. No exemplo, o número 36,2 é apenas um número. Dados poderiam também ser caracteres como “@”, “T”, “——-” e assim por diante.
  • Informação – é a listagem dos dados de maneira organizada dentro de uma escala, mostrando uma série de eventos (dados) agrupados. No termômetro a letra ”C” (Celsius) representa a escala, a qual poderia ser também representada por graus Fahrenheit, porém seriam valores diferentes. Nós, humanos, memorizamos de alguma forma os dados obtidos pelos sentidos (organizamos e classificamos em escala), ao passo que os sistemas computacionais, a memorização se dá por meio de dados em listas, planilhas, documentos e  banco de dados, entre outros.
  • Conhecimento – é um tipo de informação contextualizada capaz de mudar algo ou alguém, sendo justificável de alguma maneira. Saber que a temperatura de 38 graus (dado) na escala Celsius (informação) indica que a pessoa está com febre (a temperatura média de uma pessoal saudável é de 36,4 graus) e assim, alguma ação deve ser tomada. Nós seres humanos podemos refletir sobre um problema e tomar uma decisão, já os sistemas computacionais, utilizam algoritmos para isso, ambos com base em dados e em informações. Um algoritmo, por exemplo, pode descobrir padrões de consumo de produtos em um supermercado ou ser usado para melhorar o trânsito de uma cidade.
  • Sabedoria – no topo da escala, a sabedoria se torna subjetiva e aparentemente irracional (ilógica) por ser um conjunto complexo de raciocínios que navegam rapidamente pelas três fases anteriores. Qual tratamento deve ser aplicado ao paciente com febre? Pessoas com grande vivência podem dar conselhos sábios. Nos sistemas computacionais utilizamos instrumentos capazes de conectar dados de diversas áreas para trazer respostas cada vez mais inteligentes (Web 3.0, também conhecida como Web Semântica).

Conclusões

Apresentamos uma visão resumida da Aquarela sobre dados, informação, conhecimento e sabedoria. Muito embora não haja um entendimento definitivo sobre o tema, sua apresentação e definição tornam-se necessárias. Em particular, os conhecimentos apresentados aqui são instrumentais para explicar como o caminho da Web 3.0 (a Web Semântica) e a Indústria 4.0 estão sendo pavimentadas pelo Data Analytics e pelos Linked e Open Data.

Quer ficar atualizado sobre Data Analytics, Indústria 4.0 e Inteligência Artificial? Assine nossa newsletter aqui.

Referências

  • SANTOS, Marcos. Um modelo para a gestão colegiada orientada ao significado por meio da realização de PCDAs. Dissertação (Mestrado em Engenharia e Gestão do Conhecimento). Programa de Engenharia e Gestão do Conhecimento, Universidade Federal de Santa Catarina (UFSC), Florianópolis, 2003.
  • GETTIER, E. L. Is justified true belief knowledge? Analysis, [S.l.], v. 23, n. 6, p. 121–123, 1963.
  • DRUCKER, P. F. The new realities. New Brunswick, NJ: Transaction Publishers, 2003.

Veja outros estudos

Quem é a Aquarela Analytics?

A Aquarela Analytics é vencedora do Prêmio CNI de Inovação e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodologia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial),  Auren (energia), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Telefônica Vivo (Telecomunicações), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal!

Autores