Inteligência Artificial nas Quotas Parlamentares

Inteligência Artificial nas Quotas Parlamentares

2018 é um ano importante para o futuro do Brasil, e assim como você caro leitor, nós também temos uma grande preocupação: 

Será que finalmente levaremos o hexa nesta copa?

Brincadeiras a parte, 2018 é ano de eleição, momento no qual vamos decidir quem será nosso presidente pelos próximos 4 anos. Sabemos que as opções não são as melhores até o momento, mas não vamos perder a fé em mudar o nosso país, certo? Neste post, pegamos carona no momento político e, aliando-se ao projeto “Serenata de amor”, traçamos o perfil dos gastos de dinheiro público feitos por nossos deputados. (Veja como o projeto aconteceu em Floripa) 

Utilizamos o VORTX (nossa plataforma de Inteligência Artificial) e ferramentas complementares como R, Python e Java, para encontrar padrões na forma como nosso dinheiro é gasto pelos deputados brasileiros. Perceba que até o momento não falamos em predição ou prescrição baseada em dados, outro ponto que este artigo mostrará é o fato de que Machine Learning também pode ser empregada na procura de padrões de comportamento, sem fazer nenhuma predição.

Dados de entrada

Mais de 1,5 milhões de notas fiscais emitidas de reembolso de 1158 deputados federais desde 2009 — Destes sobraram 1,138 que possuíam informações sobre a idade e o sexo — Fonte (https://serenatadeamor.org/).

O que queríamos descobrir?

  • Qual a idade provável de um cidadão se tornar deputado(a) federal?
  • Quais as características e as proporções de cada perfil parlamentar?
  • Qual o perfil de parlamentares mais gastões e quais os deputados mais econômicos? Como está a distribuição regional?
  • Quais os principais fatores associados aos gastos dos perfis descobertos?
  • Se existe uma relação entre a idade dos parlamentares com o gasto de suas cotas parlamentares?

Resultados utilizando Inteligência Artificial.

Depois de fazer uma série de enriquecimentos da base original, formatamos os dados no modelo requerido pela plataforma VORTX chegando assim aos seguintes resultados e validações.

Probabilidade de ser deputado por idade

Abaixo está o desenho e os cálculos da distribuição probabilística de alguém se tornar deputado de acordo com sua idade.

  • Probabilidade de ser parlamentar com menos de 30 anos é de 1,5%
  • Probabilidade de ser parlamentar com mais de 30 anos é de 98,5%
  • Probabilidade de ser parlamentar com menos de 80 anos é de  97,5%
  • Probabilidade de ser parlamentar com mais de 80 anos é  2,5%
  • Estar entre 30 e 80 é de 96% e fora dessa faixa 4%
Idade mínima = 23. Idade média = 56,87. Idade máxima = 98. Desvio padrão (taxa de variabilidade de idades) = 12,20.

Abaixo está o ranking dos deputados que fogem para baixo do padrão da curva normal, ou seja, os “deputados federais ninjas” que chegaram lá com 1,5% de chances.

Quadro de deputados federais mais novos desde 2009.

Proporções do perfil de gasto da quota parlamentar

No quadro abaixo vemos o perfil comportamental gerado pelo VORTX de todos os deputados analisados, sendo 3 grupos predominantes (1, 2 e 3) contém mais de 90% de todos os parlamentares. Os menos representativos chamados de 4, 5 e 6 são comportamentos anormais. O agrupamento 2 é formado apenas por mulheres ao passo que os demais, apenas por homens. Com isso vemos que existe diferenças consideráveis do comportamento por gênero.

Grupo 1 = 87,61%. Grupo 2 = 10,11%. Grupo 3 = 1,93%. Grupo 4 = 0,18% . Grupo 5 = 0,09% grupo 6 = 0,09%.

Perfil dos parlamentares gastões vs econômicos + região de atuação.

Abaixo apresentamos os sumários estatísticos dos grupos identificados pela ferramenta de forma automática.

A primeira coluna da esquerda é o gasto médio em reais dos parlamentares. Imaginando que quanto maior a média, maior o custo deste para os cofres públicos, então temos o grupo 1 com a média mais alta: acima de R$ 1,2 mil, e os mais econômicos disposto no grupo 3, com gastos abaixo dos R$ 250,00.

As mulheres do grupo 2 tendem a gastar R$157.21 menos que os homens do grupo 1. A proporção dos deputados com baixo custo é gritantemente menor do que os grupos principais.

A título de conhecimento, abaixo dos nomes estão a nota do grau de influência que a coluna tem na variação do valor médio.

Ao contrário do que muitos pensam, encontrar padrões que já conhecemos é fundamental para saber se a ferramenta está interpretando corretamente a realidade, ou seja, felizmente o VORTX que não conhece nada de política ou quotas parlamentares, descobriu uma coisa que já se esperava: que os deputados(as) com médias maiores apresentam uma taxa maior de compras parceladas.

Assim, o VORTX coloca ela como a primeira variável da esquerda para direita com nota 8.7 de influência. Seguida pela contagem do número de fornecedores.

Como parte da estratégia da análise, optamos por não considerar (não entregar para o algoritmo) a informação do estado e/ou partido dos deputados(as), tornando assim a análise sem qualquer viés que não sejam simplesmente o comportamento administrativo de cada um.

Uma vez que conseguimos atrelar a geolocalização dos parlamentares, a ferramenta desenha automaticamente a segmentação diretamente no mapa. Assim, é possível sintetizar os padrões e claro, depois descer (drill down) até encontrar os registros específicos de cada caso.

Ainda respondendo a questão 3, abaixo está um apontamento regional dos deputados que mais e menos gastam.

Em amarelo está a contagem absoluta, ou seja, quantos deputados de baixo custo existem em cada estado. Os amarelos estão apenas em alguns estados do país.
Mapa dos parlamentares do grupo 4 com a maior média de gastos. A letra é a primeira letra da variável que havíamos chamado de “ponto”.

Uma dúvida comum dos analistas é saber se os resultados fecham com a realidade do dado bruto.

Este processo é muito importante em todo e qualquer tipo de análise de machine learning. Assim, fizemos alguns recortes da base sobre os resultados da entrega da inteligência artificial para verificar se os achados faziam sentido ou não.

Abaixo está uma das variáveis consideradas mais fortes no padrão de comportamento do uso das quotas. Com esta visualização podemos afirmar que deputados(as) com o menor custo médio apresentam uma quantidade muito maior de fornecedores do que todos os outros grupos.

Esta variável é tão mais influente do que a idade do parlamentar que a segunda foi excluída automaticamente do modelo pela máquina.

Cada ponto representa um parlamentar. As cores estão relacionadas ao grupo criado pela inteligência artificial.

Na figura abaixo, podemos concluir também que não é possível fazer uma relação do comportamento de gasto por partido político já que há uma grande pluralidade de partidos nos diferentes perfis.

Seria muito interessante, por exemplo, se algum partido tivesse uma política de redução dos gastos bem definida de modo que o grupo 3 tivesse apenas a cor deste partido ou fosse a cor predominante.

Cada ponto representa um parlamentar. As cores são o seu partido político. O eixo X representa o grupo que ele pertence de acordo com a inteligência artificial.

Já na visualização abaixo temos uma informação interessante.

Quando estávamos levantado as perguntas de análise com a equipe de voluntários no evento  Serenata Capítulo Floripa. tínhamos uma intuição bastante forte de que os parlamentares mais jovens tivessem uma tendência a gastar menos, imaginando que houvesse uma melhor conscientização da importância da economia do dinheiro público.

O resultado foi exatamente este, só que no sentido oposto. Verificamos que existe uma pequena tendência (muito fraca) da idade interferir no comportamento dos gastos.

Os deputados(as) mais velhos tendem a gastar menos em média. Uma ressalva, a idade é baseada na diferença em anos da data de nascimento com a data desta pesquisa. Além alguns deputados já são falecidos(as).

Cada ponto representa um parlamentar, os homens são os pontos verdes e as mulheres os pontos vermelhos.

Brasil, todo dia um 7×1

Sabemos que o sentimento possa ser de frustração, afinal, descobrir que nem mesmo os deputados jovens estão conscientes do seu papel político-social é um tanto quanto desanimador.

Mas para que aconteça mudança, temos que encarar a realidade, por esta razão que o projeto Serenata de amor foi criado, agregando o uso de Inteligência Artificial feita no Brasil com a necessidade de mudarmos nosso cenário político. 

Não deixem de seguir a Rosie no Twitter, robô criada pelo projeto que Twitta gastos suspeitos em tempo real, acompanhando de perto como nossos políticos gastam nosso dinheiro.

Acreditamos na mudança e na capacidade do povo brasileiro de inovar com tecnologia, acompanhe em nosso blog outros casos de uso de IA para predição e clusterização com dados públicos, e apoie o projeto Serenata de amor. Só assim faremos um Brasil mais inteligente e menos burocrático.

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor

Resumo – Operação Serenata de Amor – Capítulo Floripa. [Parte 2]

Resumo – Operação Serenata de Amor – Capítulo Floripa. [Parte 2]

Hoje 1º de maio, termino de compilar as informações geradas na operação Serenata de Amor – Capítulo Floripa, evento que iniciou na sexta-feira, dia 28 de abril de 2017. Neste artigo, descrevo minhas observações pessoais, fotos e vídeos sobre o evento/projeto como um todo, para que outros sintam-se motivados a meter a mão na massa também. Há tantas formas possíveis de contribuir.

Abaixo estão as informações da raiz do projeto Serenata!

Ingredientes de uma Serenata de amor

Para que eventos como este aconteçam na sua cidade, sugiro:

  • Ter pelo menos um líder de projeto com profundo conhecimento da arquitetura do projeto. (Aqui tivemos apoio do pessoal da WEGOV subsidiando a vinda da Jessika Temporal de São Paulo).
  • Ter pelo menos um líder de infraestrutura do ambiente físico (gestor comunitário).
  • Ter um espaço físico que permita abstrair o mundo externo e que tenha todas as condições para o bem-estar dos participantes (temperatura, internet, alimentação e etc), mais ou menos como um ambiente de shopping.
  • Ter participantes altamente engajados pela causa e dispostos a contribuir com o repasse de seu conhecimento de forma não hierárquica e com bastante humildade para aprender conceitos de outras áreas e reconhecer erros.
  • Ter participantes curiosos e com um senso crítico ponderado, ou seja, que tenham a capacidade de fazer julgamentos sobre dados levando em consideração fatores que às vezes podem influenciar completamente as validações de hipóteses de pesquisa e até gerar injustiças.
  • Não ter preconceito com o idioma inglês, pois a maioria das ferramentas criadas na área de análise de dados (computação em geral) são em inglês, incluindo o próprio repositório do projeto que utiliza esta língua franca que permite que estrangeiros possam colaborar.

Dia 1 – Sexta-feira dia 28 de abril

Contávamos com aproximadamente 70 pessoas registradas, porém, muitas ficaram impossibilitadas de interagir fisicamente com o grupo devido aos protestos e paralisações aleatórias na cidade. Alguns me perguntaram se sou a favor ou contra a tudo isso. Respondo brevemente para não fugir do tema:

Ter o direito de protestar ou não é um direito fundamental e deve ser exercido sempre como ato de cidadania, já destruir ou pichar qualquer patrimônio público ou privado, principalmente de pequenos empreendimentos, nunca.

O capítulo do Serenata de Amor em Floripa (Sprint – Floripa) é apenas uma de milhares de formas de protesto. Se não tivéssemos problemas com as contas públicas do país, os voluntários nem precisariam estar envolvidos. Simples assim!

Com relação ao evento, fomos muito bem recebidos pela empresa Resultados Digitais, que por sua vez, ofereceu a infraestrutura necessária para os trabalhos.

Foi nesta noite que o trabalho colaborativo me permitiu configurar o ambiente de desenvolvimento Python em minha máquina pessoal (Drama da Instalação do Python – Relatado neste post). Mas por que Python? Resposta, esta é a linguagem oficial do projeto. Para quem não está familiarizado com estes mutirões de trabalho de base tecnológica, as primeiras horas do evento são chamadas de “Install Fest”, momento em que todos configuram seus computadores para que fiquem com os sistemas parecidos, ou sejam, para que todos estejam na mesma página.

Dia 2 – Sábado

Demonstração do aplicativo OPS na prática em tempo real

Em meio ao caos natural de eventos com pessoas de diversas áreas de conhecimento e níveis técnicos diferentes, acabei ouvindo e me deparando com um aplicativo fantástico, uma espécie de Tinder de avaliação de gastos públicos, onde cada nota fiscal é postada e o cidadão pode avaliar se esta faz sentido ou não. Este é o link do aplicativo – Operação Política Supervisionada. Baixe já e ajude a controlar o bom senso do gasto público e, por gentileza, seja honesto na avaliação, se não tiver ideia dos valores use o botão “Não sei” e passe para o próximo.

Continuando, aos poucos, o pessoal foi levantando a mão e os grupos de trabalho foram se alocando automaticamente por perfis de complementariedade de conhecimento. Aqueles que programam se juntaram escrevem e estes aos que conhecem da área pública, quem estava para aprender, estava por todos os lados coletando informação. Então com o passar das horas, bastava levantar a mão e pedir para o grupo quem tinha conhecimento no item X ou Y e os grupos se realocavam de forma extremamente dinâmica.

Bom, abaixo coloco um vídeo feito ao vivo pelo Facebook mostrando mais detalhes do que estavamos fazendo no primeiro dia.

Vídeo 01 – Durante os trabalhos

https://www.facebook.com/Joniarroba/videos/10154274239925672/

Vídeo 02 – Resultados preliminares

https://www.facebook.com/Joniarroba/videos/10154274623805672/

Quais áreas são priorizadas?

Em uma breve interpretação pessoal destes gráficos, é possível dizer que há uma preocupação maior dos parlamentares na visibilidade do trabalho por meio de maiores investimentos em publicidade da atividade parlamentar (27.64%) do que pagamentos em cursos de capacitação, que por sua vez, só representa (0.02%) do orçamento. Outras inferências podem ser feitas, mas estas deixo a cargo dos leitores. Caso queiram conhecer todas as regras de utilização das quotas parlamentares, aqui estão elas neste link Cota Parlamentar.

Proporção dos gastos parlamentares desde 2009 até 30 de abril de 2017 classificadas por tipo de despesas.
Valor bruto em reais gastos por parlamentares desde 2009 até 30 de abril de 2017 dividido por por tipo de despesas.

Quais foram os maiores reembolsos unitários por áreas?

Maiores reembolsos unitários por área, valores em reais. Ex. Maior despesa com alimentação em uma única nota – R$ 6.205,00 ou serviço de assinatura de R$ 30.000,00.

Quais meses as cotas são mais utilizadas?

Flutuação dos gastos totais das cotas parlamentares ao longo dos 12 meses do ano. Autor – Lui Pillmann.

Qual a média de gasto mensal ao longo dos anos?

Flutuação do gasto médio mensal das cotas ao longo dos anos. Autor – Lui Pillmann.

Quanto um congressista gasta em média por partido?

Média mensal de gastos por deputado por partido ao longo de todos os anos. Autor – Lui Pillmann.

Dia 3 (Domingo)

O Sprint tava programado ser apenas na sexta e sábado, mas dada a empolgação do pessoal, muitos decidiram continuar pelo feriado. E aí vieram os trabalhos de concatenação de material, verificação de inconsistências e atualização dos novos achados na base centralizada do projeto – https://github.com/datasciencebr/ .

Grande parte deste trabalho foi feito de forma remota sincronizado no chat em inglês e português da turma. Eu particularmente tirei este dia para descansar e ver a família. O interessante é que teve bastante gente tocando o projeto, era meia noite e meia e as mensagens não paravam de circular.

Dia 4 (Segunda, 1º de maio)

Dia do trabalho, dia juntar as peças e links e finalizar o capítulo com as conclusões.

Conclusões e próximos passos

Esta análise abordou principalmente os aspectos da dinâmica de trabalho do evento Serenata de Amor – Capítulo – Floripa. Acredito que algumas dessas informações são novas para muitos (inclusive empresas de médio e grande porte).

O aprofundamento nas metodologias de trabalho sobre dados é um caminho inevitável para redução de custos de projetos colaborativos, distribuídos de alta complexidade como este.

Em breve teremos a aplicação de inteligência artificial em alguns dos conjuntos dado utilizando o Aquarela VORTX.

Hoje a plataforma do Serenata já utiliza alguns algoritmos e está ficando cada vez mais fascinante ver as máquinas descobrindo em segundos e automaticamente certas as nuances comportamentais dos gastos públicos e em alguns casos até prever situações antes que elas ocorram, isso não é TOP?

Das análises em si, levantamos novas hipóteses, como por exemplo:

  • O que explica a sazonalidade dos gastos parlamentares?
  • Por que existem pedidos de reembolso acima de 200 mil reais?
  • Qual o nível de correlação entre os gastos e as taxas de assiduidades dos parlamentares?
  • Qual a média dos gastos por partido por estado?
  • Ranking ponderado dos parlamentares com maior e menor gasto.
  • Existe correlação entre o aumento dos gastos com o mês de aniversário dos congressistas?
  • Quais profissões estão probabilisticamente mais propensas aos maiores gastos?
  • O nível educacional e idade apresentam influência nos cenários de alto médio e baixo gasto parlamentar?

Recomendações

O campo de análise de dados já é uma realidade em diversos países e organizações. O Brasil está no caminho, pois a competitividade internacional está ligada a qualidade da gestão. A tendência mundial é que haja um contínuo aumento nos índices de transparência dos dados da gestão pública. Assim, várias oportunidades surgem, aqui deixo algumas dicas.

  • Busque formas de colaborar com o projeto Serenata, seja metendo a mão na massa ou patrocinando o financeiramente.
  • Curta e compartilhe estes materiais para que mais e mais pessoas tenham acesso tanto ao projeto quanto aos dados existentes.
  • Conheça os portais de transparência que estão sendo criados, como exemplo, sugiro este de Santa Catarina – http://www.transparencia.sc.gov.br
  • Invista em cursos e capacitações na área de análise de dados, não se deixe intimidar pelas ferramentas, linguagens e etc.
  • Se quiser ver os códigos e as fórmulas matemáticas em Python usadas para gerar as visualizações click aqui. Autor: Lui Pillmann.
  • Proteste, mas com base em dados e bom senso!

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor

Em dia de Greve, 70 cientistas de dados se reúnem na operação “Serenata de Amor”. [Parte 1]

Em dia de Greve, 70 cientistas de dados se reúnem na operação “Serenata de Amor”. [Parte 1]

Amanhã, dia 28 de abril de 2017, ao invés de greve (não necessariamente contra ou a favor dela), 70 cientistas de dados, matemáticos, estatísticos, jornalistas, programadores e outros talentos estarão reunidos de forma voluntária até sábado a noite minerando dados governamentais para a redução imediata de desvios indevidos do dinheiro público federal que poderiam certamente melhorar escolas, hospitais e também garantir a aposentadoria de muita gente vem perdendo esse direito por simples má gestão dos recursos nacionais.

As organizações que estão apoiando e participando ativamente neste evento são Resultados DigitaisAquarela Advanced AnalyticsOperação Serenata de Amor

Ficou curioso? Para mais informações segue o link deste belíssimo projeto – Operação Serenata de Amor – https://serenatadeamor.org/

Aqui estão os resultados de como foi o evento:

Operação Serenata de amor parte 2.

Dados da quota parlamentar disponíveis para download – Operação Serenata de Amor [Parte 3]

Projeto Serenata de amor no Fantástico

Quem é a Aquarela Analytics?

A Aquarela Analytics é pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas. Por meio da plataforma Vortx e da metodolgia DCIM (Download e-book gratuito), atende clientes importantes, como: Embraer (aeroespacial), Scania e Grupo Randon (automotivo), SolarBR Coca-Cola (alimentício), Hospital das Clínicas (saúde), NTS-Brasil (óleo e gás), Votorantim (energia), dentre outros. Fique atento às novas publicações diárias da Aquarela Analytics no Linkedin e assinando a nossa Newsletter mensal! 

Autor