2018 é um ano importante para o futuro do Brasil, e assim como você caro leitor, nós também temos uma grande preocupação: 

Será que finalmente levaremos o hexa nesta copa?

Brincadeiras a parte, 2018 é ano de eleição, momento no qual vamos decidir quem será nosso presidente pelos próximos 4 anos. Sabemos que as opções não são as melhores até o momento, mas não vamos perder a fé em mudar o nosso país, certo? Neste post, pegamos carona no momento político e, aliando-se ao projeto “Serenata de amor”, traçamos o perfil dos gastos de dinheiro público feitos por nossos deputados. (Veja como o projeto aconteceu em Floripa) 

Utilizamos o VORTX (nossa plataforma de Inteligência Artificial) e ferramentas complementares como R, Python e Java, para encontrar padrões na forma como nosso dinheiro é gasto pelos deputados brasileiros. Perceba que até o momento não falamos em predição ou prescrição baseada em dados, outro ponto que este artigo mostrará é o fato de que Machine Learning também pode ser empregada na procura de padrões de comportamento, sem fazer nenhuma predição.

Dados de entrada

Mais de 1,5 milhões de notas fiscais emitidas de reembolso de 1158 deputados federais desde 2009 — Destes sobraram 1,138 que possuíam informações sobre a idade e o sexo — Fonte (https://serenatadeamor.org/).

O que queríamos descobrir?

  • Qual a idade provável de um cidadão se tornar deputado(a) federal?
  • Quais as características e as proporções de cada perfil parlamentar?
  • Qual o perfil de parlamentares mais gastões e quais os deputados mais econômicos? Como está a distribuição regional?
  • Quais os principais fatores associados aos gastos dos perfis descobertos?
  • Se existe uma relação entre a idade dos parlamentares com o gasto de suas cotas parlamentares?

Resultados utilizando Inteligência Artificial.

Depois de fazer uma série de enriquecimentos da base original, formatamos os dados no modelo requerido pela plataforma VORTX chegando assim aos seguintes resultados e validações.

Probabilidade de ser deputado por idade

Abaixo está o desenho e os cálculos da distribuição probabilística de alguém se tornar deputado de acordo com sua idade.

  • Probabilidade de ser parlamentar com menos de 30 anos é de 1,5%
  • Probabilidade de ser parlamentar com mais de 30 anos é de 98,5%
  • Probabilidade de ser parlamentar com menos de 80 anos é de  97,5%
  • Probabilidade de ser parlamentar com mais de 80 anos é  2,5%
  • Estar entre 30 e 80 é de 96% e fora dessa faixa 4%

 

Idade mínima = 23. Idade média = 56,87. Idade máxima = 98. Desvio padrão (taxa de variabilidade de idades) = 12,20.

Abaixo está o ranking dos deputados que fogem para baixo do padrão da curva normal, ou seja, os “deputados federais ninjas” que chegaram lá com 1,5% de chances.

 

Quadro de deputados federais mais novos desde 2009.

 

Proporções do perfil de gasto da quota parlamentar

No quadro abaixo vemos o perfil comportamental gerado pelo VORTX de todos os deputados analisados, sendo 3 grupos predominantes (1, 2 e 3) contém mais de 90% de todos os parlamentares. Os menos representativos chamados de 4, 5 e 6 são comportamentos anormais. O agrupamento 2 é formado apenas por mulheres ao passo que os demais, apenas por homens. Com isso vemos que existe diferenças consideráveis do comportamento por gênero.

Grupo 1 = 87,61%. Grupo 2 = 10,11%. Grupo 3 = 1,93%. Grupo 4 = 0,18% . Grupo 5 = 0,09% grupo 6 = 0,09%.

Perfil dos parlamentares gastões vs econômicos + região de atuação.

Abaixo apresentamos os sumários estatísticos dos grupos identificados pela ferramenta de forma automática. A primeira coluna da esquerda é o gasto médio em reais dos parlamentares. Imaginando que quanto maior a média, maior o custo deste para os cofres públicos, então temos o grupo 1 com a média mais alta: acima de R$ 1,2 mil, e os mais econômicos disposto no grupo 3, com gastos abaixo dos R$ 250,00. As mulheres do grupo 2 tendem a gastar R$157.21 menos que os homens do grupo 1. A proporção dos deputados com baixo custo é gritantemente menor do que os grupos principais.

A título de conhecimento, abaixo dos nomes estão a nota do grau de influência que a coluna tem na variação do valor médio. Ao contrário do que muitos pensam, encontrar padrões que já conhecemos é fundamental para saber se a ferramenta está interpretando corretamente a realidade, ou seja, felizmente o VORTX que não conhece nada de política ou quotas parlamentares, descobriu uma coisa que já se esperava: que os deputados(as) com médias maiores apresentam uma taxa maior de compras parceladas. Assim, o VORTX coloca ela como a primeira variável da esquerda para direita com nota 8.7 de influência. Seguida pela contagem do número de fornecedores.

Como parte da estratégia da análise, optamos por não considerar (não entregar para o algoritmo) a informação do estado e/ou partido dos deputados(as), tornando assim a análise sem qualquer viés que não sejam simplesmente o comportamento administrativo de cada um.

Uma vez que conseguimos atrelar a geolocalização dos parlamentares, a ferramenta desenha automaticamente a segmentação diretamente no mapa. Assim, é possível sintetizar os padrões e claro, depois descer (drill down) até encontrar os registros específicos de cada caso.

Ainda respondendo a questão 3, abaixo está um apontamento regional dos deputados que mais e menos gastam.

Em amarelo está a contagem absoluta, ou seja, quantos deputados de baixo custo existem em cada estado. Os amarelos estão apenas em alguns estados do país.

Mapa dos parlamentares do grupo 4 com a maior média de gastos. A letra é a primeira letra da variável que havíamos chamado de “ponto”.

Uma dúvida comum dos analistas é saber se os resultados fecham com a realidade do dado bruto. Este processo é muito importante em todo e qualquer tipo de análise de machine learning. Assim, fizemos alguns recortes da base sobre os resultados da entrega da inteligência artificial para verificar se os achados faziam sentido ou não.

Abaixo está uma das variáveis consideradas mais fortes no padrão de comportamento do uso das quotas. Com esta visualização podemos afirmar que deputados(as) com o menor custo médio apresentam uma quantidade muito maior de fornecedores do que todos os outros grupos. Esta variável é tão mais influente do que a idade do parlamentar que a segunda foi excluída automaticamente do modelo pela máquina.

Cada ponto representa um parlamentar. As cores estão relacionadas ao grupo criado pela inteligência artificial.

Na figura abaixo, podemos concluir também que não é possível fazer uma relação do comportamento de gasto por partido político já que há uma grande pluralidade de partidos nos diferentes perfis. Seria muito interessante, por exemplo, se algum partido tivesse uma política de redução dos gastos bem definida de modo que o grupo 3 tivesse apenas a cor deste partido ou fosse a cor predominante.

Cada ponto representa um parlamentar. As cores são o seu partido político. O eixo X representa o grupo que ele pertence de acordo com a inteligência artificial.

Já na visualização abaixo temos uma informação interessante. Quando estávamos levantado as perguntas de análise com a equipe de voluntários no evento  Serenata Capítulo Floripa. tínhamos uma intuição bastante forte de que os parlamentares mais jovens tivessem uma tendência a gastar menos, imaginando que houvesse uma melhor conscientização da importância da economia do dinheiro público. O resultado foi exatamente este, só que no sentido oposto. Verificamos que existe uma pequena tendência (muito fraca) da idade interferir no comportamento dos gastos. Os deputados(as) mais velhos tendem a gastar menos em média. Uma ressalva, a idade é baseada na diferença em anos da data de nascimento com a data desta pesquisa. Além alguns deputados já são falecidos(as).

Cada ponto representa um parlamentar, os homens são os pontos verdes e as mulheres os pontos vermelhos.

Brasil, todo dia um 7×1

Sabemos que o sentimento possa ser de frustração, afinal, descobrir que nem mesmo os deputados jovens estão conscientes do seu papel político-social é um tanto quanto desanimador. Mas para que aconteça mudança, temos que encarar a realidade, por esta razão que o projeto Serenata de amor foi criado, agregando o uso de Inteligência Artificial feita no Brasil com a necessidade de mudarmos nosso cenário político. 

Não deixem de seguir a Rosie no Twitter, robô criada pelo projeto que Twitta gastos suspeitos em tempo real, acompanhando de perto como nossos políticos gastam nosso dinheiro.

Acreditamos na mudança e na capacidade do povo brasileiro de inovar com tecnologia, acompanhe em nosso blog outros casos de uso de IA para predição e clusterização com dados públicos, e apoie o projeto Serenata de amor. Só assim faremos um Brasil mais inteligente e menos burocrático.

Fiquem ligados em nossas redes sociais!

Facebook, Twitter, Linkedin.

Assine nossa Newsletter aqui.

Autores
Joni Hoppen
Fundador da Aquarela, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação, focado em processos de rápida prototipação de Big Data Analytics e cultura de dados.