Com os feedbacks dos artigos relacionados ao projeto Serenata de Amor e a introdução dos conceitos de política supervisionada que eles estão ajudando a introduzir no país, descobrirmos que existem muitas pessoas curiosas (futuros cidadãos cientistas de dados) querendo informações mais detalhadas sobre o comportamento dos gastos dos parlamentares por partidos e por estados. Como não podemos responder a todos os questionamentos e hipóteses levantadas, vamos virar o jogo e facilitar a digestão dos dados de maneira que a grande massa consiga alcançar e replicar esses dados da maneira mais ampla e rápida possível para suas realidades.
Entraves técnicos do acesso aos dados públicos
A estratégia definida pelo time SERENATA foi utilizar tecnologias de ponta e utilizando o idioma inglês para a construção da plataforma de captura e disseminação dos dados. Estas duas medidas são absolutamente acertadas, pois assim, estão conseguindo que diversos programadores, cientistas e pesquisadores (Brasileiros ou não) de qualquer parte do mundo possam colaborar e manter o crescimento acelerado da plataforma.
Só para se ter uma ideia, neste exato momento são 576 membros no grupo do Telegram discutindo melhorias do projeto, tudo em inglês.
Para fazer com que as informações geradas pelo projeto sejam mais acessíveis à população, levantei alguns pontos que considero como barreiras técnicas temporárias do processo:
Grande parte da população não é alfabetizada em inglês.
O conjunto de dados (1580942 linhas) ultrapassa o limite de linhas que o Excel ou LibreOffice são capazes de processar – Mais informações neste post sobre os limites do Excel.
O repositório Github (onde ficam guardados todos os códigos e dados de forma pública 100% na nuvem) ainda é um mistério para muitos. E realmente não é fácil explicar como funciona um mecanismo de gestão de códigos capaz de manter a integridade do projeto com mais de 500 pessoas trabalhando 24×7.Imaginem que seria uma forma de organizar a edição de um documento do no Word de forma colaborativa e sem perder nenhuma informação.
Formatos de dados e códigos Python, assim como o inglês não são amplamente conhecidos.
Dos pontos levantados, gostaria de reafirmar que todas as decisões de projetos que visualizei e que criaram esses entraves são absolutamente necessários e sem eles não teríamos nada para discutir. Estamos ampliando um trabalho “semente”, e esse esforço é comum em todos os processos de inovação.
Processo de Facilitação
Para que mais pessoas possam inferir conhecimento a partir dos dados, gerei diversas versões recortadas dos dados traduzindo os nome das colunas para o português. Assim pessoas com noções mínimas de Excel possam usar filtros, planilhas dinâmicas e até gráficos para estudar esses dados 100% públicos da forma mais detalhada possível no menor tempo.
Abaixo está um printscreen da tela do super Ubuntu 17 tunado durante esse processo. Isso dá uma boa noção de como o trabalho sobre dados demanda processamento e memória RAM ou paciência.
Download dos arquivos
Neste link você deve ter acesso as pastas compartilhadas do Google Drive com as seguintes informações:
ArquivoCompleto – Contém todos os registros de reembolsos desde 2009 – não pode ser aberto em Excel.
RecortePeloAno – O arquivo completo foi retalhado em arquivos menores no formato Excel contendo todos os registros de reembolsos de todos os partidos e todos os estados, porém, fechados por cada ano desde 2009.
RecortePorEstado – Neste estão todos os lançamentos de todos os partidos de todos os anos, porém, isolados por estado da federação.
Recomendações
Este artigo tem um objetivo de disseminar o conhecimento tanto da complexidade geralmente não prevista em projetos de análise de dados (aspectos técnicos matam projetos caso não sejam bem arquitetados) e também promover o conceito da política supervisionada em nosso país, área que vai crescer muito nos próximos anos assim como o tema de análise avançada de dados (Advanced Analaytics).
Ao proporcionar dados fatiados e já tratados recomendo fortemente que profissionais de tecnologia, professores, alunos e cientistas façam o seguinte:
Encontrem padrões sozinhos nos dados e abram discussões com colegas e alunos;
Descubram novas ferramentas para analisar dados;
Divulguem as informações de forma abrangente, curtam e compartilhem os achados;
Apoiem o projeto Serenata de Amor;
Utilizem dados reais para testar seus algoritmos (geralmente os exemplos na internet são dados sintéticos que dão mais de 98% de acerto nas predições, na vida real essa taxa de acerto é bastante difícil se chegar).
Por hora é isso, um abraço a todos e ótimas análises! Seguimos!
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.
2018 é um ano importante para o futuro do Brasil, e assim como você caro leitor, nós também temos uma grande preocupação:
Será que finalmente levaremos o hexa nesta copa?
Brincadeiras a parte, 2018 é ano de eleição, momento no qual vamos decidir quem será nosso presidente pelos próximos 4 anos. Sabemos que as opções não são as melhores até o momento, mas não vamos perder a fé em mudar o nosso país, certo? Neste post, pegamos carona no momento político e, aliando-se ao projeto “Serenata de amor”, traçamos o perfil dos gastos de dinheiro público feitos por nossos deputados. (Veja como o projeto aconteceu em Floripa)
Utilizamos o VORTX (nossa plataforma de Inteligência Artificial) e ferramentas complementares como R, Python e Java, para encontrar padrões na forma como nosso dinheiro é gasto pelos deputados brasileiros. Perceba que até o momento não falamos em predição ou prescrição baseada em dados, outro ponto que este artigo mostrará é o fato de que Machine Learning também pode ser empregada na procura de padrões de comportamento, sem fazer nenhuma predição.
Dados de entrada
Mais de 1,5 milhões de notas fiscais emitidas de reembolso de 1158 deputados federais desde 2009 — Destes sobraram 1,138 que possuíam informações sobre a idade e o sexo — Fonte (https://serenatadeamor.org/).
O que queríamos descobrir?
Qual a idade provável de um cidadão se tornar deputado(a) federal?
Quais as características e as proporções de cada perfil parlamentar?
Qual o perfil de parlamentares mais gastões e quais os deputados mais econômicos? Como está a distribuição regional?
Quais os principais fatores associados aos gastos dos perfis descobertos?
Se existe uma relação entre a idade dos parlamentares com o gasto de suas cotas parlamentares?
Resultados utilizando Inteligência Artificial.
Depois de fazer uma série de enriquecimentos da base original, formatamos os dados no modelo requerido pela plataforma VORTX chegando assim aos seguintes resultados e validações.
Probabilidade de ser deputado por idade
Abaixo está o desenho e os cálculos da distribuição probabilística de alguém se tornar deputado de acordo com sua idade.
Probabilidade de ser parlamentar com menos de 30 anos é de 1,5%
Probabilidade de ser parlamentar com mais de 30 anos é de 98,5%
Probabilidade de ser parlamentar com menos de 80 anos é de 97,5%
Probabilidade de ser parlamentar com mais de 80 anos é 2,5%
Estar entre 30 e 80 é de 96% e fora dessa faixa 4%
Idade mínima = 23. Idade média = 56,87. Idade máxima = 98. Desvio padrão (taxa de variabilidade de idades) = 12,20.
Abaixo está o ranking dos deputados que fogem para baixo do padrão da curva normal, ou seja, os “deputados federais ninjas” que chegaram lá com 1,5% de chances.
Quadro de deputados federais mais novos desde 2009.
Proporções do perfil de gasto da quota parlamentar
No quadro abaixo vemos o perfil comportamental gerado pelo VORTX de todos os deputados analisados, sendo 3 grupos predominantes (1, 2 e 3) contém mais de 90% de todos os parlamentares. Os menos representativos chamados de 4, 5 e 6 são comportamentos anormais. O agrupamento 2 é formado apenas por mulheres ao passo que os demais, apenas por homens. Com isso vemos que existe diferenças consideráveis do comportamento por gênero.
Grupo 1 = 87,61%. Grupo 2 = 10,11%. Grupo 3 = 1,93%. Grupo 4 = 0,18% . Grupo 5 = 0,09% grupo 6 = 0,09%.
Perfil dos parlamentares gastões vs econômicos + região de atuação.
Abaixo apresentamos os sumários estatísticos dos grupos identificados pela ferramenta de forma automática.
A primeira coluna da esquerda é o gasto médio em reais dos parlamentares. Imaginando que quanto maior a média, maior o custo deste para os cofres públicos, então temos o grupo 1 com a média mais alta: acima de R$ 1,2 mil, e os mais econômicos disposto no grupo 3, com gastos abaixo dos R$ 250,00.
As mulheres do grupo 2 tendem a gastar R$157.21 menos que os homens do grupo 1. A proporção dos deputados com baixo custo é gritantemente menor do que os grupos principais.
A título de conhecimento, abaixo dos nomes estão a nota do grau de influência que a coluna tem na variação do valor médio.
Ao contrário do que muitos pensam, encontrar padrões que já conhecemos é fundamental para saber se a ferramenta está interpretando corretamente a realidade, ou seja, felizmente o VORTX que não conhece nada de política ou quotas parlamentares, descobriu uma coisa que já se esperava: que os deputados(as) com médias maiores apresentam uma taxa maior de compras parceladas.
Assim, o VORTX coloca ela como a primeira variável da esquerda para direita com nota 8.7 de influência. Seguida pela contagem do número de fornecedores.
Como parte da estratégia da análise, optamos por não considerar (não entregar para o algoritmo) a informação do estado e/ou partido dos deputados(as), tornando assim a análise sem qualquer viés que não sejam simplesmente o comportamento administrativo de cada um.
Uma vez que conseguimos atrelar a geolocalização dos parlamentares, a ferramenta desenha automaticamente a segmentação diretamente no mapa. Assim, é possível sintetizar os padrões e claro, depois descer (drill down) até encontrar os registros específicos de cada caso.
Ainda respondendo a questão 3, abaixo está um apontamento regional dos deputados que mais e menos gastam.
Em amarelo está a contagem absoluta, ou seja, quantos deputados de baixo custo existem em cada estado. Os amarelos estão apenas em alguns estados do país.Mapa dos parlamentares do grupo 4 com a maior média de gastos. A letra é a primeira letra da variável que havíamos chamado de “ponto”.
Uma dúvida comum dos analistas é saber se os resultados fecham com a realidade do dado bruto.
Este processo é muito importante em todo e qualquer tipo de análise de machine learning. Assim, fizemos alguns recortes da base sobre os resultados da entrega da inteligência artificial para verificar se os achados faziam sentido ou não.
Abaixo está uma das variáveis consideradas mais fortes no padrão de comportamento do uso das quotas. Com esta visualização podemos afirmar que deputados(as) com o menor custo médio apresentam uma quantidade muito maior de fornecedores do que todos os outros grupos.
Esta variável é tão mais influente do que a idade do parlamentar que a segunda foi excluída automaticamente do modelo pela máquina.
Cada ponto representa um parlamentar. As cores estão relacionadas ao grupo criado pela inteligência artificial.
Na figura abaixo, podemos concluir também que não é possível fazer uma relação do comportamento de gasto por partido político já que há uma grande pluralidade de partidos nos diferentes perfis.
Seria muito interessante, por exemplo, se algum partido tivesse uma política de redução dos gastos bem definida de modo que o grupo 3 tivesse apenas a cor deste partido ou fosse a cor predominante.
Cada ponto representa um parlamentar. As cores são o seu partido político. O eixo X representa o grupo que ele pertence de acordo com a inteligência artificial.
Já na visualização abaixo temos uma informação interessante.
Quando estávamos levantado as perguntas de análise com a equipe de voluntários no evento Serenata Capítulo Floripa. tínhamos uma intuição bastante forte de que os parlamentares mais jovens tivessem uma tendência a gastar menos, imaginando que houvesse uma melhor conscientização da importância da economia do dinheiro público.
O resultado foi exatamente este, só que no sentido oposto. Verificamos que existe uma pequena tendência (muito fraca) da idade interferir no comportamento dos gastos.
Os deputados(as) mais velhos tendem a gastar menos em média. Uma ressalva, a idade é baseada na diferença em anos da data de nascimento com a data desta pesquisa. Além alguns deputados já são falecidos(as).
Cada ponto representa um parlamentar, os homens são os pontos verdes e as mulheres os pontos vermelhos.
Brasil, todo dia um 7×1
Sabemos que o sentimento possa ser de frustração, afinal, descobrir que nem mesmo os deputados jovens estão conscientes do seu papel político-social é um tanto quanto desanimador.
Mas para que aconteça mudança, temos que encarar a realidade, por esta razão que o projeto Serenata de amor foi criado, agregando o uso de Inteligência Artificial feita no Brasil com a necessidade de mudarmos nosso cenário político.
Não deixem de seguir a Rosie no Twitter, robô criada pelo projeto que Twitta gastos suspeitos em tempo real, acompanhando de perto como nossos políticos gastam nosso dinheiro.
Acreditamos na mudança e na capacidade do povo brasileiro de inovar com tecnologia, acompanhe em nosso blog outros casos de uso de IA para predição e clusterização com dados públicos, e apoie o projeto Serenata de amor. Só assim faremos um Brasil mais inteligente e menos burocrático.
Fundador e Diretor Comercial da Aquarela, Mestre em Business Information Technology com especialização em logística – Universiteit Twente – Holanda. Escritor e palestrante na área de Ciência e Governança de Dados para indústria e serviços 4.0.