Em setembro de 2017 realizamos um curso em parceria com o SENAC/Palhoça de Introdução à cultura de dados. Neste evento, ao invés de utilizarmos dados sintéticos ou de problemas de outros países, optamos por trabalhar com dados das obras administradas pela gestão pública, com o propósito de ajudar no aprendizado dos alunos, mas também gerar valor à comunidade. Em nossa visão, integrar estudantes, profissionais, empresas e governo é uma prática que deveria ser disseminada no país.

Na sequência está o resumo deste trabalho realizado a pelo menos 40 mãos. Vale aqui também pontuar os seguintes apoios:

  • Time da fazenda estadual de Santa Catarina, responsável pelo portal da transparência, e a equipe responsável pela gestão do Sistema Integrado de Controle de Obras Públicas (SICOP), que prontamente nos atenderam para escolher, explicar e disponibilizar um conjunto de dados no formato adequado para as análises. Além disso, acompanharam os resultados iniciais e repassaram feedbacks essenciais para o amadurecimento do estudo.
  • Time da Wegov  que ajudou a fazer a ponte entre a Aquarela e Fazenda ainda no ano passado (2016).

Nota:
Este artigo foi publicado inicialmente no dia 16 de outubro de 2017, tendo sido revisado dia 26 de janeiro de 2018, após feedback enviado à Aquarela pela Fazenda/SC. A Fazenda pontuou alguns equívocos na apresentação dos dados que estavam elevando os valores de algumas agregações das obras. Este era o caso, por exemplo, da agregação dos dados por municípios, que inicialmente havia sido feita, mas foi substituída por uma nova tabela (Tabela 1) com o detalhamento no nível do Contrato, não do município – o mesmo contrato pode se referir a mais de um município. As análises de clusterização não foram alteradas, pois os padrões permanecem os mesmos, mas foram adicionados detalhes na interpretação dos clusters com base no feedback recebido. Assim, ressaltamos a importância de um governo transparente e agradecemos o retorno que tivemos da Fazenda do Estado de Santa Catarina.

Agora vamos para as análises!

Organização das análises

Objetivo

Utilizar técnicas avançadas de análise de dados para a descoberta de padrões de obras públicas do estado de Santa Catarina, tornando-as acessíveis à população em complemento ao portal da transparência do governo.

Perguntas chaves

  1. Quais são os maiores contratos de obras públicas no estado de Santa Catarina?
  2. Como são distribuídos os gastos por áreas (saúde, educação, transportes, etc) ao longo dos anos e entre os municípios?
  3. Quais são as características mais comuns das obras no estado?

Os dados das obras estaduais

O conjunto de dados (dataset) escolhido foi disponibilizado pelo portal da transparência do governo de Santa Catarina neste link. Ao todo foram 6.663 registros de obras públicas estaduais desde 2005. Os dados brutos podem ser baixados na sequência deste relatório em formato .CSV.

Análise parte 1: gráfico interativo, tabelas e rankings

Para responder as duas primeiras perguntas-chave levantadas, a seguir mostramos o gráfico da latitude e longitude das obras realizadas no Estado de Santa Catarina nos últimos 5 anos, bem como tabelas que resumem e viabilizam filtros nos dados. No gráfico, escolha o ano que deseja analisar para atualizar o gráfico. As cores dos círculos representam as áreas das obras. Os tamanhos dos círculos são definidos pelo Valor Total da obra, que contempla a soma do valor original de contrato mais valores aditados no decorrer do projeto.

Vale ressaltar que a visualização a seguir não ocorre em tempo real, mas sim de forma estática, utilizando dataset cedido pela Fazenda do Estado de Santa Catarina atualizado para outubro de 2017.

Visualização por ano e por situação das obras nos últimos 5 anos (2012-2017)

Veja por exemplo, que no ano de 2014 (copa e eleições presidenciais) o Estado de Santa Catarina teve muito mais obras do que nos outros anos demonstrados no gráfico. Ou ainda, veja as obras que estão paralisadas (com referência em outubro de 2017), ano a ano, desde 2012. Os detalhes e motivos de cada uma dessas situações dependem de uma análise mais detalhada que contemple outros datasets e um olhar dos auditores e especialistas responsáveis.

Respostas às duas primeiras perguntas-chave

Primeiramente, ao realizarmos uma ordenação por valor das obras na Tabela 1 (agregada por contratos), conseguimos responder quais são as obras com maiores volumes de investimentos em obras públicas no estado de Santa Catarina. Na sequência, as descrições das cinco maiores obras:

  • Restauração e Reabilitação da Ponte Hercílio Luz – Florianópolis/SC – R$ 275 milhões – Ano 2014;
  • Ampliação da Capacidade da Rodovia SC-486 trecho: Antônio Heil (BR-101 – Brusque) – R$ 155 milhões – Ano 2014;
  • Implantação e pavimentação SC-108 trecho: Acesso norte de Blumenau – R$ 141 milhões – Ano 2014;
  • Centro de Eventos Balneário Camboriú – R$ 114 milhões – Ano 2014;
  • Pavimentação SC-477 – Volta Grande – Dr. Pedrinho / Moema (Volta Triste) – Inicio Variante – R$ 114 milhões – Ano 2014.

Acerca da segunda pergunta-chave levantada, sobre como são distribuídos os gastos públicos por áreas (saúde, educação, etc) ao longo dos anos, conseguimos obter a resposta realizando filtros no gráfico dinâmico e interativo apresentado anteriormente, mas também pela Tabela 2. Ao ordenarmos às obras por Valor Total e por áreas percebe-se que as 5 áreas com maiores gastos são: transporte rodoviário; educação; agricultura; justiça e cidadania e saúde. Já as 5 áreas que receberam menos investimentos nos últimos 5 anos foram (da menor para a maior): saneamento; meio ambiente e recursos hídricos; habitação; infraestrutura administrativa; e transporte aeroviário.

Análise parte 2: perfil das obras por clusterização com o VORTX

Para responder à quarta pergunta-chave, sobre as características mais comuns das obras do estado de SC, realizamos análises de inteligência artificial com o VORTX. O VORTX é uma ferramenta de clusterização da Aquarela, que encontra padrões nos dados. A partir daí identificamos pontos comuns nas obras de cada cluster.

a. Análise genérica de clusterização

Ao rodarmos o VORTX para todo o dataset foram encontrados 17 clusters, cuja distribuição geográfica pode ser visualizada no gráfico a seguir. Na parte esquerda do gráfico são identificados os clusters: os números representam a identificação de cada cluster e o tamanho dos círculos representa a proporção de itens que compõem determinado cluster em relação ao todo. Já na parte direita do gráfico as obras são apresentadas sobre o mapa de Santa Catarina. Os números em cima dos círculos, neste caso, representam a quantidade de obras naquela região. A presença dos clusters ao longo do estado é identificada no mapa, pelas cores.

Clustering obras de Santa CAtarina

Distribuição das dos grupos de obras do estado

b. Análise dos clusters mais distintos dos demais

O VORTX encontrou alguns clusters interessantes, como um cluster outlier (veja mais sobre o que é um outiler), que separou as obras da reforma da ponte Hercílio Luz das demais. Este cluster é identificado pelo número 16 na imagem a seguir. O valor total elevado e o alto número de dias de duração do projeto foram alguns dos fatores que levaram o algoritmo a segregar esta obra separadamente.

Foco nas obras outliers

Foco em obras fora do padrão estadual.

Outro cluster interessante é o de número 7, que é um dos mais distintos dos demais, e é composto apenas por projetos paralisados, sendo todas elas classificadas como “Transporte Rodoviário”. São trabalhos, em média, longos (563 dias de tempo de contrato), mas acabam durando muito mais do que o previsto, pois ficam paralisadas por mais 653 dias, em média. Na figura a seguir é possível ver a distribuição geográfica destas obras ao longo do mapa de Santa Catarina.

Pesagem das variáveis e estatísticas dos groupos

Estatísticas sumarizadas por grupo e peso de influência das variáveis.

Resumo das características dos principais clusters

O algoritmo do VORTX realiza a clusterização mesmo sem conhecer de obras públicas. Ou seja, o modelo trabalha com Inteligência Artificial e modelos estatísticos e aprende quais projetos possuem características mais similares umas das outras. Porém, depois da definição dos clusters o analista de dados precisa fazer uma análise item por item para identificar medidas que possam ser tomadas.

Neste caso, para facilitar a compreensão resumimos alguns dos pontos principais sobre os clusters mais representativos das obras públicas do estado de Santa Catarina:

  • Cluster 1: composto apenas por obras de edificação para a área de educação, que já estão concluídas e que custaram em média R$ 1 milhão. São projetos com duração contratual média de 164 dias, com mais 100 dias médios de acréscimo e cerca de 6 dias de paralisação das obras.
  • Cluster 2: obras de transporte rodoviário que estão concluídas ou em andamento, com valor médio de R$ 8,6 milhões. A média de dias de contrato é de 326, com média de 80 dias aditados e paralisação de 46 dias.
  • Cluster 3: projetos de edificação de variadas áreas (educação, segurança pública, justiça e cidadania, transporte rodoviário e saúde), com valor total médio de R$ 2 milhões, concluídas ou em andamento. A duração de contrato é de 186 dias em média, com mais 163 dias de acréscimo e 13 dias de paralisação.
  • Cluster 4: composto predominantemente (90%) por contratos de edificação em praticamente todas as áreas, mas com predominância em agricultura e educação. O valor total médio é de R$ 6 milhões. A média de dias contratuais é de 200 dias, com acréscimo de 158 dias e paralisação de 45 dias. Um ponto que chama a atenção neste cluster é que existem alguns valores repetidos de aditivos negativos em diferentes obras. Um exemplo é o valor de R$ – 1.631.220,30, que se repete em obras de várias cidades. Este valor refere-se, de acordo com nota da Fazenda/SC repassada à Aquarela, ao valor de supressão referente ao atraso na entrega de matéria prima para o projeto, devido ao período de recesso de férias e ao longo período de chuvas do total do Contrato, que foi de R$ 6,78 milhões. Outro caso similar de obras do mesmo cluster foi de um contrato referente a construção de cisternas em vários municípios do Estado, no valor total de R$ 6,5 milhões, com R$ 1,6 milhões de aditivo negativo.
  • Cluster 5: cluster bastante composto por obras de diversas áreas, mas com predominância para defesa civil, educação e saúde. A maior parte está em andamento. São obras públicas  menores, com valor médio de R$ 150 mil.
  • Cluster 6: contratos classificados como “projetos”, composto por obras pequenas – média de R$ 176 mil –, todas concluídas e pertencentes às áreas de Segurança Pública e Educação. Duração aproximada de 100 dias, com 33 dias aditados e apenas 3 dias médios de paralisação.
  • Cluster 7: cluster já comentado, composto totalmente por obras paralisadas na área de transporte rodoviário, com valor total médio de R$ 8 milhões por obra. São obras com duração original de contrato de 563 dias, mas que ficam em média 653 dias paralisadas.
  • Cluster 8: são contratos classificados como consultoria em transporte rodoviário, de obras em andamento ou concluídas. São valores bastante elevados: R$ 36 milhões em média. Os dias originais de contrato são 353 em média, com cerca de 129 dias aditados e 111 dias paralisados.

Conclusão

Nesta análise procuramos responder três perguntas que foram levantadas em curso da Aquarela junto ao SENAC/Palhoça. Diversas outras questões foram também elucidadas em um primeiro momento, mas para fins de delimitação reduzimos o número de perguntas-chave. Apresentamos gráficos e tabelas interativas e também resultados de análise com o VORTX.

As obras possuem divisões marcantes, visualizadas com forte distinção pelo algoritmo do VORTX. Um dos pontos mais interessantes é que todos os clusters são bem distribuídos ao longo do mapa de Santa Catarina. Ou seja, com exceção do projeto da ponte Hercílio Luz e de Florianópolis como um todo – que contém uma alta concentração de projetos –, não parece haver uma distinção regional entre os clusters. Existe sim uma maior distinção em relação à área do projeto, status do contrato, e a outras variáveis numéricas, como: valor total do contrato, valor aditado, dias de contrato e dias paralisados.

Por fim, vale destacar que aqui apresentamos os dados e realizamos alguns insights. Porém, a partir deste ponto cabe uma análise mais detalhada sobre os aspectos levantados, que deve ser feita pelos especialistas no assunto em questão. Entenda mais sobre os passos e a importância de uma análise de dados em nosso E-book “Guia de introdução à cultura de Data Analytics“.

 

Siga nossa Newsletter: http://materiais.aquare.la/newsletter-aquarela

 

Autores
Wlademir Ribeiro Prates
Cientista de dados na Aquarela. Doutor e mestre em Administração, especialista em econometria financeira, finanças comportamentais, métodos quantitativos e mercado de capitais.

Joni Hoppen
Fundador da Aquarela, professor e palestrante na área de Ciência de Dados, mestre em Sistemas de Informação, focado em processos de rápida prototipação de Big Data Analytics e cultura de dados.

Informações para referenciação: Gostou do material? Caso queira enriquecer sua pesquisa ou relatório (seja blog post ou artigo acadêmico), referencie nosso conteúdo como: Aquarela 2018 - Inteligência Artificial para negócios (www.aquare.la).