A parceria firmada entre a Open Knowledge Brasil e o Instituto de Matemática e Estatística da Universidade de São Paulo (IME-USP) em 2020 chegou ao fim nesta semana. Ao longo do segundo semestre deste ano, uma equipe composta por alunos de graduação e pós-graduação que cursavam a disciplina Laboratório Avançado de Ciência de Dados puderam concentrar esforços em solucionar alguns desafios do Querido Diário, projeto do Programa Ciência de Dados para Inovação Cívica da OKBR que busca libertar os dados dos diários oficiais dos municípios brasileiros.
A equipe teve como base de dados um conjunto de documentos em PDF coletados entre 1º de fevereiro e 15 de junho usando os raspadores já desenvolvidos para 391 municípios. O objetivo do projeto era analisar o conteúdo dos textos para identificar possíveis compras suspeitas relacionadas às medidas de enfrentamento à pandemia do coronavírus. Assim, o conjunto continha documentos que citavam ao menos um entre onze termos relevantes, como “dispensa de licitação”, “Equipamento de Proteção Individual” e “ventiladores pulmonares”.
Muitos desafios do universo da análise de dados foram enfrentados, como a diagramação desfavorável de grande parte dos diários oficiais. Os textos, dispostos geralmente em duas colunas, dificultam a interpretação automatizada por um código, que interpreta apenas uma linha por vez em seu padrão de desenvolvimento. Características relativas à falta de padronização dos diários são um problema que atravessa esta e várias outras frentes do Querido Diário, como o Censo dos Diários Oficiais – levantamento da disponibilização online das publicações em cada município.
A solução proposta para buscar as compras suspeitas foi fazer um levantamento dos CNPJs das empresas que aparecem nos diários oficiais como prestadoras de algum serviço às prefeituras e o posterior cruzamento com bases externas, como o Cadastro de Empresas Inidôneas e Suspeitas e o das doações de campanha eleitoral realizadas em 2016.
Como resultado, o grupo extraiu 23.070 CNPJs, dos quais 1% estavam inválidos. A causa mais provável são erros de digitação que acabam sendo registrados em um documento oficial, revelando uma falha na transparência das informações. A partir do cruzamento com as duas bases, não foi encontrado algum registro que pudesse ser considerado suspeito.
Todo o código gerado pela equipe, composta por Gabriel Trettel, George Othon, Tiago Lubiana e Wesley Seidel, está disponível para acesso livre neste repositório.