Inovação Cívica

Como cientistas de dados podem analisar diários oficiais usando a Querido Diário Toolbox

16 abr de 2021, por

Compartilhar

O Querido Diário segue tomando forma! Uma das nossas áreas de trabalho é a de extração, processamento e disponibilização dos textos contidos nos diários oficiais que estamos conseguindo libertar graças ao esforço da comunidade brasileira de tecnologia. 

Enquanto trabalha para “fatiar” os diários – ou seja, identificar as diferentes seções de cada edição utilizando técnicas de Processamento de Linguagem Natural – nossa frente de ciência de dados, liderada pelo pesquisador André Assumpção, disponibilizou a Querido Diário Toolbox, uma “caixa de ferramentas” para que a comunidade interessada já possa extrair e acessar o conteúdo dos diários oficiais de 12 capitais brasileiras. 

Com os textos extraídos, cientistas de dados podem realizar as mais diversas análises sobre a comunicação oficial da gestão pública no Brasil, como busca por termos relevantes – nomeações, contratações de serviços de certas empresas etc. -, frequência de determinadas publicações e até o cruzamento entre arquivos de diferentes municípios. 

Além de servirem como objeto de estudo e prática, as análises podem virar contribuições para a evolução do Querido Diário enquanto ferramenta de fomento à inovação cívica. Topa colaborar?

Para ajudar a comunidade, o André disponibilizou este vídeo demonstrando as principais funcionalidades da Toolbox, que ainda está em desenvolvimento e disponível para sugestões de melhoria. Confira: