Eventos direcionaram contribuições para raspadores de publicações de diários oficiais de municípios da região que cobrem 61% do território brasileiro.
No último mês realizamos duas sprints, uma na conferência Python Brasil 2022 e outra durante a Conferência Brasileira de Jornalismo de Dados e Métodos Digitais (CODA.Br), ambas em formato híbrido: presencial e online, no Discord. Nos dois eventos o principal foco foi produzir raspadores para sites de Diários Oficiais de municípios localizados na região da Amazônia Legal, que envolve nove estados do Brasil: Acre, Amapá, Amazonas, Mato Grosso, Pará, Rondônia, Roraima, Tocantins e parte do Maranhão.
O foco em aumentar os municípios da Amazônia Legal no Querido Diário (QD) tem por objetivo libertar mais informação pública sobre a região, que corresponde a cerca de 61% do território brasileiro e onde vivem em torno de 23 milhões de pessoas, distribuídas em 775 municípios, segundo o IBGE. O acesso aos diários oficiais possibilita a apropriação de informações com as quais jornalistas, pesquisadores ou organizações da sociedade civil podem utilizar para melhor entender os desafios locais, potencializando e qualificando ainda mais a cobertura dos temas relacionados ao meio ambiente e à sociedade. As atividades tiveram o apoio do Programa Vozes pela Ação Climática Justa (VAC), em parceria com a Hivos.
Sprint na Python Brasil 2022
A Python Brasil é a maior conferência da comunidade da linguagem de programação Python da América Latina. Este ano, o evento foi realizado entre os dias 17 e 23 de outubro de forma híbrida: presencial em Manaus, com cerca de 600 participantes, com atividades transmitidas ao vivo. Tutoriais e sprints foram as atividades principais durante os três primeiros dias de evento, com cerca de 100 participantes diariamente.
A sprint do Querido Diário ocorreu presencialmente de 17 a 19 de outubro, nos períodos da manhã e tarde, facilitada por Giulio Carvalho, gerente técnico do projeto, com participação de cerca de 40 pessoas. No dia 19, também foi realizada de forma híbrida pela tarde, com cerca de 10 participantes pelo Discord e facilitada por Renne Rocha, mantenedor do QD.
Com o foco no mapeamento e na análise da dificuldade de raspagem dos sites de publicações, documentados neste quadro do GitHub, conseguimos avançar para contribuições como o raspador de Balsas (MA), do raspador para Bacabal (MA) e Codó (MA). Contribuições não relacionadas à Amazônia Legal também foram realizadas durante a sprint, como o raspador de um sistema publicador e correções na análise automática de código. Essas contribuições também são de grande importância para o projeto.
Participação no CODA.Br
A sprint do Querido Diário no evento foi conduzida presencialmente por Giulio Carvalho e Juliana Trevine, em São Paulo. Ao mesmo tempo, a comunidade se reuniu pelo Discord. O encontro aconteceu na tarde de domingo, 6 de novembro, e o foco continuou sendo em expandir a cobertura de cidades da Amazônia Legal pelo Querido Diário, dando continuidade às atividades iniciadas na Python Brasil 2022.
O encontro presencial contou com a presença de cerca de 15 pessoas. Os participantes com mais experiência em programação se dedicaram a desenvolver raspadores para cidades já mapeadas, enquanto as demais colocaram a mão na massa para completar a triagem dos municípios. Esse exercício possibilitou que experienciassem a diversidade de situações peculiares e barreiras encontradas no dia-a-dia do projeto, fazendo suas próprias descobertas e trocando impressões.
Já o encontro remoto se dividiu em duas partes. Na primeira, a comunidade assistiu, de forma síncrona, às instruções de abertura da sprint presencial. Na segunda, acompanharam o contribuidor Alexandre Harano desenvolvendo um robô raspador para o município de Santa Inês, no Maranhão.
Foi a primeira vez que Alexandre desenvolveu um raspador explicando todo o processo ao vivo. Para ele, foi desafiador lidar com a restrição de tempo, uma vez que para cada município é necessário analisar com profundidade o sistema de onde os dados serão extraídos. Segundo Harano, essa etapa consome a maior parte do tempo de desenvolvimento de um novo robô. Essa é uma das principais dificuldades que podem ser encontradas na raspagem dos sites de diários oficiais.
Saldo final
A partir da realização dessas duas sprints, alcançamos o objetivo de expandir a cobertura de cidades da Amazônia Legal no Querido Diário: foram 16 Pull Requests (PRs) enviados e a triagem completa das cidades mais populosas da região. Este crescimento é muito importante, em especial devido à possibilidade de facilitar o acesso às publicações oficiais locais relacionadas ao meio ambiente.
“Os municípios da Amazônia Legal, além de estarem inseridos em um bioma importante, representam uma grande cobertura geográfica e populacional brasileira. Mapeamos as publicações das 50 cidades mais populosas da região para guiar a construção de novos raspadores. Dependendo da estrutura do sistema de publicação, não será possível construir um raspador de imediato, mas esse mapeamento nos dá informações vitais para os próximos passos do projeto”, concluiu Giulio.