Vaga é para atuar no projeto Querido Diário; saiba mais sobre as atribuições e como se candidatar
A Open Knowledge Brasil (OKBR) busca uma pessoa engenheira de dados para atuar no eixo Inovação Cívica, que utiliza tecnologias abertas para promover o controle social por meio do engajamento cívico, fomentando a participação ativa da sociedade brasileira no processo político. Atualmente, a equipe está dedicada ao projeto Querido Diário (QD), usa tecnologias abertas para ‘raspar’ o conteúdo dos diários oficiais e colocar os dados de forma centralizada em uma plataforma amigável.
Descrição da Vaga
Como engenheira de dados, esperamos que a pessoa projete e implemente pipelines para realizar o processamento de diários oficiais extraídos pelos raspadores do QD e também melhore a nossa arquitetura de projeto de dados durante o processo.
Política de igualdade e diversidade
A OKBR está comprometida com a promoção da igualdade e da diversidade, valores centrais para a organização. Valorizamos o trabalho de todas as pessoas colaboradoras. Construímos um ambiente de trabalho respeitoso e construtivo para todos(as) independente de deficiência, nacionalidade, gênero, identidade de gênero, orientação sexual, raça, idade, religião/crença ou quaisquer outras características pessoais. Portanto, candidaturas de pessoas pretas, pardas e indígenas, além de mulheres (cis e trans), serão especialmente valorizadas.
Principais atividades/responsabilidades
Melhorar o pipeline de dados de conversão de arquivos de diários oficiais de formato fechado (PDF, DOCX, etc.) para texto puro;
Apoiar a inserção de modelos de aprendizagem de máquina no pipeline de dados;
Melhorar a arquitetura de projeto de dados do Querido Diário para facilitar mudanças no fluxo de dados;
Documentar os modelos de banco de dados, pipelines e arquitetura de dados desenvolvidos.
Requisitos técnicos necessários
Proficiência em projeto e implementação de pipelines de dados;
Experiência em alguma linguagem orientada à estruturação de bancos de dados, como: Python, SQL, Scala, Java, etc.;
Experiência com algum serviço de cloud (AWS, GCP, Digital Ocean, etc.);
Experiência com alguma metodologia de desenvolvimento ágil (Scrum, Kanban, etc.).
Requisitos técnicos desejáveis
Experiência em arquitetura de projetos de grande volume de dados (Resilient Distributed Datasets, framework Apache Spark, Hadoop ou similares);
Experiência em otimização de modelos de aprendizagem de máquina.
Local: trabalho remoto
Início: a combinar, previsão para meados de agosto
Dedicação: 20h semanais, pelo período de 6 meses, com possibilidade de renovação
Remuneração: R$ 3.500,00 a R$ 5.000,00 mensais (a depender da experiência), na modalidade de Pessoa Jurídica.
Candidatura
As inscrições devem ser feitas até o dia 8 de agosto por meio deste formulário.