Novo Querido Diário: rumos e meios para chegar lá!


#1

Queridas e queridos,

Sou novo nesse fórum, meu nome é Cuducos, sou um dos fundadores da Operação Serenata de Amor.

A Open Knowledge Brasil, e o seu Programa de Ciência de Dados para Inovação Cívica (do qual o tima da Serenata faz parte), começou mais uma iniciativa de mexer com os diários oficiais, com o intuíto de trazer a Rosie para a esfera municipal. O repositório ainda chama diario-oficial, mas internamente temos chamado de Querido Diário para homenagear e sugerir uma continuação do projeto homônimo de uns anos atrás.

Eu estava falando com o @rennerocha hoje e ele me deu um toque de que as coisas parecem largadas. Em parte é verdade: estamos tocando uns três projetos em paralelo e nos falta braço. Mas em parte também é falta de um espaço para falarmos sobre o projeto. Então vim aqui puxar esse papo, criar esse espaço.

Como dito no nosso Guia de contribuição a meta é chegar às 100 maiores cidades do Brasil com raspadores de dados (Spiders na jargão do Scrapy) e, em paralelo, estruturar dados sobre dispensa de licitação: é o que fazem os parsers (no jargão do projeto). Fizemos parsers para Porto Alegre e Goiânia e, na medida que tivermos mais parsers, a ideia é treinar um algoritmo que consiga extender isso a mais cidades.

Ainda temos uma bolsa da Mozilla para nos forcarmos em NLP e textos oficiais em português, o que pode facilitar a exploração desses diários, e abrir outras portas.

Para não virar textão paro por aqui. Mas abro o espaço para falarmos sobre essas ideias, esses códigos e esse projeto :heart:


New Member Introductions
#2

Olá, @cuducos!
Seja bem vindo por aqui.

Sou um apoiador e um admirador do trabalho do Serenata desde o início. O projeto Querido Diário vem preencher uma lacuna importante que é o pouco acesso que se tem aos diários oficiais da maior parte dos governos locais, ainda mais quando se fala em acesso automatizável por máquina.

Recomendo fortemente a quem for contribuir com o projeto que conheça e faça uso dos padrões do projeto LexML para, por exemplo, estabelecer identificadores únicos para cada ato oficial publicado nos diários, para estruturar os textos em seus elementos constituintes (ex.: capítulos, artigos, incisos, etc.), para identificar a autoridade que publica o ato, etc. O projeto se baseou nas melhores experiências internacionais sobre o assunto, tais como o MetaLex e o Akoma Ntoso. O @ppkrauss participa da Open Knowledge, frequenta este fórum e é outro grande conhecedor que acompanha de longa data o projeto LexML.

É muito bom vocês terem conseguido essa bolsa da Mozilla para o projeto. Não posso concorrer a bolsa até porque estou sem tempo para me comprometer com o projeto, mas posso ocasionalmente ajudar com algum trabalho, já que a minha pesquisa de mestrado (dissertação, apresentação) envolveu justamente NLP em textos oficiais em português. Também já fiz bastante raspagem. Enfim, tenho bastante apreço por este projeto, espero ter condições de ajudar de alguma forma e recomendo a quem se interessar por qualquer desses assuntos que participe!


#3

Oi, eu trabalhei por um tempinho com o QueriDO do João Meireles, que tinha uma concentração mais pra curadoria, mas logo mudei meu foco pro trazDia, do Andrés Martano, que tinha um objetivo bem parecido com essa nova iniciativa.
Eu estive estudando o teu repositório e, como tudo que vocês fazem, fiquei impressionado com a qualidade da estrutura. Rodei ele no meu computador sem muitos problemas, o que também indica boa documentação. Ou seja, tem tudo que precisa pra ganhar tração.
Queria que isso tivesse acontecido 1 ano atráz, quando eu estava ainda aí no Brasil :frowning: Mas se pá ainda posso ajudar, por que acredito muito no benefício que isso traria.
Vou continuar estudando o código, e vou ver se consigo pegar uma ou duas issues pra trabalhar em breve. Enquanto isso, desejo sucesso.


#4

Por sinal, segue aqui link pra uma outra discussao relacionada aos diarios:
https://discuss.okfn.org/t/dados-do-diario-oficial-da-uniao-serao-publicados-em-formato-aberto/4027/3