Olá @fcatae, muito prazer! Vejo que você e a Microsoft-Brasil arregaçaram as mangas, que boa notícia.
Adquirimos uma certa experiência com o projeto do Domingos, baseado no Poppler… Acho que vale agendar com interessados (me incluo) um Hangout (Appear.in ou outro que não seja Skype) para um primeiro alinhamento e avaliar como podemos ajudar. Temos sugestões também de geração de dados intermediários para auditoria, integridade e controle da qualidade.
@odanoburu, sobre o que comentou,
a questão então é que dados e em que quantidade serão publicados pela IN (i.e., só os de 2016 pra cá, talvez?)
Acho que o @fcatae responde em parte:
-
O “conteúdo gêmeo” das matérias (HTML+PDF) tem sua origem num XML, e esse XML está já disponível abertamente no link indicado. Dá para fazer muita coisa interessante com isso, e até convido interessados a apoiarem montagem de um servidor para análises estatísticas e testes com conversões XSLT.
Sim, por hora é limitado ao período de produção HTML, que iniciou ano passado. -
A “conversão retrospectiva para XML” é o desafio que o Fabrício mostra no Github. Precisa converter todo o legado de PDFs em XMLs… Vai depender dos benchmarks para termos uma ideia de quanto pode ser produzido com essa ferramenta-MS sem interferência humana… Imagino que possam ir soltando aos poucos os XMLs de documentos antigos mais simples, tais como portarias. O uso de recursos humanos na conversão assistida tem custo alto, vai depender de existir algum orçamento federal para isso.
PS: chega uma hora que o processo de conversão é mais simples usando ferramentas de OCR, e a interação humana no processo é o mesmo tipo. Eventualmente o “Azure Cognitive Services” aprenderia com exemplos, e passaria fazer um papel quase humano: estou também curioso para ver