Dados do Diário Oficial da União serão publicados em formato aberto

ppkrauss · November 24, 2016, 11:12am

Oi @solstag, enfim sinais de vida por aqui

Importante o feedback numa comunidade de discussão… Quando postei fiz apenas uma “leitura dinâmica” do trecho do PDA onde expressam “… a Imprensa Nacional recorrerá à tecnologia de extração de dados de arquivos no formato PDF”.

… Aí para te responder fui conferir de novo, com mais atenção, e vi que se referem apenas ao legado (ufa!), será uma conversão retrospectiva do que foi publicado de 2012 a 2016. De final de 2016 em diante pretendem (pelo que interpretei) fazer a coisa certa:

implantarão um processo novo (!), aparentemente processo de XML-Publishing,
onde a revisão da prova final (aprovação do conteúdo publicado) é feita sobre o XML (que dá origem aos “filhos gêmeos” HTML+PDF) e não no InDesign tradicional (só PDF e perdendo o HTML).

Enfim, há um indício de que estão investindo em mudança do processo (!), mas vale consultar alguém de Brasília para confirmar, e até para saber “qual tipo de XML” (qual DTD) estarão usando, e onde/como será publicado o XML.

Exemplos clássicos de acesso: no modelo Pubmed Central (repositório) o XML fica acessível apenas em bulk (FTP), já nos modelos PLOS (revista) e SciELO (repositório), fica também acessível o link do XML ao lado do link PDF, nas páginas de divulgação da matéria.

Nota

Um pouco da minha experiência pessoal com diários oficiais e revistas científicas, que me induzem a ser mais precavido, e imaginar que são “naturalmente acomodados”,

há uma grande barreira cultural em por exemplo revisar o texto antes da prova em PDF. Raras são as revistas/editoras/entidades onde o contrato por “aprovo esta matéria como conteúdo final” é feito pela prova em HTML… É uma questão de processo: se a aprovação é feita em torno do PDF, qualquer acento ou vírgula alterada na revisão final fica só no PDF, fica de “filho único”, e o HTML deixa de ser seu “filho gêmeo” do conteúdo aprovado.
dados do mercado: o custo de “reengenharia do HTML a partir do PDF” é grande e o resultado ruim, como todos sabemos.
o ideal é ter na origem, como “conteúdo aprovado para publicação”, algo ainda mais detalhado e bem estruturado do que o HTML, que é o tal “XML”… O XML dá origem a vários produtos (filhos gêmeos) simultaneamente num processo de XML-Publishing: PDF, HTML, HTML para EPUB, HTML com marcação semântica, listagens, etc.
.. Mas é preciso especificar qual tipo de XML (qual DTD) num projeto desses… Por exemplo nas revistas científicas é o XML JATS, e nas materias legislativas (leis, decretos e portarias) de um Diário Oficial poderia ser o XML LexML, mas fica a dúvida sobre qual padrão consagrado usar nas matérias não-legislativas.
… citam a INDA como se fosse um padrão, mas INDA é um grupo e nunca publicou uma DTD de XML — alias seria retrocesso criar um padrão próprio, há que se adotar ou adaptar um padrão já existente no mercado, como fez o SciELO ao adotar o JATS depois de muita briga e insistência da comunidade.

Enquanto não disserem qual o tipo de XML e como (e se!) será disponibilizado o XML… e se esse XML preservará a interoperabilidade com LexML (ex. identificar matérias por URNs Lex)… fico com meu pé atrás