Dados do Diário Oficial da União serão publicados em formato aberto

Ao que tudo indica a Imprensa Nacional tem um Plano de Dados Abertos (PDA), e está por fim colocando em prática!

Apesar de não ser ainda prevista a padronização (formato dos dados, anexos, contratos em inteiro teor, etc.), nem a integração com LexML, está sendo visto como grande avanço, deixando para trás o “tempo dos PDFs” e reconhecendo que a comunidade precisa de conteúdo digital minimamente aberto e estruturado.

A notícia foi publicada na quinta passada, 17/11/2016, pelo portal do Ministério do Planejamento, Desenvolvimento e Gestão.


Os pontos positivos do PDA são em parte acatar ou regulamentar o que já estava previsto pelo Decreto 8777 de 2016: entre outras coisas, no Decreto (capítulo II) é prevista a LIVRE UTILIZAÇÃO DE BASES DE DADOS… Seria interessante, todavia, interpretar mais objetivamente o que dizem o Decreto e o PDA.
Em nenhum momento expressam algo objetivo como “publicar separatas das matérias em HTML”… Alguém teria uma “tradução” dos documentos para descobrir isso? :wink:

PS: na minha interpretação não querem mudar o processo (ideal seria criar HTML e PDF como “filhos gêmeos” do mesmo conteúdo oficial), vão apenas gastar mais dinheiro contratando alguém para fazer OCR do PDF que conhecemos.


Para nós na OKBr isso pode vir a ter impacto positivo em diversos projetos, dos mais simples e tímidos, aos mais complexos e ambiciosos:

  • dataset-cbo: quem sabe dispensa até o processo de preparação, tal como pdftotext -layout arquivo.pdf, obtendo direto o banco de dados.

  • queriDO: anima os voluntários (todos andavam bem sumidos), pois agora haverá um potencial enorme de uso (!) das ferramentas previstas. Como o Diário Libre, é uma ferramenta de otimização e auditoria dos diários oficiais.

  • Cuidando do Meu Bairro: viabiliza o acesso a planilhas federais, podendo apresentar pontos de investimento federal no município.

  • Diário Livre: viabiliza a construção de uma versão customizada para a esfera federa (DOU).

  • Gastos Abertos: reforça o potencial de integração entre planilhas de dados federais já abertas (e em uso), e dados complementares da descrição oficial dos gastos, publicada no DOU… Mas vai depender da evolução do Diário Livre ou queriDO.

3 Likes

Fala Peter! Muito interessante, mas o que te faz dizer isto:

?

1 Like

Oi @solstag, enfim sinais de vida por aqui :slight_smile:

Importante o feedback numa comunidade de discussão… Quando postei fiz apenas uma “leitura dinâmica” do trecho do PDA onde expressam “… a Imprensa Nacional recorrerá à tecnologia de extração de dados de arquivos no formato PDF”.

… Aí para te responder fui conferir de novo, com mais atenção, e vi que se referem apenas ao legado (ufa!), será uma conversão retrospectiva do que foi publicado de 2012 a 2016. De final de 2016 em diante pretendem (pelo que interpretei) fazer a coisa certa:

implantarão um processo novo (!), aparentemente processo de XML-Publishing,
onde a revisão da prova final (aprovação do conteúdo publicado) é feita sobre o XML (que dá origem aos “filhos gêmeos” HTML+PDF) e não no InDesign tradicional (só PDF e perdendo o HTML).

Enfim, há um indício de que estão investindo em mudança do processo (!), mas vale consultar alguém de Brasília para confirmar, e até para saber “qual tipo de XML” (qual DTD) estarão usando, e onde/como será publicado o XML.

Exemplos clássicos de acesso: no modelo Pubmed Central (repositório) o XML fica acessível apenas em bulk (FTP), já nos modelos PLOS (revista) e SciELO (repositório), fica também acessível o link do XML ao lado do link PDF, nas páginas de divulgação da matéria.


Nota

Um pouco da minha experiência pessoal com diários oficiais e revistas científicas, que me induzem a ser mais precavido, e imaginar que são “naturalmente acomodados”,

  • há uma grande barreira cultural em por exemplo revisar o texto antes da prova em PDF. Raras são as revistas/editoras/entidades onde o contrato por “aprovo esta matéria como conteúdo final” é feito pela prova em HTML… É uma questão de processo: se a aprovação é feita em torno do PDF, qualquer acento ou vírgula alterada na revisão final fica só no PDF, fica de “filho único”, e o HTML deixa de ser seu “filho gêmeo” do conteúdo aprovado.

  • dados do mercado: o custo de “reengenharia do HTML a partir do PDF” é grande e o resultado ruim, como todos sabemos.

  • o ideal é ter na origem, como “conteúdo aprovado para publicação”, algo ainda mais detalhado e bem estruturado do que o HTML, que é o tal “XML”… O XML dá origem a vários produtos (filhos gêmeos) simultaneamente num processo de XML-Publishing: PDF, HTML, HTML para EPUB, HTML com marcação semântica, listagens, etc.

  • … Mas é preciso especificar qual tipo de XML (qual DTD) num projeto desses… Por exemplo nas revistas científicas é o XML JATS, e nas materias legislativas (leis, decretos e portarias) de um Diário Oficial poderia ser o XML LexML, mas fica a dúvida sobre qual padrão consagrado usar nas matérias não-legislativas.

  • … citam a INDA como se fosse um padrão, mas INDA é um grupo e nunca publicou uma DTD de XML — alias seria retrocesso criar um padrão próprio, há que se adotar ou adaptar um padrão já existente no mercado, como fez o SciELO ao adotar o JATS depois de muita briga e insistência da comunidade.

Enquanto não disserem qual o tipo de XML e como (e se!) será disponibilizado o XML… e se esse XML preservará a interoperabilidade com LexML (ex. identificar matérias por URNs Lex)… fico com meu pé atrás :wink:

2 Likes

Boa noticia.

Mas eu sou da opinião que esperar para que os governos providenciem os dados em formato de fácil digestão não e uma opção, e que a gente tem que trabalhar com a premissa que dados serão sujos e precisam ser tratados.
Eu prefiro ver mais ação por parte da comunidade em criar ferramentas usando técnicas modernas de reconhecimento de padrão e analise semântica para coletar a informação seja ela onde estiver, e em que formato for, e torna-la de fácil acesso, de visualização intuitiva, e de uso universal.

Existe alguma iniciativa dessas rodando por ai?

Marco

Olá @JaTvoiRabotnik, sim existem ferramentas (alias desde 1997!), tento citar algumas mas são centenas,

Mas nada se compara a conteúdo minimamente padronizado. Qualquer uma dessas ferramentas passa dos ~60% a 70% de acerto num conteúdo ruim, para 95% a 100% no conteúdo minimamente padronizado.


Por incrível que pareça a questão da padronização dos Diários Oficiais foi primeiro resolvida pelo próprio governo com a iniciativa do LexML… E, mais incrível ainda, e uma lástima, a própria OKBr e dezenas de outras ONGs e focos de “ação por parte da comunidade” ignoraram e deixam até hoje passar essa oportunidade… Que tal levarmos isso mais a sério em 2017?

Cumprir padrões torna os processos mais simples, escalonáveis e baratos: simples a ponto de poderem ser realizados por Microempreendedores Individuais - MEIs ou redes de MEIs, descentralizadamente, a baixíssimo custo, usando processos modernos.
Exemplo: um Diário Oficial como o de Campinas, totalmente online, teria seu custo reduzido de ~R$50mil, para ~R$5mil.

… A ignorância é de fato a pedra no nosso sapato: é preciso que a “ação por parte da comunidade” faça lição de casa, valorize o que há de bom nos padrões ePING e no LexML…
Então Bastaria exigir que Prefeituras e Câmaras Municipais cumpram esses padrões (só isso!), fixados pelo próprio governo, oficialmente desde 2009.

1 Like

Ah, @ppkrauss valeu pelos links.

Eu tenho usado os dados do Diario Livre, e estou no momento trabalhando para tratar os texto. Minha intencao era de fazer uma interpretacao lexica completa, mas ainda tem muito chao pra chegar la. Por enquanto estou so tentando extrair alguma informacao especifica do Diario Oficial do municipio de Sao Paulo, me concentrando no momento em extrair informacao de endereco, pra mostrar em um mapa. Pode ver minhas exploracoes humildes aqui.

Como exigir que as camaras municipais cumpram os padroes? Pelo menos o municipio de Sao Paulo e das outras grandes cidades tem um diario oficial, mas e os pequenos municipios? Uma amiga minha que trabalha no MP me disse que eles publicam informacoes de licitacoes etc nos jornais locais. E sao nesses municipios pequenos onde muitas das fraudes ocorrem. Teriamos que criar crawlers nessas publicacoes e extrair a informacao, ou voce acha que e mais facil o caminho da pressao popular para que eles tambem padronizem?

P.S.: Achei muito ironico que o schema proposto do LEXML Brasil esta em um arquivo pdf

Olá.

E muito bom ver o interesse na publicação de dados do Diário Oficial da União. @ppkrauss, achei muito útil e interessante essa lista de projetos da OKBr que se beneficiarão com a abertura de dados. Informações como essa são muito importantes para justificar os custos e obter priorização para os órgãos que planejam publicar dados abertos.

A INDA não define os próprios padrões técnicos, e sim segue os que estão na e-PING. Quando é identificada a necessidade de incorporar um novo padrão técnico para atender a uma necessidade relacionada a dados abertos, este é proposto no âmbito da e-PING. De fato, não faria sentido manter dois conjuntos de padrões em paralelo.

Isso está referenciado também na Instrução Normativa SLTI/MP nº 4, de 12 de abril de 2012, que instituiu a INDA:

Na e-PING, por sua vez, há bastante tempo, está estabelecido o LexML como padrão para legislação, jurisprudência e proposições legislativas:

Assim, em tese, esse padrão terá que ser observado quando da realização do projeto de abertura de dados. Entretanto, é sempre bom provocar, reivindicar e lembrar para que o órgão, no caso, a Imprensa Nacional, de fato siga o padrão durante a execução do projeto. No documento do PDA constam os nomes e e-mails dos pontos focais do projeto. Acho que vale entrar em contato e até convidar para que participem de discussões como essa com os reais e os potenciais utilizadores dos dados.

2 Likes

Olá @herrmann, ótimo ter alguém aqui com esse grau de conhecimento das iniciativas oficiais brasileiras. Aproveito a sua deixa,

No documento do PDA constam os nomes e e-mails dos pontos focais do projeto. Acho que vale entrar em contato e até convidar para que participem de discussões como essa com os reais e os potenciais utilizadores dos dados

para pedir para o @arielkogan entrar em contato em nome da OKBr… Se o papo for positivo pode até ir além e sugerir que a OKBr faça parte da comissão de desenvolvimento do PDA. Eu desde já me disponho a ajudar.
… Que acham? Ariel?

1 Like

Pelo que conheço da cultura organizacional dos órgãos públicos, acho muito difícil algum órgão aceitar que pessoas externas participem do grupo de trabalho que elabora o PDA, embora pessoalmente eu ache isso uma ideia interessante. O que alguns órgãos fazem, e nós da STI/MP recomendamos isso a todos, é realizar uma consulta pública da minuta do PDA antes de publicá-lo.

No caso da Imprensa Nacional, o PDA já foi publicado. Posso estar enganado, mas acho que nesse caso não houve consulta pública sobre o conteúdo do PDA. De qualquer forma, nas reuniões que temos com os órgãos, sempre salientamos a importância de se manter aberto um canal de diálogo com a sociedade, dando especial atenção aos utilizadores dos dados que o órgão publica.

A lista dos Planos de Dados Abertos já publicados por órgãos integrantes da INDA está na wiki da INDA, totalizando 27 até o momento.

@ppkrauss acho uma boa ideia. Como sugere proceder?

Olá @Ariel, que ótimo!

Como sugere proceder?

Acho que vale rascunhar um plano de ação, pode ser ainda aqui antes de formalizarmos internamente os detalhes.


Rascunho dos procedimentos (ou “plano de ação”) no contato com autoridades do PDA:

  1. o contato é o primeiro passo, e já tendo em vista um perfil de expectativa conforme traçado pelo @herrmann. Ele também lembrou que os e-mails foram publicados, então o contato do Diretor da OKBr por e-mail seria esse primeiro passo.
    Sugiro esperar no máximo uma semana para “sinais de vida” e então telefonar, referenciando o email.

  2. (enquanto aguarda passo-1) Esboçar uma ou duas das propostas aqui aventadas, para apresentar informalmente nos primeiros contatos.
    … Bom já podemos fazer isso aqui inclusive (!). Imagino as seguintes tentativas, nessa ordem:

    2.1. A OKBr tenta participar do PDA, se não for possível, tenta item seguinte;

    2.2. A OKBr solicita Consulta Pública para os documentos já publicados e para decisões ainda em processo, se não for possível, tenta item seguinte;

    2.3. … no fundo queremos apenas conhecer melhor (através da interação e não apenas leitura passiva), dar palpites e solicitar transparência…

  3. Avançar no que for possível (burocracias para o que vier a conquistar no passo-2)…
    E voltar aqui no DiscussOKBr para dizer o que aconteceu, e decidirmos próximos passos… Se tudo bem até aqui, será:

    3.1. Eleger/designar um representante da OKBr, que assumirá responsabilidade pelo restante do plano de ação.

  4. … O Diretor da OKBr passa definitivamente a bola para quem assumiu essa responsabilidade …

1 Like

Atualizando todos,
entramos em contato com o Comitê Gestor de Dados Abertos da Imprensa Nacional por e-mail, final do ano passado, e responderam superficialmente esse ano, num breve diálogo. Elogiamos o uso de formatos abertos e interoperabilidade… Mas eles confirmaram, como previa o @herrmann, que “Infelizmente não há previsão de participação de representantes externos à Imprensa Nacional”. Ademais, segundo o Comitê,

A partir da implantação da nova plataforma editorial na Imprensa Nacional, as matérias do DOU serão disponibilizadas individualmente em formato XML ou HTML, além das versão completa do DOU nos formatos XML, HTML e PDF.

Na imprensa divulgaram para este mês (!) o lançamento do “novo DOU digital”.


Outra coisa interessante acontecendo é que o Diário Oficial do Município (DOM) de São Paulo hoje deixou de ser publicado em papel, citando um projeto da USP apoiado pela OKBR, o Diário Livre, como melhor forma de consulta.

Vem a reforçar a nossa iniciativa, desde o ano passado, de retomar e generalizar o uso do Diário Livre através do projeto queriDO, também por coincidência anunciado hoje no blog da OKBr.

1 Like

A informação que tenho é que a Imprensa Oficial do Estado de São Paulo disponibiliza um serviço à prefeitura onde eles entram via terminal licitações etc. Ou seja, as matérias são entradas individualmente numa base de dados da própria imprensa, que então segue para a publicação. Portanto faria mais sentido uma aproximação com a Imprensa, pois a prefeitura só tem acesso ao diário em uma forma completa e estruturada por meio deles.

Acredito que seria mais proveitoso ganhar alguma influência com a Imprensa Oficial para, no mínimo, pleitear acesso a uma API que retorne matérias estruturadas. Idealmente gostaríamos também de influenciar o formato dessa estrutura, mas acho que, dado a resposta acima, isso seria mais complicado.

Oi @JaTvoiRabotnik, só esclarecer que DOU e DOM são coisas distintas, apenas o DOM da capital de SP está vinculado à Imprensa Oficial do Estado… apesar de historicamente ter produzido o DOU. Aparentemente o que temos hoje é:

  • DOU principal: imprensanacional.gov.br é do Governo, autarquia (tem autonomia).

  • DOU, antigo prestador (distribuidor?) complementar: Juridica Diarios e Publicacoes Ltda (CNPJ 17.292.293/0001-20)

  • DOM-capital, Estado: Imprensa Oficial do Estado S/A (CNPJ 48.066.047/0001-84), mais autonomia que autarquia, aparentemente é empresa pública-privada, como a IMA do DOM-Campinas.

Sim, faz sentido dialogar com elas, mas como prestadores de serviço “tradicionalíssimo” (até ontem produziam apenas PDF e papel), e sendo monopólios, ou seja, respeitam apenas o que consta em contrato, não a algum tipo de “pressão da concorrência”… É necessário também intervir na origem desses contratos: os poderes executivo (prefeitura) e legislativo (câmara) podem determinar modificações no texto desses contratos e das tradições.

A nossa lição de casa talvez seja apenas conferir se essas empresas possuem infraestrutura para XML-Publishing em padrões abertos.

E as esperanças de trazer de novo para avaliação o PL 7804/2014 que institui a Lei de Dados Abertos, estabelecendo o Comitê Gestor de Dados Público junto ao Ministério do Planejamento?

Ele prevê a publicação de dados primários, Depois de 2 anos teve Parecer do Relator mas parou na Comissão de Ciência e Tecnologia, Comunicação e Informática ( CCTCI ), está la como retirado de pauta, de ofício em 18/10/2016.

Peticionar?

http://www.camara.gov.br/proposicoesWeb/fichadetramitacao?idProposicao=620193

3 Likes

Olá, enfim postando uma boa notícia!

Um pouco de historia e contextualização do processo.

A Imprensa Nacional (IN) já havia quase abandonado o seu PDA, assim como o diálogo com os setores dentro e fora do governo interessados na interoperabilidade dos conteúdos oficiais produzidos por ela… Então em algum momento de 2017 houveram “mudanças de percurso” na Casa Civil da Presidência, que é o orgão responsável pela contratação dos serviços da IN,… Uma das pessoas-chave certamente foi o Caio, que já vinha fazendo campanha pelo HTML com esta ótima apresentação. Tivemos a chance de nos reunir com ele, expressar um pouco da nossa visão sobre os padrões de interoperabilidade (HTML5, LexML e SchemaOrg)… E ouvir dele a promessa de que uma bela manhã de novembro tudo seria diferente: aconteceu!

Neste meio tempo houveram alinhamentos com a coordenação do LexML, principalmente no que se refere aos metadados mínimos para a formação das URNs LEX, que já podem vir marcados no HTML5, de forma auditável, com schema.org/Legislation… E também, nós, um pequeno grupo que aguarda mais voluntários (!), iniciamos com o LexML os preparativos para ampliar a infra-estrutura e receber de braços abertos outros tipos de documento (ex. contratos ainda não são registrados no LexML.gov.br) e de autoridade (por exemplo das diversas secretarias nas prefeituras), GitHub - lexml/lexml-vocabulary: Vocabulários do Projeto LexML


Enfim, o DOU deu um imenso passo para frente: os ânimos e a crença num futuro melhor voltaram, o momento é oportuno para nos organizarmos,

  • para cada prefeitura também dar, localmente, o seus primeiros passos, com seu respectivo diário oficial municipal;

  • para outros poderes (Judiciário e Legislativo) apoiarem as iniciativas de que se beneficiam, e as iniciativas que preparam outros passos;

  • para todos juntos, inclusive nós consultores independentes, participarem da formulação dos padrões, e dos datasets que subsidiam os padrões;

  • para a sociedade civil particiar, pressionar por consultas públicas, contratos de serviços (está se formando uma indústria de conversão HTML retroativa para popular os acervos) mais pulverizados, uso de CMSs e processos de publicação mais baratos, etc.

1 Like

oi @ppkrauss,

você tem alguma notícia sobre o PDA da imprensa nacional para o biênio 2018/2019? esse que acaba agora parece que só deu frutos nos últimos minutos do segundo tempo, esperemos que o próximo não seja assim!

sabe também se temos alguma previsão de quando poderemos baixar as notícias em bulk pelo dados.gov.br?


bruno cuconato
DOliberto

Ao contrário do que diz a crença popular, a Imprensa Nacional não é uma autarquia, e sim uma unidade administrativa da Casa Civil da Presidência da República. Outros exemplos de unidades administrativas que as pessoas frequentemente pensam, equivocadamente, que são autarquias são o Departamento de Política Federal, a Receita Federal do Brasil, a Secretaria do Tesouro Nacional, o Instituto Nacional de Pesquisas Espaciais, e muitos outros. Para conferir o status de alguma unidade ou órgão público, pode-se consultar a fonte oficial para isso, que é o SIORG (que tem também dados abertos com API).

Sendo uma unidade administrativa da Casa Civil, em tese a Imprensa Nacional não deveria ter PDA, e sim ter ações inclusas no PDA da Casa Civil. Entretanto, foi feito em separado a informação que foi apresentada ao Comitê Gestor da INDA, como pode-se ver pelas atas registradas na wiki, é que será feito um novo PDA em separado.

A IN já possui uma organização no portal e tem pessoas cadastradas com acesso. Acredito que em breve devam fazer a catalogação, até porque a CGU, que monitora o cumprimento do PDA, só considera o PDA como executado a partir da catalogação no portal, conforme o art. 8º da Resolução nº 3 do CGINDA.

obrigado pelas referências, @herrmann!

a questão então é que dados e em que quantidade serão publicados pela IN (i.e., só os de 2016 pra cá, talvez?)

até porque a CGU, que monitora o cumprimento do PDA, só considera o PDA como executado a partir da catalogação no portal, conforme o art. 8º da Resolução nº 3 do CGINDA.

muito bom que seja assim, bem pensado!

Ótima thread de discussão!

Estou em um time trabalhando junto com o pessoal da Imprensa para tentar disponibilizar os artigos de 2002 a 2017 em formato XML. Estamos em um estágio bem avançado.

O projeto é open source e está disponível no GitHub (GitHub - fcatae/PdfTextReader).

Estamos trabalhando apenas na parte bruta de extrair os dados dos PDF e, por isso, seguiremos o schema da ferramenta interna de editoração (Good News) para manter a compatibilidade. Entretanto, o XML gerado é um tanto antiquado e certamente a definição de um padrão “moderno” seria ótimo. Detalhes do schema em Gerar XML seguindo o schema do GoodNews · Issue #78 · fcatae/PdfTextReader · GitHub.

Sugestões são bem vindas e acredito que o próprio pessoal da Imprensa está aberto a ouvir.

1 Like