Dados do Diário Oficial da União serão publicados em formato aberto

Ah, @ppkrauss valeu pelos links.

Eu tenho usado os dados do Diario Livre, e estou no momento trabalhando para tratar os texto. Minha intencao era de fazer uma interpretacao lexica completa, mas ainda tem muito chao pra chegar la. Por enquanto estou so tentando extrair alguma informacao especifica do Diario Oficial do municipio de Sao Paulo, me concentrando no momento em extrair informacao de endereco, pra mostrar em um mapa. Pode ver minhas exploracoes humildes aqui.

Como exigir que as camaras municipais cumpram os padroes? Pelo menos o municipio de Sao Paulo e das outras grandes cidades tem um diario oficial, mas e os pequenos municipios? Uma amiga minha que trabalha no MP me disse que eles publicam informacoes de licitacoes etc nos jornais locais. E sao nesses municipios pequenos onde muitas das fraudes ocorrem. Teriamos que criar crawlers nessas publicacoes e extrair a informacao, ou voce acha que e mais facil o caminho da pressao popular para que eles tambem padronizem?

P.S.: Achei muito ironico que o schema proposto do LEXML Brasil esta em um arquivo pdf

Olá.

E muito bom ver o interesse na publicação de dados do Diário Oficial da União. @ppkrauss, achei muito útil e interessante essa lista de projetos da OKBr que se beneficiarão com a abertura de dados. Informações como essa são muito importantes para justificar os custos e obter priorização para os órgãos que planejam publicar dados abertos.

A INDA não define os próprios padrões técnicos, e sim segue os que estão na e-PING. Quando é identificada a necessidade de incorporar um novo padrão técnico para atender a uma necessidade relacionada a dados abertos, este é proposto no âmbito da e-PING. De fato, não faria sentido manter dois conjuntos de padrões em paralelo.

Isso está referenciado também na Instrução Normativa SLTI/MP nº 4, de 12 de abril de 2012, que instituiu a INDA:

Na e-PING, por sua vez, há bastante tempo, está estabelecido o LexML como padrão para legislação, jurisprudência e proposições legislativas:

Assim, em tese, esse padrão terá que ser observado quando da realização do projeto de abertura de dados. Entretanto, é sempre bom provocar, reivindicar e lembrar para que o órgão, no caso, a Imprensa Nacional, de fato siga o padrão durante a execução do projeto. No documento do PDA constam os nomes e e-mails dos pontos focais do projeto. Acho que vale entrar em contato e até convidar para que participem de discussões como essa com os reais e os potenciais utilizadores dos dados.

2 Likes

Olá @herrmann, ótimo ter alguém aqui com esse grau de conhecimento das iniciativas oficiais brasileiras. Aproveito a sua deixa,

No documento do PDA constam os nomes e e-mails dos pontos focais do projeto. Acho que vale entrar em contato e até convidar para que participem de discussões como essa com os reais e os potenciais utilizadores dos dados

para pedir para o @arielkogan entrar em contato em nome da OKBr… Se o papo for positivo pode até ir além e sugerir que a OKBr faça parte da comissão de desenvolvimento do PDA. Eu desde já me disponho a ajudar.
… Que acham? Ariel?

1 Like

Pelo que conheço da cultura organizacional dos órgãos públicos, acho muito difícil algum órgão aceitar que pessoas externas participem do grupo de trabalho que elabora o PDA, embora pessoalmente eu ache isso uma ideia interessante. O que alguns órgãos fazem, e nós da STI/MP recomendamos isso a todos, é realizar uma consulta pública da minuta do PDA antes de publicá-lo.

No caso da Imprensa Nacional, o PDA já foi publicado. Posso estar enganado, mas acho que nesse caso não houve consulta pública sobre o conteúdo do PDA. De qualquer forma, nas reuniões que temos com os órgãos, sempre salientamos a importância de se manter aberto um canal de diálogo com a sociedade, dando especial atenção aos utilizadores dos dados que o órgão publica.

A lista dos Planos de Dados Abertos já publicados por órgãos integrantes da INDA está na wiki da INDA, totalizando 27 até o momento.

@ppkrauss acho uma boa ideia. Como sugere proceder?

Olá @Ariel, que ótimo!

Como sugere proceder?

Acho que vale rascunhar um plano de ação, pode ser ainda aqui antes de formalizarmos internamente os detalhes.


Rascunho dos procedimentos (ou “plano de ação”) no contato com autoridades do PDA:

  1. o contato é o primeiro passo, e já tendo em vista um perfil de expectativa conforme traçado pelo @herrmann. Ele também lembrou que os e-mails foram publicados, então o contato do Diretor da OKBr por e-mail seria esse primeiro passo.
    Sugiro esperar no máximo uma semana para “sinais de vida” e então telefonar, referenciando o email.

  2. (enquanto aguarda passo-1) Esboçar uma ou duas das propostas aqui aventadas, para apresentar informalmente nos primeiros contatos.
    … Bom já podemos fazer isso aqui inclusive (!). Imagino as seguintes tentativas, nessa ordem:

    2.1. A OKBr tenta participar do PDA, se não for possível, tenta item seguinte;

    2.2. A OKBr solicita Consulta Pública para os documentos já publicados e para decisões ainda em processo, se não for possível, tenta item seguinte;

    2.3. … no fundo queremos apenas conhecer melhor (através da interação e não apenas leitura passiva), dar palpites e solicitar transparência…

  3. Avançar no que for possível (burocracias para o que vier a conquistar no passo-2)…
    E voltar aqui no DiscussOKBr para dizer o que aconteceu, e decidirmos próximos passos… Se tudo bem até aqui, será:

    3.1. Eleger/designar um representante da OKBr, que assumirá responsabilidade pelo restante do plano de ação.

  4. … O Diretor da OKBr passa definitivamente a bola para quem assumiu essa responsabilidade …

1 Like

Atualizando todos,
entramos em contato com o Comitê Gestor de Dados Abertos da Imprensa Nacional por e-mail, final do ano passado, e responderam superficialmente esse ano, num breve diálogo. Elogiamos o uso de formatos abertos e interoperabilidade… Mas eles confirmaram, como previa o @herrmann, que “Infelizmente não há previsão de participação de representantes externos à Imprensa Nacional”. Ademais, segundo o Comitê,

A partir da implantação da nova plataforma editorial na Imprensa Nacional, as matérias do DOU serão disponibilizadas individualmente em formato XML ou HTML, além das versão completa do DOU nos formatos XML, HTML e PDF.

Na imprensa divulgaram para este mês (!) o lançamento do “novo DOU digital”.


Outra coisa interessante acontecendo é que o Diário Oficial do Município (DOM) de São Paulo hoje deixou de ser publicado em papel, citando um projeto da USP apoiado pela OKBR, o Diário Livre, como melhor forma de consulta.

Vem a reforçar a nossa iniciativa, desde o ano passado, de retomar e generalizar o uso do Diário Livre através do projeto queriDO, também por coincidência anunciado hoje no blog da OKBr.

1 Like

A informação que tenho é que a Imprensa Oficial do Estado de São Paulo disponibiliza um serviço à prefeitura onde eles entram via terminal licitações etc. Ou seja, as matérias são entradas individualmente numa base de dados da própria imprensa, que então segue para a publicação. Portanto faria mais sentido uma aproximação com a Imprensa, pois a prefeitura só tem acesso ao diário em uma forma completa e estruturada por meio deles.

Acredito que seria mais proveitoso ganhar alguma influência com a Imprensa Oficial para, no mínimo, pleitear acesso a uma API que retorne matérias estruturadas. Idealmente gostaríamos também de influenciar o formato dessa estrutura, mas acho que, dado a resposta acima, isso seria mais complicado.

Oi @JaTvoiRabotnik, só esclarecer que DOU e DOM são coisas distintas, apenas o DOM da capital de SP está vinculado à Imprensa Oficial do Estado… apesar de historicamente ter produzido o DOU. Aparentemente o que temos hoje é:

  • DOU principal: imprensanacional.gov.br é do Governo, autarquia (tem autonomia).

  • DOU, antigo prestador (distribuidor?) complementar: Juridica Diarios e Publicacoes Ltda (CNPJ 17.292.293/0001-20)

  • DOM-capital, Estado: Imprensa Oficial do Estado S/A (CNPJ 48.066.047/0001-84), mais autonomia que autarquia, aparentemente é empresa pública-privada, como a IMA do DOM-Campinas.

Sim, faz sentido dialogar com elas, mas como prestadores de serviço “tradicionalíssimo” (até ontem produziam apenas PDF e papel), e sendo monopólios, ou seja, respeitam apenas o que consta em contrato, não a algum tipo de “pressão da concorrência”… É necessário também intervir na origem desses contratos: os poderes executivo (prefeitura) e legislativo (câmara) podem determinar modificações no texto desses contratos e das tradições.

A nossa lição de casa talvez seja apenas conferir se essas empresas possuem infraestrutura para XML-Publishing em padrões abertos.

E as esperanças de trazer de novo para avaliação o PL 7804/2014 que institui a Lei de Dados Abertos, estabelecendo o Comitê Gestor de Dados Público junto ao Ministério do Planejamento?

Ele prevê a publicação de dados primários, Depois de 2 anos teve Parecer do Relator mas parou na Comissão de Ciência e Tecnologia, Comunicação e Informática ( CCTCI ), está la como retirado de pauta, de ofício em 18/10/2016.

Peticionar?

http://www.camara.gov.br/proposicoesWeb/fichadetramitacao?idProposicao=620193

3 Likes

Olá, enfim postando uma boa notícia!

Um pouco de historia e contextualização do processo.

A Imprensa Nacional (IN) já havia quase abandonado o seu PDA, assim como o diálogo com os setores dentro e fora do governo interessados na interoperabilidade dos conteúdos oficiais produzidos por ela… Então em algum momento de 2017 houveram “mudanças de percurso” na Casa Civil da Presidência, que é o orgão responsável pela contratação dos serviços da IN,… Uma das pessoas-chave certamente foi o Caio, que já vinha fazendo campanha pelo HTML com esta ótima apresentação. Tivemos a chance de nos reunir com ele, expressar um pouco da nossa visão sobre os padrões de interoperabilidade (HTML5, LexML e SchemaOrg)… E ouvir dele a promessa de que uma bela manhã de novembro tudo seria diferente: aconteceu!

Neste meio tempo houveram alinhamentos com a coordenação do LexML, principalmente no que se refere aos metadados mínimos para a formação das URNs LEX, que já podem vir marcados no HTML5, de forma auditável, com schema.org/Legislation… E também, nós, um pequeno grupo que aguarda mais voluntários (!), iniciamos com o LexML os preparativos para ampliar a infra-estrutura e receber de braços abertos outros tipos de documento (ex. contratos ainda não são registrados no LexML.gov.br) e de autoridade (por exemplo das diversas secretarias nas prefeituras), GitHub - lexml/lexml-vocabulary: Vocabulários do Projeto LexML


Enfim, o DOU deu um imenso passo para frente: os ânimos e a crença num futuro melhor voltaram, o momento é oportuno para nos organizarmos,

  • para cada prefeitura também dar, localmente, o seus primeiros passos, com seu respectivo diário oficial municipal;

  • para outros poderes (Judiciário e Legislativo) apoiarem as iniciativas de que se beneficiam, e as iniciativas que preparam outros passos;

  • para todos juntos, inclusive nós consultores independentes, participarem da formulação dos padrões, e dos datasets que subsidiam os padrões;

  • para a sociedade civil particiar, pressionar por consultas públicas, contratos de serviços (está se formando uma indústria de conversão HTML retroativa para popular os acervos) mais pulverizados, uso de CMSs e processos de publicação mais baratos, etc.

1 Like

oi @ppkrauss,

você tem alguma notícia sobre o PDA da imprensa nacional para o biênio 2018/2019? esse que acaba agora parece que só deu frutos nos últimos minutos do segundo tempo, esperemos que o próximo não seja assim!

sabe também se temos alguma previsão de quando poderemos baixar as notícias em bulk pelo dados.gov.br?


bruno cuconato
DOliberto

Ao contrário do que diz a crença popular, a Imprensa Nacional não é uma autarquia, e sim uma unidade administrativa da Casa Civil da Presidência da República. Outros exemplos de unidades administrativas que as pessoas frequentemente pensam, equivocadamente, que são autarquias são o Departamento de Política Federal, a Receita Federal do Brasil, a Secretaria do Tesouro Nacional, o Instituto Nacional de Pesquisas Espaciais, e muitos outros. Para conferir o status de alguma unidade ou órgão público, pode-se consultar a fonte oficial para isso, que é o SIORG (que tem também dados abertos com API).

Sendo uma unidade administrativa da Casa Civil, em tese a Imprensa Nacional não deveria ter PDA, e sim ter ações inclusas no PDA da Casa Civil. Entretanto, foi feito em separado a informação que foi apresentada ao Comitê Gestor da INDA, como pode-se ver pelas atas registradas na wiki, é que será feito um novo PDA em separado.

A IN já possui uma organização no portal e tem pessoas cadastradas com acesso. Acredito que em breve devam fazer a catalogação, até porque a CGU, que monitora o cumprimento do PDA, só considera o PDA como executado a partir da catalogação no portal, conforme o art. 8º da Resolução nº 3 do CGINDA.

obrigado pelas referências, @herrmann!

a questão então é que dados e em que quantidade serão publicados pela IN (i.e., só os de 2016 pra cá, talvez?)

até porque a CGU, que monitora o cumprimento do PDA, só considera o PDA como executado a partir da catalogação no portal, conforme o art. 8º da Resolução nº 3 do CGINDA.

muito bom que seja assim, bem pensado!

Ótima thread de discussão!

Estou em um time trabalhando junto com o pessoal da Imprensa para tentar disponibilizar os artigos de 2002 a 2017 em formato XML. Estamos em um estágio bem avançado.

O projeto é open source e está disponível no GitHub (GitHub - fcatae/PdfTextReader).

Estamos trabalhando apenas na parte bruta de extrair os dados dos PDF e, por isso, seguiremos o schema da ferramenta interna de editoração (Good News) para manter a compatibilidade. Entretanto, o XML gerado é um tanto antiquado e certamente a definição de um padrão “moderno” seria ótimo. Detalhes do schema em Gerar XML seguindo o schema do GoodNews · Issue #78 · fcatae/PdfTextReader · GitHub.

Sugestões são bem vindas e acredito que o próprio pessoal da Imprensa está aberto a ouvir.

1 Like

Olá @fcatae, muito prazer! Vejo que você e a Microsoft-Brasil arregaçaram as mangas, que boa notícia.

Adquirimos uma certa experiência com o projeto do Domingos, baseado no Poppler… Acho que vale agendar com interessados (me incluo) um Hangout (Appear.in ou outro que não seja Skype) para um primeiro alinhamento e avaliar como podemos ajudar. Temos sugestões também de geração de dados intermediários para auditoria, integridade e controle da qualidade.


@odanoburu, sobre o que comentou,

a questão então é que dados e em que quantidade serão publicados pela IN (i.e., só os de 2016 pra cá, talvez?)

Acho que o @fcatae responde em parte:

  • O “conteúdo gêmeo” das matérias (HTML+PDF) tem sua origem num XML, e esse XML está já disponível abertamente no link indicado. Dá para fazer muita coisa interessante com isso, e até convido interessados a apoiarem montagem de um servidor para análises estatísticas e testes com conversões XSLT.
    Sim, por hora é limitado ao período de produção HTML, que iniciou ano passado.

  • A “conversão retrospectiva para XML” é o desafio que o Fabrício mostra no Github. Precisa converter todo o legado de PDFs em XMLs… Vai depender dos benchmarks para termos uma ideia de quanto pode ser produzido com essa ferramenta-MS sem interferência humana… Imagino que possam ir soltando aos poucos os XMLs de documentos antigos mais simples, tais como portarias. O uso de recursos humanos na conversão assistida tem custo alto, vai depender de existir algum orçamento federal para isso.
    PS: chega uma hora que o processo de conversão é mais simples usando ferramentas de OCR, e a interação humana no processo é o mesmo tipo. Eventualmente o “Azure Cognitive Services” aprenderia com exemplos, e passaria fazer um papel quase humano: estou também curioso para ver :wink:

1 Like

Desculpa pela demora para responder (a notificação acabou caindo em spam).

Vamos marcar uma conversa sim. Acho que vai ser importante entender o que vocês já fizeram. Toda ajuda aqui é importante.

Infelizmente não acredito que seja possível fazer a conversão 100% automatizada. Um problema que temos agora é como fazer a validação dos documentos, que seria a “operacionalização da conversão assistida”. Por enquanto, estou trabalhando em um WebServer para expor os dados de forma mais simples ao usuário.

Abraços, Fabricio

1 Like

Olá @fcatae! Aproveitei a sua resposta para entrar em contato com o Domingos, que, neste momento é a pessoa-chave aqui do nosso antigo grupo de interesse, para indicar para vocês o melhor caminho, inclusive na validação e avaliação (diff TXT) das suas conversões.

Aqui vai também um relatório geral da situação, a quem possa interessar.


… Das pessoas que colocaram a mão na massa no início de 2017, nenhuma se encontra disponível, serão apenas palpites e dicas quando conversarmos… O Domingos agora está na Espanha, o Marcos no Vietnã e eu comprometido com outros projetos, fora da OKBR.
Outras pessoas como o Andrés, que implementou o Diário Livre, estão também já comprometidas com outras iniciativas fora da OKBR. Sugiro contato com o Andrés para avaliar aspectos do entregável intermediário que você produzir, e das imperfeições tidas como aceitáveis em aplicações de utilidade pública.

Enfim, mesmo para dar dicas temos um probleminha de contexto (você precisa nos relembrar e dar exemplos) e de fuso horário. A Espanha este mês ainda estará 5 horas na nossa frente. Envie e-mail e tentamos sincronizar.

Quem mais quiser está convidado (!), podemos anunciar aqui no Discuss a hora e link da videoconferência.


Comentários e sugestões do Domingos — em email diz que topa a videoconferência se ajustarmos um horário razoável:

Em quanto ao que eu fiz para remapear os “text encodings” dos PDFs que lo omitem, sim podem resolver uma grande parte desses PDFs.

Em linhas gerais (…) se trata de usar o programa fontforge para gerar uma base de dados com os “character encodings” en formato ASCII e fazer o mesmo com os “font subsets” que vem nos PDFs sem “text encoding maps”, e gerar o “text encoding map” e inserir no PDF para então gerar o texto con o pdftotext (poppler) ou outro semelhante.

Este último passo, tentar reconstruir um TXT fiel ao PDF porém livre das colunas de diagramação, foi o objetivo maior e motivação do trabalho do Domingos. Chegou aos ~80% conversão sem falhas no DOU e DOM-SP.


Com 100% de automação, todavia, ficamos um passo antes: o trabalho do Domingos já permite recriar um PDF com char-encode resolvido, e, de brinde, uma das saídas do Poppler (adaptada por ele) gera também algo semelhante a um dump em arquivo CSV (cada PDF internamente é uma tabela de texto-posição).
… Em função disso houve a sugestão de armazenar esse dump de conteúdo fiel em SQL, ao invés de jogar de volta para PDF ou TXT. Propusemos uma arquitetura para o SQL (no PostgreSQL tem opção JSONb-SQL) gerar visualização HTML on-the-fly, buscas, estatísticas, etc. com garantia de fidelidade.

3 Likes

Pessoal eu gostaria muito de participar! Eu nunca trabalhei em nenhum projeto sobre “leitura” de pdf, mas trabalho com scraping e mineração de dados de portais públicos e me interesso bastante por projetos em dados governamentais abertos. Se possível, compartilhem as informações aqui, por favor.

Bons Ventos! Lucas Armand.

1 Like

Pessoal,

um outro projeto que também tratou os mesmos problemas de leitura do PDF do Diário Oficial, inclusive tratando as questões do fluxo de texto pelas colunas, identificação dos atos, autoridades, ementas, etc., é o SIOPLegis. É um projeto da Secretaria de Orçamento Federal, do Ministério do Planejamento, Desenvolvimento e Gestão. Ele foi feito, originalmente, para identificar atos de interesse da SOF para acompanhar o orçamento da União. Entretanto, para identificar esses atos seria necessário identificar todos. Existe uma consulta aos atos identificados por esse processo, que se chama SIOPLegis Visões.

Acredito que o pessoal da Imprensa Nacional já esteja em contato com a SOF e avaliando a possibilidade de utilizar o SIOPLegis. Essas ferramentas podem ser úteis para converter o legado de edições antigas do D.O.U. que só estão disponíveis em PDF.