Olá @fcatae! Aproveitei a sua resposta para entrar em contato com o Domingos, que, neste momento é a pessoa-chave aqui do nosso antigo grupo de interesse, para indicar para vocês o melhor caminho, inclusive na validação e avaliação (diff TXT) das suas conversões.
Aqui vai também um relatório geral da situação, a quem possa interessar.
… Das pessoas que colocaram a mão na massa no início de 2017, nenhuma se encontra disponível, serão apenas palpites e dicas quando conversarmos… O Domingos agora está na Espanha, o Marcos no Vietnã e eu comprometido com outros projetos, fora da OKBR.
Outras pessoas como o Andrés, que implementou o Diário Livre, estão também já comprometidas com outras iniciativas fora da OKBR. Sugiro contato com o Andrés para avaliar aspectos do entregável intermediário que você produzir, e das imperfeições tidas como aceitáveis em aplicações de utilidade pública.
Enfim, mesmo para dar dicas temos um probleminha de contexto (você precisa nos relembrar e dar exemplos) e de fuso horário. A Espanha este mês ainda estará 5 horas na nossa frente. Envie e-mail e tentamos sincronizar.
Quem mais quiser está convidado (!), podemos anunciar aqui no Discuss a hora e link da videoconferência.
Comentários e sugestões do Domingos — em email diz que topa a videoconferência se ajustarmos um horário razoável:
Em quanto ao que eu fiz para remapear os “text encodings” dos PDFs que lo omitem, sim podem resolver uma grande parte desses PDFs.
Em linhas gerais (…) se trata de usar o programa fontforge para gerar uma base de dados com os “character encodings” en formato ASCII e fazer o mesmo com os “font subsets” que vem nos PDFs sem “text encoding maps”, e gerar o “text encoding map” e inserir no PDF para então gerar o texto con o pdftotext
(poppler) ou outro semelhante.
Este último passo, tentar reconstruir um TXT fiel ao PDF porém livre das colunas de diagramação, foi o objetivo maior e motivação do trabalho do Domingos. Chegou aos ~80% conversão sem falhas no DOU e DOM-SP.
Com 100% de automação, todavia, ficamos um passo antes: o trabalho do Domingos já permite recriar um PDF com char-encode resolvido, e, de brinde, uma das saídas do Poppler (adaptada por ele) gera também algo semelhante a um dump em arquivo CSV (cada PDF internamente é uma tabela de texto-posição).
… Em função disso houve a sugestão de armazenar esse dump de conteúdo fiel em SQL, ao invés de jogar de volta para PDF ou TXT. Propusemos uma arquitetura para o SQL (no PostgreSQL tem opção JSONb-SQL) gerar visualização HTML on-the-fly, buscas, estatísticas, etc. com garantia de fidelidade.