La Hemeroteca Digital de la Biblioteca Nacional de España tiene como objetivo la consulta y difusión pública a través de Internet del Patrimonio Bibliográfico Español conservado en la biblioteca. Desde la Hemeroteca Digital, la cual forma parte del proyecto Biblioteca Nacional Hispánica, puede descargarse, de manera gratuita y en formatos abiertos, libres y reutilizables, el texto completo de las publicaciones en dominio público.

Disponer de estos los textos permite aplicar sobre ellos tecnologías de procesamiento de lenguaje natural y otras nuevas herramientas propias de las llamadas humanidades digitales, cuyo uso está cada vez más generalizado. […] La iniciativa se plantea como una actividad abierta a la colaboración, un punto de partida para encontrar líneas de experimentación, trabajo y explotación de estos datos, como recurso de valor en campos como el procesamiento del lenguaje natural, la investigación académica o el desarrollo de software. [Biblioteca Nacional de España: La Hemeroteca Digital, descargable y reutilizable]

Este nuevo servicio pretende impulsar la investigación y la reutilización del patrimonio digital de la Biblioteca Nacional de España. Además, sigue la línea específica de trabajo centrada en el análisis, apertura y publicación de los datos que la BNE genera, en formatos abiertos y reutilizables y siguiendo políticas y estándares RISP (Reutilización de la Información del Sector Público).

La página habilitada desde la Biblioteca Nacional de España dispone de más 2000 cabeceras de prensa en dominio público, de las cuales es posible descarga el texto completo de cada una de las publicaciones y utilizarlos libremente para su análisis, procesamiento o reutilización.

Los textos que se ofrecen proceden del reconocimiento óptico de caracteres (OCR) que se realiza en el momento de la digitalización. […] Se ha hecho un esfuerzo por transformar los registros en formatos libres, y accesibles para público no estrictamente bibliotecario. De este modo, se ha realizado una adaptación a formatos como JSON, CSV, ODS, TXT o XML. Todos los datos se actualizan periódicamente.

Descarga texto Hemeroteca Digital Biblioteca Nacional de España

Imagen superior cortesía de Shutterstock