¿Extracción de títulos de archivos PDF?

Quiero escribir un script para cambiar el nombre de los documentos descargados con sus títulos automáticamente, me pregunto si hay alguna biblioteca o trucos que pueda utilizar. Los PDF son todos generados por TeX y deben tener algunas estructuras 'formales'.¿Extracción de títulos de archivos PDF?

Fuente

2009-05-26 ZelluX

¿De dónde obtiene el título de los archivos PDF? ¿Es necesario extraer esa información de las propiedades del documento PDF o del contenido de PDF o está extrayendo esa información de alguna otra fuente? – Rowan

Posible duplicado de [Extraer información de archivos PDF de trabajos de investigación] (http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers) – Seanny123

Puede intentar usar pyPdf y this example.

por ejemplo:

from pyPdf import PdfFileWriter, PdfFileReader 

def get_pdf_title(pdf_file_path): 
    with open(pdf_file_path) as f: 
     pdf_reader = PdfFileReader(f) 
     return pdf_reader.getDocumentInfo().title 

title = get_pdf_title('/home/user/Desktop/my.pdf')

Fuente

2009-05-26 16:58:14 schnaader

para mí 'title = untitled' – ar2015

pyPdf .utils.PdfReadError: marcador EOF no encontrado – Victor

Probablemente comenzaría con perl (ya que siempre es lo primero que busco). Hay several modules for handling PDFs. Si tiene una estructura consistente, podría usar expresiones regulares para enganchar los títulos.

Fuente

2009-05-26 16:58:14 moshen

puede probar a usar iText con Jython

Fuente

2009-05-26 17:00:36 northpole

suponiendo que todos estos documentos son de arXiv, en su lugar podría extraer el identificador de arXiv (supongo que la búsqueda de "arXiv:" en el texto del PDF revelaría consistentemente la identificación como primer golpe).

Una vez que tenga el número de referencia arXiv (y ha hecho un pip install arxiv), se puede obtener el título utilizando

paper_ref = '1501.00730' 
arxiv.query(id_list=[paper_ref])[0].title

Fuente

2018-01-24 08:45:54 AndyP

¿Extracción de títulos de archivos PDF?

Respuesta

Cuestiones relacionadas