Quiero escribir un script para cambiar el nombre de los documentos descargados con sus títulos automáticamente, me pregunto si hay alguna biblioteca o trucos que pueda utilizar. Los PDF son todos generados por TeX y deben tener algunas estructuras 'formales'.¿Extracción de títulos de archivos PDF?
13
A
Respuesta
13
Puede intentar usar pyPdf y this example.
por ejemplo:
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
2
Probablemente comenzaría con perl (ya que siempre es lo primero que busco). Hay several modules for handling PDFs. Si tiene una estructura consistente, podría usar expresiones regulares para enganchar los títulos.
2
0
suponiendo que todos estos documentos son de arXiv, en su lugar podría extraer el identificador de arXiv (supongo que la búsqueda de "arXiv:" en el texto del PDF revelaría consistentemente la identificación como primer golpe).
Una vez que tenga el número de referencia arXiv (y ha hecho un pip install arxiv
), se puede obtener el título utilizando
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title
Cuestiones relacionadas
- 1. Extracción simple de texto PDF en Android?
- 2. Extracción de tamaños de página de PDF en Python
- 3. Método de extracción de texto PDF mediante OCR
- 4. extracción de texto Itextsharp
- 5. zlib C++ y extracción de archivos
- 6. Extracción Svn archivos de todos los directorios
- 7. Acceso a archivos de fuentes en PDF
- 8. Creando babosas de títulos?
- 9. Ruby: Lectura de archivos PDF
- 10. desbloquear archivos PDF protegidos
- 11. Rellenar varios archivos PDF
- 12. Combinar archivos PDF C#
- 13. Fusionar archivos PDF
- 14. PDFBox extracción de párrafos
- 15. texto limpio procedente de archivos PDF
- 16. Regla extracción de texto PDF en base a las facturas de los sutiles y facturas
- 17. Java - PDFBox - Extracción de texto
- 18. Parcelas sin títulos/etiquetas en R
- 19. Extracción de información de ruta de glifos desde archivos ttf
- 20. archivos PDF de impresión con PDFsharp
- 21. Eliminación de archivos temporales creados por pdf()
- 22. Extraer texto de archivos PDF en C#
- 23. Combinación de varios archivos PDF usando PDFSharp
- 24. crear un índice de los archivos pdf
- 25. Lectura programática de archivos PDF en C#
- 26. Leyendo datos de archivos PDF en R
- 27. La mejor manera de convertir archivos pdf a archivos tiff
- 28. títulos multipaneles en I
- 29. Generando archivos PDF con PHP
- 30. Columna UIPickerView Títulos
¿De dónde obtiene el título de los archivos PDF? ¿Es necesario extraer esa información de las propiedades del documento PDF o del contenido de PDF o está extrayendo esa información de alguna otra fuente? – Rowan
Posible duplicado de [Extraer información de archivos PDF de trabajos de investigación] (http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers) – Seanny123