2011-01-19 24 views

Respuesta

1

Intenta ejecutar "Preflight ..." en Acrobat y elige PDF Analysis -> List page objects, grouped by type of object.

Si encuentra los objetos de texto dentro de la lista de resultados, notará que hay un valor de posición (en puntos) dentro de la sección Text Properties -> * Font.

+0

¿es posible encontrar la posición x, y y la altura, el ancho de cada palabra? – raki

+0

@raki: donde está la posición, el tamaño está justo debajo, pero eso es solo para un bloque de texto, que puede ser cualquier texto arbitrario. Para obtener tamaños de palabra individuales, sería necesario calcular las métricas de fuente. Cuál es el propósito de lo que estás haciendo, puede haber un mejor enfoque. – Orbling

4

Docotic.Pdf Library puedo hacerlo. Ver C# muestra a continuación:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf", "password_if_need")) 
{ 
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData()) 
     Console.WriteLine(textData.Position + " " + textData.Text); 
} 
1

TET, el kit de herramientas de extracción de texto de la pdflib familia de productos puede hacer eso. TET tiene una interfaz de línea de comandos, y es la más poderosa de todas las herramientas de extracción de texto que conozco. (Incluso puede manejar ligaduras ...)

Geometría
TET proporciona métricas precisas para el texto, tales como la posición en la página, ancho de los signos, y la dirección del texto. Las áreas específicas en la página se pueden excluir o incluir en la extracción de texto, p. ignorar encabezados y pies de página o márgenes.

Cuestiones relacionadas