2011-02-05 10 views

Respuesta

14

Puedes usar la gema pdf-reader (el ejemplo example/text.rb es simple y funcionó para mí): https://github.com/yob/pdf-reader

O la utilidad de línea de comandos pdftotext.

+0

¿Existe como un buen tipo tutorial de cosas en él? Soy nuevo en ruby, pero copiar código de ejemplo me parece malo – theReverseFlick

+1

No diría que adaptar su ejemplo es algo malo. Aquí hay un tutorial que puede interesarle y explica un poco los conceptos: http://pullmonkey.com/2010/01/18/ruby-pdf-reader-gem-tutorial/ – seeingidog

3

El Yomu gem también podrá extraer el texto de un PDF (así como de otros tipos MIME) por usted.

require 'yomu' 
Yomu.new(file_path).text 
+0

Solicita Java. – Nakilon

+0

He intentado algunas gemas y encontré esto más exacto. –

0

También puede echar un vistazo a DocRipper, una joya mantengo, que proporciona una interfaz de Ruby para la extracción de texto de un número de formatos de documentos como PDF, DOC, DOCX y croquis.

DocRipper utiliza pdftotext bajo el capó y evita las dependencias de Java.

require 'doc_ripper' 

DocRipper::rip('/path/to/file.pdf') => "Pdf text" 

Puede leer archivos remotos usando la biblioteca estándar de Ruby:

require 'open-uri' 
require 'doc_ripper' 

tmp_file = open("some_uri") 
DocRipper::rip(tmp_file.path) 
+0

Hola. ¿Podría indicarnos la sintaxis para usar docripper con enlace a la ruta del archivo en lugar de la ruta del archivo local? – Sagar

+0

@Sagar ¿Te refieres a una ruta de archivo remota? – Paul

+0

si !!! Estoy usando el almacenamiento de Amazon S3, así que tendré solo los enlaces a los archivos. – Sagar