Así que el estado en el que estoy lanzó varios datos en formato PDF, pero para empeorar las cosas, ¿la mayoría (todos?) De los PDF parecen ser letras escritas en Office, impresas/fax, y luego escaneado (nuestro gobierno en su mejor momento ¿eh?). Al principio pensé que estaba loco, pero luego comencé a ver numerosos archivos PDF que están "inclinados", como si alguien no los hubiera colocado correctamente en el escáner. Entonces, pensé que la siguiente mejor opción para obtener el texto real de ellos sería convertir cada página en una imagen.Convertir PDF a imágenes automáticamente
Obviamente, esto necesita ser automatizado, y preferiría seguir con Python si es posible. Si Ruby o Perl tienen algún tipo de implementación que sea demasiado impresionante como para dejarla pasar, puedo seguir esa ruta. He intentado con pyPDF para la extracción de texto, que obviamente no me sirvió de mucho. He probado swftools, pero las imágenes que obtengo son casi completamente inutilizables. Simplemente parece que las fuentes se arruinan en la conversión. Tampoco me importa realmente el formato de imagen en el camino de salida, siempre y cuando sean relativamente livianos y legibles.
antes de hacerlo, comuníquese con la entidad .gov que produce los archivos. Es muy posible que pueda obtener acceso fácil a esos archivos digitales reales. Habiendo trabajado en .gov y se encontró con el mismo problema, generalmente se debe a requisitos legales anticuados (firmas de papel) y/o falta de conocimiento técnico (a menudo, esto evitará que el equipo de TI/web lo capte).)También puede llamarlos sobre el tema de accesibilidad ya que un JPG gigante de una página es completamente inaccesible para la tecnología de asistencia. –
Además, para ser justos con la tierra .gov, a menudo tienen que atender un abismo tecnológico increíblemente amplio. Por desgracia, todavía vivimos en un tiempo en el que el denominador común más bajo es una forma en papel. –
Votado para cerrar: ver http://stackoverflow.com/questions/331918/converting-a-pdf-to-a-series-of-images-with-python. – Brian