Tengo un montón de archivos PDF y mi programa Perl necesita hacer una búsqueda de texto completo de ellos para devolver los que contienen una cadena específica. Hasta la fecha he estado usando este:¿Cómo puedo hacer una búsqueda de texto completo de archivos PDF desde Perl?
my @search_results = `grep -i -l \"$string\" *.pdf`;
donde $ cadena es el texto a buscar. Sin embargo, esto falla para la mayoría de los pdf porque el formato de archivo obviamente no es ASCII.
¿Qué puedo hacer es más fácil?
aclaración: Hay aproximadamente 300 pdf cuyo nombre no sé de antemano. PDF :: Core es probablemente excesivo. Estoy intentando que pdftotext y grep se jueguen bien, dado que no conozco los nombres de los pdf, todavía no puedo encontrar la sintaxis correcta.
solución final mediante la sugerencia de Adam Bellaire a continuación:
@search_results = `for i in \$(ls); do pdftotext \$i - | grep --label="\$i" -i -l "$search_string"; done`;
es posible que desee cambiar el nombre de la pregunta a "búsqueda de texto completo PDF desde Perl" –