He visto una serie de preguntas sobre cómo eliminar etiquetas HTML de las cadenas, pero todavía no estoy muy claro cómo se debe manejar mi caso específico.Eliminar etiquetas de imagen html y todo lo demás de una cadena
He visto que muchas publicaciones desaconsejan el uso de expresiones regulares para manejar HTML, pero sospecho que mi caso puede justificar la elusión juiciosa de esta regla.
Estoy tratando de analizar archivos PDF y he logrado convertir cada página de mi archivo PDF de muestra en una cadena de texto UTF-32. Cuando aparecen imágenes, se inserta una etiqueta de estilo HTML que contiene el nombre y la ubicación de la imagen (que se guarda en otro lugar).
En una parte separada de mi aplicación, necesito deshacerme de estas etiquetas de imagen. Debido a que estamos solo lidiando con etiquetas de imagen, sospecho que el uso de una expresión regular puede estar justificado.
Mi pregunta es doble:
- ¿Debo usar una expresión regular para eliminar estas etiquetas, o debería seguir utilizando un módulo de análisis de HTML, como BeautifulSoup?
- ¿Qué construcción Regex o BeautifulSoup debo usar? En otras palabras, ¿cómo debería codificar esto?
Para mayor claridad, las etiquetas se estructuran como <img src="/path/to/file"/>
Gracias!
¿Hay algún otro código HTML en este archivo? ¿O es literalmente nada más que texto sin formato y las etiquetas ''? – senderle
@senderle No, no hay HTML además de las etiquetas , de ahí mi indecisión en el uso de una lib de HTML con todas las de la ley. El formato es * siempre * como lo describo arriba. – blz
Acabo de publicar una respuesta, pero me preguntaba, ¿hay realmente un apóstrofo después del cierre> de cada imagen, o fue un error tipográfico? – joshcartme