Estoy trabajando en un proyecto que implica la conversión de una gran cantidad de contenido HTML a texto sin formato. Tengo un módulo personalizado que hace el trabajo bien, pero me pregunto si hay algunas herramientas estándar para ayudar a hacer el trabajo.La mejor manera de convertir HTML a texto sin formato usando Python
Respuesta
Html2Text parece ser una buena opción
Aquí hay una biblioteca de Python, que hace análisis de HTML:
BeautifulSoup es otra opción.
Para ahorrarle a los demás un poco de tiempo en círculos desde Google hasta SO, aquí hay un Q & A que describe que Beautiful Soup ya no se mantiene realmente: [WebScraping with BeautifulSoup o LXML.HTML] (http://stackoverflow.com/questions/5493514/webscraping-with-beautifulsoup-or-lxml-html). – sage
Beautiful Soup parece mantenerse ahora, creo. – contrebis
- 1. cómo convertir texto HTML a texto sin formato?
- 2. ASP clásico (VBScript) convertir códigos HTML a texto sin formato
- 3. Cómo convertir reStructuredText a texto sin formato
- 4. Convertir html a texto sin formato en VBA
- 5. Delphi: la mejor manera de convertir rtf a texto
- 6. Convertir HTML a texto sin formato y mantener la estructura/formato, con ruby
- 7. Convertir el formato de texto wiki de MediaWiki a HTML usando la línea de comando
- 8. ¿Hay alguna función que convierta HTML a texto sin formato?
- 9. HTML a texto sin formato (para correo electrónico)
- 10. reemplazar texto sin formato con html usando jQuery
- 11. Convierta texto sin formato a PDF en Python
- 12. Enviando boletines HTML con texto sin formato
- 13. ¿Reducción a texto sin formato en Ruby?
- 14. Python: Cómo convertir texto con formato de rebajas al texto
- 15. mejor manera de inyectar html usando javascript
- 16. Convertir entidades de caracteres HTML a texto normal usando javascript
- 17. ¿Hay un módulo de Python para convertir RTF a texto sin formato?
- 18. python convertir documentos de Microsoft Office a texto sin formato en Linux
- 19. ¿Convertir texto tabulado a html lista desordenada?
- 20. códigos de convertir HTML a texto plano
- 21. ¿La mejor manera de exportar html a Word sin tener instalado MS Word?
- 22. ¿Cómo obtengo texto sin formato junto a un elemento HTML usando jQuery?
- 23. Obtenga texto sin formato del HTML en .NET
- 24. Conversión/análisis programático de código LaTeX a texto sin formato
- 25. ¿Cuál es la mejor manera de convertir números de teléfono a formato internacional (E.164) usando Java?
- 26. mejor manera de convertir la colección a la cadena
- 27. Obtener texto sin formato de QString con etiquetas HTML
- 28. Convertir la tabla HTML en texto
- 29. ¿Cuál es la mejor manera de convertir una aplicación simple de sinatra a páginas html estáticas?
- 30. Convierta HTML a texto sin formato (con inclusión de <br> s)
este funciona muy bien –
El sitio ya no es accesible desde Aaron, el autor ya no está. –
pero el código se puede encontrar en https://github.com/aaronsw/html2text –