¿Alguien de un algoritmo que extrae contenidos de una página web? como instapaper?Algoritmo similar a Instapaper
Respuesta
Hay dos pasos a lo que hace Instapaper:
- Encuentra principal contenido bloque en la página (excluyendo los encabezados, pies de página, menús, etc.)
- A partir de este bloque de contenido extracto de y formato el texto
Para encontrar el bloque de contenido (generalmente un elemento de bloque html, como un div que contiene th Contenido de texto de la página clave) Instapaper usa un algoritmo muy parecido al utilizado por readability. Puede ver el source of readability.js para ver qué está sucediendo, pero en su núcleo trata de encontrar el área en la página con la relación de texto/enlace más alta, aunque también tiene otras métricas de puntuación simples (por ejemplo, fuera de mi cabeza) , cosas como proporción de texto a comas, para elementos, etc.) que entran en la heurística.
Una vez que haya identificado el elemento del nodo raíz, con el contenido relevante, tendrá que formatearlo, si lo desea, puede extraer el elemento nodo que contiene el texto del documento fuente e insertarlo en el suyo, pero, en realidad, es probable que desee eliminar los estilos existentes y aplicar los propios, para obtener un aspecto estándar. Si desea dar como resultado solo texto agradable, puede usar el Renderer de Jericho.
Update1: También debo mencionar algo más Instapaper hace - que es seguir los enlaces 'de paginación' (el "siguiente" o "1", "2", "3" enlaces) del artículo su conclusión, para que una pieza que puede abarcar muchas páginas en el original se le represente como un documento único.
update2 Hace poco encontré este comparison of text extraction algorithms
Si lo que desea todo el contenido y ninguna parte del formato en Python
>>> from BeautifulSoup import BeautifulSoup
>>> from urllib import urlopen
>>> soup = BeautifulSoup(urlopen("http://www.python.org/").read())
>>> contents = ''.join(soup.findAll(text=True))
hace el truco
Tenga en cuenta que este es obviamente un enfoque extremadamente ingenuo y que incorporará * cualquier * contenido en la página, incluido cualquier elemento en el encabezado, la barra lateral y el pie de página.Probablemente no sea lo que quiere si le muestra el texto a un usuario. –
no es un código abierto aplicación que analiza el texto de un artículo desde cualquier página web
https://github.com/jiminoc/goose/wiki
debe hacer el truco
¿Alguien hizo la comparación de rendimiento entre ** Goose ** y ** Boilerpipe **? – c24b
boilerpipe es Java de código abierto. el algoritmo se publica en un artículo científico para que pueda leer qué tan bien lo hace en comparación con otros algoritmos. leer a su alrededor parece ser uno de los mejores.
- 1. Instapaper API y Javascript XAuth
- 2. Algoritmo de diseño de fluido similar a la serpiente
- 3. Algoritmo genético en un optiproblema similar a la mochila
- 4. RGB Algoritmo de aproximación de color similar
- 5. ternario Operador similar a:?
- 6. Algo similar a split()?
- 7. ¿Un buen algoritmo similar a Levenshtein pero ponderado para teclados Qwerty?
- 8. PIL: cambio de tamaño de archivo: Algoritmo similar a Firefox de
- 9. ¿Cuál es el nombre del algoritmo de desplazamiento de imagen similar a una serpiente?
- 10. Herramienta Scala similar a Linqpad
- 11. Notificar panel similar a Staoveroverflow
- 12. Editor/IDE similar a Bpython?
- 13. Log4J - Funcionalidad similar a SiftingAppender
- 14. Marca Xcode similar a emacs
- 15. Calendario simple similar a DatePicker
- 16. Google similar images algorithm
- 17. RGB a HSB Algoritmo
- 18. Algo similar a java.util en Javascript?
- 19. Software similar a Bitbucket que puedo autohospedar
- 20. Destacando una UIView similar a UIButton
- 21. OpenGL/DirectX Hook - Similar a FRAPS
- 22. ¿Hay algo similar a WebClient.DownloadString en Java?
- 23. Lenguaje similar a CoffeeScript escrito en Python
- 24. escritorio marco de aplicaciones similar a Rails
- 25. Framework PHP similar a Python Pylons
- 26. C++ Serialización Limpiar XML Similar a XSTREAM
- 27. Funcionalidad similar a Scipy en Java/Scala?
- 28. Algo similar a jMonkey Engine para C#
- 29. iOS burbuja menú emergente similar a iTunes
- 30. ¿Alguna herramienta similar a la aplicación Hyperterminal?
Qué tipo de contenido, esto es tan vago que casi duele. Hay cientos de maneras de analizar y extraer contenido de una página web que abarca desde una aplicación completa hasta wget y egrep. Tendrás que ser mucho más específico. – austinbv
@zobgib Él dice "como instapaper" en justicia: http://www.instapaper.com/ – Orbling
"como un instapaper" se refiere a extraer el contenido textual de un artículo sin tener en cuenta el navegador, los encabezados y los pies de página. – Joel