Supongamos que descargué el código HTML y puedo analizarlo. ¿Cómo obtengo la "mejor" descripción de ese sitio web, si ese sitio web no tiene una etiqueta de meta-descripción?¿Cuál es la mejor manera de obtener una descripción del sitio web, en Python?
Respuesta
Para realizar un seguimiento de la sugerencia de "Legibilidad" anterior (que a su vez está inspirada en el sitio InstaPaper), tienen el lanzamiento del JavaScript: http://code.google.com/p/arc90labs-readability/. Es más, un tipo lo tomó y lo portó a Python: http://github.com/gfxmonk/python-readability. ¡Alegrarse!
Puede obtener las primeras frases devueltas de algo como Readability.
Safari 5 utiliza, por lo que debe estar bien :)
Es muy difícil llegar a una regla que funciona al 100% del tiempo, obviamente, pero mi sugerencia como punto de partida sería la de buscar para la primera etiqueta <h1>
(o <h2>
, <h3>
, etc., la más alta que pueda encontrar) luego el bit de texto después de que se puede usar como descripción. Siempre que el sitio esté semánticamente marcado, eso debería darle una buena descripción (supongo que también podría tomar el contenido del <h1>
mismo, pero eso es más como el "título").
Es interesante observar que Google (por ejemplo) utiliza un extracto de palabras clave específico de los contenidos de la página para mostrar como la descripción, en lugar de una descripción estática. Sin embargo, no estoy seguro si eso funcionará para su situación.
- 1. Proyectos del sitio web vs Aplicación web: ¿cuál es mejor?
- 2. ¿Cuál es la mejor manera de configurar una descripción del servicio de Windows en .net
- 3. ¿Cuál es la mejor manera de producir una tilde en LaTeX para un sitio web?
- 4. ¿Cuál es la mejor manera de cargar una carpeta a un sitio web?
- 5. ¿Cuál es la mejor manera de poner un sistema de traducción en el sitio web php?
- 6. ¿Cuál es la mejor manera de hacer que un sitio web de desplazamiento lateral cargue rápidamente?
- 7. ¿Cuál es la mejor manera de restringir el acceso a un sitio web de desarrollo?
- 8. ¿Cuál es la mejor manera de generar un mapa del sitio?
- 9. ¿Cuál es la mejor manera de consumir servicios web REST?
- 10. La mejor manera de recibir correo electrónico Sitio web
- 11. ¿La mejor manera de obtener imágenes?
- 12. ¿Es esta la mejor manera de obtener una versión única del nombre de archivo w/Python?
- 13. Obtener datos del sitio web
- 14. Cuál es la mejor manera de paginar resultados en php
- 15. ¿Cuál es la mejor manera de almacenar una contraseña o clave privada en un host web?
- 16. ¿Cuál es la mejor manera de publicar de forma segura una compilación de publicación de sitio?
- 17. ¿Cuál es la mejor forma de generar una sal aleatoria para un sitio web?
- 18. ¿Cuál es la mejor manera de dibujar en la consola?
- 19. cuál es la mejor manera de implementar FTP en un sitio asp.net mvc
- 20. ¿Cuál es la mejor manera de insertar LaTeX en una página web?
- 21. ¿Cuál es la mejor manera de hacer GUI en Clojure?
- 22. ¿Cuál es la mejor manera de incrementar una enumeración?
- 23. ¿Cuál es la mejor manera de eliminar acentos en una cadena unicode de Python?
- 24. ¿Cuál es la mejor manera de analizar una gramática simple?
- 25. ¿Cuál es la mejor manera de hacer una aplicación web java modular
- 26. ¿Cuál es la mejor manera de migrar una aplicación web desordenada existente a MVC elegante?
- 27. ¿Cuál es la mejor manera de cargar y almacenar imágenes en el sitio?
- 28. ¿Cuál es la mejor forma de mostrar mensajes de error/advertencia en la aplicación del sitio web?
- 29. ¿Cuál es la mejor manera de determinar si una página web es para dispositivos móviles?
- 30. ¿Cuál es la mejor manera de hacer una solicitud de servicio web POST en Grails?
+1 por legibilidad. Herramienta ordenada. –
+1 por legibilidad :) – Kit