Dada la cantidad de URL sin procesar, me gustaría poder clasificarlas por: noticias, blog, fotos y videos.Clasificación de contenido desde la URL
Un ejemplo sería si un enlace dirige a un usuario a una foto, ¿sería suficiente decir que el enlace sin formato contiene una extensión de archivo para que las imágenes puedan clasificar la URL sin procesar como una foto?
En cuanto a video, blog y noticias, parece que no es suficiente tener un conjunto de dominios (como http://www.youtube.com) que clasifiquen las URL sin formato.
¿Se podría clasificar mediante el examen del contenido web? ¿O hay alguna herramienta de código abierto para esto?
¿Qué terminaste haciendo por la clasificación de URL thn? –