2011-02-17 22 views
5

Dada la cantidad de URL sin procesar, me gustaría poder clasificarlas por: noticias, blog, fotos y videos.Clasificación de contenido desde la URL

Un ejemplo sería si un enlace dirige a un usuario a una foto, ¿sería suficiente decir que el enlace sin formato contiene una extensión de archivo para que las imágenes puedan clasificar la URL sin procesar como una foto?

En cuanto a video, blog y noticias, parece que no es suficiente tener un conjunto de dominios (como http://www.youtube.com) que clasifiquen las URL sin formato.

¿Se podría clasificar mediante el examen del contenido web? ¿O hay alguna herramienta de código abierto para esto?

+0

¿Qué terminaste haciendo por la clasificación de URL thn? –

Respuesta

0

Las únicas URL que se pueden clasificar de forma fiable, son aquellas que apuntan a un medio distinto (es decir, http://foo.com/foo.jpg es sin duda una imagen). De lo contrario, debe analizar el contenido de la página.

Esto puede ser un poco complicado, ya que Flash puede contener una foto, video o ninguno, sin proporcionar ninguna pista que permita buscar el contenido del objeto flash. Con suficiente esfuerzo, esto obviamente puede superarse (¡Google lo hace!), Pero no conozco ningún recurso de código abierto que brinde una biblioteca de dominios relacionados con los medios. Dichos datos son el resultado de innumerables horas de esfuerzo del programador, un esfuerzo que generalmente busca un retorno de la inversión (ROI). Por ejemplo, ClueWeb09 es solo un conjunto de datos de páginas descargadas, que se usa para probar algoritmos de búsqueda, no realmente clasificados o categorizados.

"A veces la respuesta no es de ayuda".

Cuestiones relacionadas