Estoy intentando crear un sistema de recomendación que recomiende páginas web al usuario en función de sus acciones (búsqueda de Google, clics, también puede calificar páginas web explícitamente). Para tener una idea de la forma en que lo hace google news, muestra artículos de noticias de la web sobre un tema en particular. En términos técnicos, es agrupamiento, pero mi objetivo es similar. Será una recomendación basada en el contenido basada en la acción del usuario.Sistema de recomendación de página web
Así que mis preguntas son:
- ¿Cómo es posible arrastre a la Internet para encontrar páginas web relacionadas?
- ¿Y qué algoritmo debo usar para extraer datos de la página web es el análisis textual y la frecuencia de palabras la única forma de hacerlo?
- Por último, qué plataforma es la más adecuada para este problema. He oído hablar de Apache mahout y viene con algunos algos reutilizables, ¿suena como un buen ajuste?
Puede escribir varios libros acerca de sus preguntas. –
jaja, ¿suenan como grandes problemas? Bueno, estoy buscando una solución simple. Solo una breve descripción de cómo abordar un proyecto de este tipo. –
[Programming Collective Intelligence] (http://shop.oreilly.com/product/9780596529321.do) es una introducción fácil y sin matemáticas al aprendizaje automático y contiene un caso de uso como su pregunta. – Maurits