2012-01-22 14 views
6

En un proyecto hay un módulo que toma una URL y determina si es del sitio web "Ecommerce" o "NON-Ecommerce".¿Cómo encontrar si una url es de comercio electrónico o de un sitio web no de comercio electrónico, programáticamente?

he tratado siguientes enfoques:

  1. Uso mahout Apache, Clasificación: URL ---> Tomar volcado html ---> proceso de pre el vertedero html por a) eliminar todas las etiquetas HTML

    b) eliminación de palabras de parada (también conocidas como palabras comunes) como CDATA, href, valor y, entre, etc.

    c) modelo de entrenamiento y luego probándolo.

raíz params he utilizado para el entrenamiento

bin/mahout trainclassifier \ -i-formación de datos \ -o Bayes modelo \> de tipo Bayes -ng 1

Pruebas:

/bin/mahout testclassifier \ 
    -d test-data \ 
    -m bayes-model \ 
    -type bayes -source hdfs -ng 1 -method sequential 

Precisión estoy recibiendo un 73% y con cbayes algoritmo de conseguir un 52%.

Estoy pensando en mejorar la etapa de pre procesamiento extrayendo información que se encuentra en el sitio web de comercio electrónico como "Botón de pago", "pagar enlace", "Precios/símbolo de dólar", texto como "Contra reembolso", "30 garantía de día "etc.

¿Alguna sugerencia sobre cómo extraer esta información o de alguna otra manera de predecir un sitio como comercio electrónico o no comercio electrónico?

+2

Por favor, formatee su pregunta la próxima vez con más cuidado. Y por cierto, el 70% de precisión es bastante bueno para el comienzo. –

Respuesta

1

Estoy muy sorprendido de que obtenga una precisión tan buena con solo la extracción de html y un clasificador de bayes.

Pero parece estar en el camino correcto con las características como un botón de pago y precios.

Aquí es un artículo que encontré ayer al leer acerca de Yandex:

"To find out or to buy? Product review vs. Web shop classifier"

Es acerca de cómo estos dos sitios y algunas técnicas distintas que utilizaban. También usaron SVM en lugar de naive bayes.

+0

Gracias Thomas. El papel se dirige a un caso de uso similar al nuestro. – geek

Cuestiones relacionadas