En un proyecto hay un módulo que toma una URL y determina si es del sitio web "Ecommerce" o "NON-Ecommerce".¿Cómo encontrar si una url es de comercio electrónico o de un sitio web no de comercio electrónico, programáticamente?
he tratado siguientes enfoques:
Uso mahout Apache, Clasificación: URL ---> Tomar volcado html ---> proceso de pre el vertedero html por a) eliminar todas las etiquetas HTML
b) eliminación de palabras de parada (también conocidas como palabras comunes) como CDATA, href, valor y, entre, etc.
c) modelo de entrenamiento y luego probándolo.
raíz params he utilizado para el entrenamiento
bin/mahout trainclassifier \ -i-formación de datos \ -o Bayes modelo \> de tipo Bayes -ng 1
Pruebas:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
Precisión estoy recibiendo un 73% y con cbayes algoritmo de conseguir un 52%.
Estoy pensando en mejorar la etapa de pre procesamiento extrayendo información que se encuentra en el sitio web de comercio electrónico como "Botón de pago", "pagar enlace", "Precios/símbolo de dólar", texto como "Contra reembolso", "30 garantía de día "etc.
¿Alguna sugerencia sobre cómo extraer esta información o de alguna otra manera de predecir un sitio como comercio electrónico o no comercio electrónico?
Por favor, formatee su pregunta la próxima vez con más cuidado. Y por cierto, el 70% de precisión es bastante bueno para el comienzo. –