Quiero clasificar/categorizar/cluster/agrupar un conjunto de varios miles de sitios web. Hay datos en los que podemos entrenar, para que podamos hacer un aprendizaje supervisado, pero no son datos que hemos reunido y no nos empeñamos en usarlos, por lo que también estamos considerando el aprendizaje sin supervisión.
¿Qué características puedo usar en un algoritmo de aprendizaje automático para manejar datos multilingües? Tenga en cuenta que algunos de estos lenguajes podrían no haberse tratado en el campo Procesamiento del lenguaje natural.
Si tuviera que utilizar un algoritmo de aprendizaje no supervisado, ¿debería dividir los datos por idioma y tratar cada idioma de manera diferente? Los diferentes idiomas pueden tener diferentes categorías relevantes (o no, dependiendo de sus tendencias teóricas psicolingüísticas), lo que podría afectar la decisión de partición.
Estaba pensando en usar árboles de decisión, o tal vez máquinas de vectores de soporte (SVM) para permitir más funciones (desde mi comprensión de ellas). This post sugiere bosques aleatorios en lugar de SVM. ¿Alguna idea?
¡Los enfoques pragmáticos son bienvenidos! (Las teóricas, también, pero los que se salven para la diversión más adelante.)
algún contexto
Estamos tratando de clasificar un corpus de muchos miles de sitios web en 3 a 5 idiomas (tal vez hasta 10 , pero no estamos seguros).
Tenemos datos de entrenamiento en forma de cientos de sitios web ya clasificados. Sin embargo, podemos optar por usar ese conjunto de datos o no; si otras categorías tienen más sentido, estamos abiertos a no utilizar los datos de capacitación que tenemos, ya que no es algo que hayamos recopilado en primer lugar. Estamos en las etapas finales de raspado de datos/texto de sitios web.
Ahora debemos decidir sobre los problemas anteriores. He trabajado un poco con Brown Corpus y el etiquetador Brill, pero esto no funcionará debido al problema de varios idiomas.
Tenemos la intención de utilizar el paquete de aprendizaje automático Orange.
Entonces, ¿esto es supervisado o no? – rmalouf
Entiendo que quiere decir clasificación _semantic_/clustering, es decir, agrupación por sentido y no otra información como número de enlaces, sentimientos, mencionar nombres de compañías, etc. – ffriend
@rmalouf: ¡La pregunta ha sido aclarada! @ffriend: No estoy seguro de que necesariamente lo describa como _semantic_ ya que eso podría llevarnos a territorios teóricos y técnicos tangentes ... ¡pero seguro! (De nuevo, en un sentido muy amplio de la palabra.) Definitivamente no estamos tratando de ver cosas como recuentos de enlaces brutos o recuentos de nombres específicos. – arturomp