2012-06-22 20 views
30

He leído LDA y entiendo las matemáticas de cómo se generan los temas cuando uno ingresa una colección de documentos.Modelado de temas LDA - Capacitación y pruebas

Las referencias dicen que LDA es un algoritmo que, dado un conjunto de documentos y nada más (no se necesita supervisión), puede descubrir los "temas" expresados ​​por los documentos en esa colección. Por lo tanto, al usar el algoritmo LDA y la Muestra de Gibbs (o Variaes Bayes), puedo ingresar un conjunto de documentos y, como resultado, puedo obtener los temas. Cada tema es un conjunto de términos con probabilidades asignadas.

Lo que no entiendo es, si lo anterior es cierto, entonces ¿por qué muchos tutoriales de modelado de temas hablan de separar el conjunto de datos en el conjunto de entrenamiento y prueba?

¿Alguien me puede explicar los pasos (el concepto básico) de cómo se puede utilizar LDA para entrenar un modelo, que luego se puede utilizar para analizar otro conjunto de datos de prueba?

+1

¡una buena pregunta! – KillBill

Respuesta

30

La división de datos en conjuntos de entrenamiento y prueba es un paso común en la evaluación del rendimiento de un algoritmo de aprendizaje. Es más claro para el aprendizaje supervisado, en el que se capacita al modelo en el conjunto de capacitación, luego se ve cuán bien sus clasificaciones en el conjunto de prueba coinciden con las etiquetas de clase verdadera. Para el aprendizaje no supervisado, tal evaluación es un poco más complicada. En el caso del modelado de temas, una medida común de rendimiento es perplexity. Entrenas el modelo (como LDA) en el conjunto de entrenamiento, y luego ves qué tan "perplejo" está el modelo en el conjunto de pruebas. Más específicamente, usted mide qué tan bien el conteo de palabras de los documentos de prueba está representado por las distribuciones de palabras representadas por los temas.

La perplejidad es buena para las comparaciones relativas entre los modelos o la configuración de los parámetros, pero su valor numérico en realidad no significa mucho. Yo prefiero evaluar modelos tema utilizando la siguiente, algo manual, proceso de evaluación:

  1. inspeccionar los temas: Mira las palabras de mayor probabilidad en cada tema. ¿Suenan como si formaran un "tema" cohesivo o simplemente un grupo aleatorio de palabras?
  2. Inspeccione las asignaciones de temas: Retenga algunos documentos aleatorios de la capacitación y vea qué temas les asigna LDA. Inspeccione manualmente los documentos y las palabras principales en los temas asignados. ¿Parece que los temas realmente describen de qué están hablando realmente los documentos?

Me doy cuenta de que este proceso no es tan bueno y cuantitativo como a uno le gustaría, pero para ser honesto, las aplicaciones de los modelos de tema rara vez son cuantitativas. Sugiero que evalúes tu modelo de tema de acuerdo con el problema al que lo estás aplicando.

¡Buena suerte!

+0

Gracias gregamis por la buena explicación. Para su punto número 2). asignaciones de temas al documento, ¿cómo se puede asignar temas a palabras en un documento? ¿Revisa secuencialmente las palabras del documento y busca la misma palabra en un tema y asigna ese tema a esa palabra? Bueno, si haces eso, ¿qué sucede cuando una palabra está presente en más de 1 tema con alta probabilidad? Diga un ejemplo muy trivial, 'banco del río' y 'cuenta bancaria'. – tan

+1

@tan: los temas deben asignarse a documentos, no a palabras. Tampoco de forma manual. –

+0

@gregamis: Gracias por esta publicación. Entonces, ¿usamos LDA supervisado/cualquier otra técnica de modelado de tema para evaluar solo los modelos de tema? – user1930402

Cuestiones relacionadas