He leído LDA y entiendo las matemáticas de cómo se generan los temas cuando uno ingresa una colección de documentos.Modelado de temas LDA - Capacitación y pruebas
Las referencias dicen que LDA es un algoritmo que, dado un conjunto de documentos y nada más (no se necesita supervisión), puede descubrir los "temas" expresados por los documentos en esa colección. Por lo tanto, al usar el algoritmo LDA y la Muestra de Gibbs (o Variaes Bayes), puedo ingresar un conjunto de documentos y, como resultado, puedo obtener los temas. Cada tema es un conjunto de términos con probabilidades asignadas.
Lo que no entiendo es, si lo anterior es cierto, entonces ¿por qué muchos tutoriales de modelado de temas hablan de separar el conjunto de datos en el conjunto de entrenamiento y prueba?
¿Alguien me puede explicar los pasos (el concepto básico) de cómo se puede utilizar LDA para entrenar un modelo, que luego se puede utilizar para analizar otro conjunto de datos de prueba?
¡una buena pregunta! – KillBill