Estoy haciendo análisis latentes de Dirichlet para investigar un poco y seguir teniendo problemas. La mayoría del software lda requiere que los documentos estén en formato doclines, lo que significa un archivo CSV u otro archivo delimitado en el que cada línea representa la totalidad de un documento. Sin embargo, Blei's lda-c y el software de modelo de tema dinámico requieren que los datos estén en el formato: [M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]
donde [M]
es el número de términos únicos en el documento, y el [conteo] asociado con cada término es cuántas veces ese término apareció en el documento. Tenga en cuenta que [term_1]
es un número entero que indexa el término ; no es una cadena.Convierta un documento por línea al formato lda-c/dtm de Blei para el modelado de temas.
¿Alguien sabe de una utilidad que me permita convertir rápidamente a este formato? Gracias.
Me encuentro con problemas similares, ¿encuentra las soluciones? Gracias. – user288609
No lo he implementado todavía, pero [esta utilidad de Python] (https://github.com/JoKnopp/text2ldac) se publicó en la lista de distribución de modelos de temas y se supone que debe tomar los archivos de texto y convertirlos al formato correcto. – Trey
Muchas gracias, es muy útil. – user288609