Total Number documents in Corpus
es simplemente la cantidad de documentos que tiene en su corpus. Entonces, si tiene 20 documentos, este valor es 20
.
Number of Document matching term
es el recuento de cuántos documentos se produce el término t
. Así que si usted tiene 20 documentos en total y el término t
ocurre en 15 de los documentos a continuación, el valor de Number of Documents matching term
es 15.
El valor para este ejemplo sería así IDF(t,D)=log(20/15) = 0.1249
Ahora bien, si estoy en lo cierto, tiene múltiples categorías por documento y desea poder categorizar nuevos documentos con una o más de estas categorías. Un método para hacer esto sería crear un documento para cada categoría. Cada documento de categoría debe contener todos los textos que están etiquetados con esta categoría. A continuación, puede realizar tf*idf
en estos documentos.
Una forma simple de categorizar un nuevo documento podría lograrse al sumar los valores de término de la consulta utilizando los diferentes valores de término calculados para cada categoría. La categoría cuyos valores de término, utilizados para calcular el producto, dan como resultado el resultado más alto, se clasificará primero.
Otra posibilidad es crear un vector para la consulta utilizando el idf
de cada término en la consulta. Todos los términos que no aparecen en la consulta reciben el valor 0
. El vector de consulta puede entonces compararse por similitud con cada vector de categoría usando, por ejemplo, cosine similarity.
Smoothing es también una técnica útil para tratar las palabras en una consulta que no se producen en su corpus.
Sugiero leer sections 6.2 and 6.3 de "Introducción a la recuperación de información" por Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze.
Gracias ... Obtuve una respuesta. ¿Pero puede explicar por favor categorizando el nuevo documento poco elaborado ?. ¿Así es como obtener la categoría correspondiente para el nuevo documento ?. Entonces, ¿cómo se forma el vector de frecuencia para que el nuevo documento coincida? ... –
Agregué la información a mi respuesta. – Sicco
Gracias por ayudar .. –