¿Cómo se representan los documentos de texto como vectores de características para la clasificación de texto?

Tengo alrededor de 10,000 documentos de texto.¿Cómo se representan los documentos de texto como vectores de características para la clasificación de texto?

¿Cómo puedo representarlos como vectores de características, para que pueda usarlos para la clasificación de texto?

¿Hay alguna herramienta que represente automáticamente el vector de características?

Fuente

2012-02-14 tina

El enfoque más fácil es ir con el modelo bag of words. Usted representa cada documento como una colección de palabras desordenada.

Es probable que desee quitar los signos de puntuación y es posible que desee ignorar el caso. También es posible que desee eliminar palabras comunes como 'y', 'o' y 'el'.

Para adaptar esta en un vector de características se podía elegir (digamos) 10.000 palabras representativas de la muestra, y tienen un vector binario v[i,j] = 1 si el documento contiene la palabra ij y v[i,j] = 0 lo contrario.

Fuente

2012-02-14 08:14:38

Eche un vistazo a MonkeyLearn, puede crear fácilmente clasificadores de texto que usan aprendizaje automático para aprender de las muestras de texto (documentos) que tiene. Aprende automáticamente la representación del vector de características. También puede modificar si desea usar el filtrado n-grams, do stemming o stopwords.

Fuente

2015-02-18 15:21:16

¿Cómo determina el número de representaciones vector de características, por ejemplo, la formación de un libro de cuentos en una RNN-lstm, y luego tener que predecir frases de ella? ¿Sería el "número de funciones" 1, porque solo le está pidiendo a la red que aprenda lo que puede de una longitud de secuencia establecida de letras por paso? – naisanza

Para dar una muy buena respuesta a la pregunta, sería útil saber qué tipo de clasificación le interesa: según el género, el autor, el sentimiento, etc. Para la clasificación estilística, por ejemplo, las palabras de función son importantes , para una clasificación basada en el contenido, solo son ruido y generalmente se filtran utilizando una lista de palabras prohibidas. Si le interesa una clasificación basada en el contenido, puede utilizar un esquema de ponderación como la frecuencia del término/frecuencia inversa del documento, (1) para dar palabras que son típicas para un documento y raramente comparativas en toda la colección de texto más peso. Esto supone un modelo de espacio vectorial de sus textos que es una bolsa de representación de palabras del texto. (Ver Wikipedia en Vector Space Modell y tf/idf) Generalmente, tf/idf arrojará mejores resultados que un esquema de clasificación binario que solo contiene la información de si existe un término en un documento.

Este enfoque es tan establecido y común que las bibliotecas de aprendizaje automático como scikit-learn de Python ofrecen métodos de conveniencia que convierten la colección de texto en una matriz usando tf/idf como un esquema de ponderación.

Fuente

2015-03-11 04:53:44

¿Cómo se representan los documentos de texto como vectores de características para la clasificación de texto?

Respuesta

Cuestiones relacionadas