2012-02-14 48 views

Respuesta

8

El enfoque más fácil es ir con el modelo bag of words. Usted representa cada documento como una colección de palabras desordenada.

Es probable que desee quitar los signos de puntuación y es posible que desee ignorar el caso. También es posible que desee eliminar palabras comunes como 'y', 'o' y 'el'.

Para adaptar esta en un vector de características se podía elegir (digamos) 10.000 palabras representativas de la muestra, y tienen un vector binario v[i,j] = 1 si el documento contiene la palabra ij y v[i,j] = 0 lo contrario.

2

Eche un vistazo a MonkeyLearn, puede crear fácilmente clasificadores de texto que usan aprendizaje automático para aprender de las muestras de texto (documentos) que tiene. Aprende automáticamente la representación del vector de características. También puede modificar si desea usar el filtrado n-grams, do stemming o stopwords.

+0

¿Cómo determina el número de representaciones vector de características, por ejemplo, la formación de un libro de cuentos en una RNN-lstm, y luego tener que predecir frases de ella? ¿Sería el "número de funciones" 1, porque solo le está pidiendo a la red que aprenda lo que puede de una longitud de secuencia establecida de letras por paso? – naisanza

3

Para dar una muy buena respuesta a la pregunta, sería útil saber qué tipo de clasificación le interesa: según el género, el autor, el sentimiento, etc. Para la clasificación estilística, por ejemplo, las palabras de función son importantes , para una clasificación basada en el contenido, solo son ruido y generalmente se filtran utilizando una lista de palabras prohibidas. Si le interesa una clasificación basada en el contenido, puede utilizar un esquema de ponderación como la frecuencia del término/frecuencia inversa del documento, (1) para dar palabras que son típicas para un documento y raramente comparativas en toda la colección de texto más peso. Esto supone un modelo de espacio vectorial de sus textos que es una bolsa de representación de palabras del texto. (Ver Wikipedia en Vector Space Modell y tf/idf) Generalmente, tf/idf arrojará mejores resultados que un esquema de clasificación binario que solo contiene la información de si existe un término en un documento.

Este enfoque es tan establecido y común que las bibliotecas de aprendizaje automático como scikit-learn de Python ofrecen métodos de conveniencia que convierten la colección de texto en una matriz usando tf/idf como un esquema de ponderación.


Cuestiones relacionadas