Para dar una muy buena respuesta a la pregunta, sería útil saber qué tipo de clasificación le interesa: según el género, el autor, el sentimiento, etc. Para la clasificación estilística, por ejemplo, las palabras de función son importantes , para una clasificación basada en el contenido, solo son ruido y generalmente se filtran utilizando una lista de palabras prohibidas. Si le interesa una clasificación basada en el contenido, puede utilizar un esquema de ponderación como la frecuencia del término/frecuencia inversa del documento, (1) para dar palabras que son típicas para un documento y raramente comparativas en toda la colección de texto más peso. Esto supone un modelo de espacio vectorial de sus textos que es una bolsa de representación de palabras del texto. (Ver Wikipedia en Vector Space Modell y tf/idf) Generalmente, tf/idf arrojará mejores resultados que un esquema de clasificación binario que solo contiene la información de si existe un término en un documento.
Este enfoque es tan establecido y común que las bibliotecas de aprendizaje automático como scikit-learn de Python ofrecen métodos de conveniencia que convierten la colección de texto en una matriz usando tf/idf como un esquema de ponderación.
¿Cómo determina el número de representaciones vector de características, por ejemplo, la formación de un libro de cuentos en una RNN-lstm, y luego tener que predecir frases de ella? ¿Sería el "número de funciones" 1, porque solo le está pidiendo a la red que aprenda lo que puede de una longitud de secuencia establecida de letras por paso? – naisanza