6

¿Cuál es el mejor método para usar las palabras en sí mismas como características en cualquier algoritmo de aprendizaje automático?Cómo incluir palabras como característica numérica en la clasificación

El problema que tengo para extraer la función relacionada con palabras de un párrafo en particular. ¿Debo usar el índice en el diccionario como la característica numérica? Si es así, ¿cómo voy a normalizar estos?

En general, ¿cómo se usan las palabras como características en PNL?

Respuesta

8

Hay varias técnicas convencionales mediante el cual palabras se asignan a características (columnas en una matriz de datos 2D en el que las filas son los vectores de datos individuales) para la entrada a los modelos de aprendizaje automático. classification:

  • un booleano campo que codifica la presencia o ausencia de esa palabra en un documento dado;

  • un histograma de frecuencias de un conjunto predeterminado de las palabras, a menudo el X que aparecen con mayor frecuencia las palabras de en medio de todos los documentos que contienen los datos de entrenamiento (más sobre esto en el último párrafo de esta respuesta);

  • la yuxtaposición de dos o más palabras (por ejemplo, 'alternativo' y 'estilo de vida' en orden consecutivo tener un significado no relacionados ya sea palabra componente); esta yuxtaposición puede ser capturada en el propio modelo de datos, por ejemplo, una característica booleana que representa la presencia o ausencia de dos palabras particulares directamente adyacentes entre sí en un documento, o esta relación puede explotarse en la técnica ML, como una ingenuidad Clasificador bayesiano haría en este caso enfatizó el texto;

  • palabras como datos en bruto para extraer características latentes, por ejemplo, LSA o análisis semántico latente (también llamado a veces LSI para Indexación Semántica Latente). LSA es una técnica basada en la descomposición de la matriz que deriva variables latentes del texto no aparente de las palabras del texto mismo.

A datos de referencia comunes establecidos en el aprendizaje de máquina está compuesto de frecuencias de 50 o menos de las palabras más comunes, también conocido como "detienen palabras" (por ejemplo,, un, un, de, y , la, no , si ) para las obras publicadas de Shakespeare, Londres, Austen, y Milton. Un perceptrón básico de varias capas con una sola capa oculta puede separar este conjunto de datos con una precisión del 100%. Este conjunto de datos y sus variaciones están ampliamente disponibles en ML Data Repositories y academic papers, presentando los resultados de la clasificación también comunes.

+0

¿Qué significa para "función enriquecida" (soy nuevo en este término)? – william007

6

El enfoque estándar es la representación de "bolsa de palabras" donde tiene una función por palabra, dando "1" si la palabra aparece en el documento y "0" si no ocurre.

Esto ofrece muchas funciones, pero si tiene un alumno simple como Naive Bayes, eso todavía está bien.

"Índice en el diccionario" es una característica inútil, no lo usaría.

1

tf-idf es una forma bastante estándar de convertir las palabras en funciones numéricas.

Recuerde utilizar un algoritmo de aprendizaje que admita caracteres numéricos, como SVM. Naive Bayes no es compatible con las funciones numéricas.

Cuestiones relacionadas