2010-01-29 25 views
12

Estoy un poco confundido en cuanto a lo que significa "selección de funciones/extractor/pesos" y la diferencia entre ellas. A medida que leía la literatura a veces me siento perdido ya que encontrar el término que se utiliza bastante vagamente, mis preocupaciones principales son -Diferencia entre selección de características, extracción de características, pesas de características

  1. Cuando la gente habla de frecuencia características, la presencia de características - es que la selección de características?

  2. Cuando la gente habla de algoritmos como la ganancia de información, máxima entropía: ¿sigue siendo la selección de funciones.

  3. Si entreno el clasificador, con un conjunto de características que le pide al clasificador que tome nota de la posición de una palabra dentro de un documento como ejemplo, ¿todavía se llamaría a esta selección de características?

Gracias Rahul Dighe

Respuesta

6

Selección de características es el proceso de selección de características "interesantes" de su conjunto para su posterior procesamiento.

Característica La frecuencia es solo eso, la frecuencia con que aparece una característica.

Ganancia de información, Entropía máxima, etc. son métodos de ponderación, que utilizan Frecuencia de funciones, que a su vez, le permiten realizar la Selección de características.

Piense en ello como esto:

Usted analizar un corpus, y crear una matriz temporal/documento. Esta matriz comienza como un recuento de los términos y el documento en el que aparecen (frecuencia simple).

Para hacer que la matriz tenga más sentido, pondere los términos en función de alguna función, incluida la frecuencia (como la frecuencia del término, la frecuencia inversa del documento, la ganancia de información, la entropía máxima). Ahora esa matriz contiene los pesos, o la importancia de cada término en relación con los otros términos en la matriz.

Una vez que tenga eso, puede usar la selección de características para mantener solo los términos más importantes (si está haciendo cosas como clasificación o categorización) y realizar análisis adicionales.

+0

¿Qué es extracción de características? –

+2

La extracción de características es el proceso de reducir la dimensionalidad de sus datos (generalmente a través de SVD, PCA, etc.). Ver este enlace: http://en.wikipedia.org/wiki/Extracción_de_esencia – GalacticJello

8

Extracción de características: reducir la dimensionalidad por proyección de vector D-dimensional (no lineal lineal o) en d-dimensional vector (d < D). Ejemplo: análisis del componente principal

Selección de características: reduzca la dimensionalidad seleccionando el subconjunto de las variables originales. Ejemplo: selección de características adelante o hacia atrás

17

Rahul-

Todas estas son buenas respuestas. Lo único que mencionaría es que la diferencia fundamental entre la selección y la extracción tiene que ver con la forma en que se tratan los datos.

Característica Extracción Los métodos son transformadores, es decir que está aplicando una transformación a sus datos para proyectarlos en un nuevo espacio de características con una dimensión inferior. PCA y SVD son ejemplos de esto.

Función Selección Los métodos seleccionan características del conjunto original basadas en algunos criterios, Ganancia de información, Correlación e Información mutua son solo criterios que se utilizan para filtrar características no importantes o redundantes. Los métodos incrustados o de envoltura, como se les llama, pueden usar clasificadores especializados para lograr la selección de características y clasificar el conjunto de datos al mismo tiempo.

Se proporciona una visión general muy buena del espacio problemático here.

¡Buena suerte!

+0

realmente una gran explicación. Link está muerto ... :) – Boern

Cuestiones relacionadas