2010-12-11 63 views
6

Tengo un conjunto de datos para la clasificación de texto listo para ser utilizado en MATLAB. Cada documento es un vector en este conjunto de datos y la dimensionalidad de este vector es extremadamente alta. En estos casos, la gente suele hacer una selección de características en los vectores como los que ha encontrado en realidad el kit de herramientas WEKA. ¿Hay algo así en MATLAB? si no puede sugerir y algoritmo para que lo haga ...? graciasSelección de características en MATLAB

+1

duplicados de http://stackoverflow.com/questions/3047940/feature-selection -methods-in-matlab? Pero este parece tener una mejor respuesta aceptada. –

Respuesta

12

MATLAB (y sus cajas de herramientas) incluyen una serie de funciones que tienen que ver con la selección de características:

  • RANDFEATURES (Bioinformática Caja de herramientas): Generar subconjunto aleatorio de características dirigidas por un clasificador
  • RANKFEATURES (Bioinformatics Toolbox): Funciones de la clasificación según los criterios de separación de clases
  • SEQUENTIALFS (Statistics Toolbox): la función de selección secuencial
  • RELIEFF (Statistics Toolbox): Alivio-F algoritmo
  • TREEBAGGER.OOBPermutedVarDeltaError, predictorImportance (Statistics Toolbox): El uso de métodos de conjunto (árboles de decisión embolsados)

También puede encontrar ejemplos que demuestran el uso de conjuntos de datos reales:

Además, existen cajas de herramientas de terceros:

lo contrario, siempre puede llamar a sus funciones favoritas de WEKA directamente desde MATLAB, ya que incluye una JVM ...

1

La selección de funciones depende de la tarea específica que desee realizar en los datos de texto.

Uno de los métodos más simples y crudos es utilizar el análisis de componentes principales (PCA) para reducir las dimensiones de los datos. Estos datos dimensionales reducidos se pueden usar directamente como características para la clasificación.

Ver el tutorial sobre el uso de PCA aquí:

http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html

Aquí está el enlace a Matlab PCA ayuda de comandos:

http://www.mathworks.com/help/toolbox/stats/princomp.html

Uso de las funciones obtenidas, el conocido Apoyo Vector Máquinas (SVM) se pueden utilizar para la clasificación.

http://www.mathworks.com/help/toolbox/bioinfo/ref/svmclassify.html http://www.autonlab.org/tutorials/svm.html

Cuestiones relacionadas