Tengo un conjunto de datos para la clasificación de texto listo para ser utilizado en MATLAB. Cada documento es un vector en este conjunto de datos y la dimensionalidad de este vector es extremadamente alta. En estos casos, la gente suele hacer una selección de características en los vectores como los que ha encontrado en realidad el kit de herramientas WEKA. ¿Hay algo así en MATLAB? si no puede sugerir y algoritmo para que lo haga ...? graciasSelección de características en MATLAB
Respuesta
MATLAB (y sus cajas de herramientas) incluyen una serie de funciones que tienen que ver con la selección de características:
- RANDFEATURES (Bioinformática Caja de herramientas): Generar subconjunto aleatorio de características dirigidas por un clasificador
- RANKFEATURES (Bioinformatics Toolbox): Funciones de la clasificación según los criterios de separación de clases
- SEQUENTIALFS (Statistics Toolbox): la función de selección secuencial
- RELIEFF (Statistics Toolbox): Alivio-F algoritmo
- TREEBAGGER.OOBPermutedVarDeltaError, predictorImportance (Statistics Toolbox): El uso de métodos de conjunto (árboles de decisión embolsados)
También puede encontrar ejemplos que demuestran el uso de conjuntos de datos reales:
- Identifying Significant Features and Classifying Protein Profiles
- Genetic Algorithm Search for Features in Mass Spectrometry Data
Además, existen cajas de herramientas de terceros:
lo contrario, siempre puede llamar a sus funciones favoritas de WEKA directamente desde MATLAB, ya que incluye una JVM ...
La selección de funciones depende de la tarea específica que desee realizar en los datos de texto.
Uno de los métodos más simples y crudos es utilizar el análisis de componentes principales (PCA) para reducir las dimensiones de los datos. Estos datos dimensionales reducidos se pueden usar directamente como características para la clasificación.
Ver el tutorial sobre el uso de PCA aquí:
http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html
Aquí está el enlace a Matlab PCA ayuda de comandos:
http://www.mathworks.com/help/toolbox/stats/princomp.html
Uso de las funciones obtenidas, el conocido Apoyo Vector Máquinas (SVM) se pueden utilizar para la clasificación.
http://www.mathworks.com/help/toolbox/bioinfo/ref/svmclassify.html http://www.autonlab.org/tutorials/svm.html
Se podría considerar el uso de la técnica de características independientes de Weiss y Kulikowski para eliminar rápidamente las variables que son obviamente unimformative:
http://matlabdatamining.blogspot.com/2006/12/feature-selection-phase-1-eliminate.html
- 1. características de extracto de matlab en matfile
- 2. Selección de columnas en Matlab
- 3. Algoritmo de selección de características más simple
- 4. Diferencia entre selección de características, extracción de características, pesas de características
- 5. Retorno popupmenu selección en MATLAB utilizando una línea de código
- 6. La selección de características y el aprendizaje no supervisado para la selección del algoritmo de datos multilingüe + aprendizaje automático
- 7. Qué hacer primero: ¿Selección de características o configuración de parámetros del modelo?
- 8. Combinación de clases de extracción de características en scikit-learn
- 9. Características ocultas de Clojure
- 10. Características ocultas de MooTools
- 11. Filtrado de paso alto en MATLAB
- 12. SQL Server 2012 - Analysis Services no se incluye en la "Selección de características" de la pantalla del instalador
- 13. de MATLAB en Python
- 14. ¿Es importante el orden de las características en los vectores de características de LibSVM?
- 15. Extracción de características de audio
- 16. Openlayers: Características vectoriales en lugar de marcadores
- 17. En aplicaciones Desbloqueo de compras Características
- 18. scope vs ctags en términos de características
- 19. Características ocultas de Google Guice
- 20. mejores características de EJB 3
- 21. Prolog DCGs ¿Características múltiples?
- 22. Ayuda con características de tipo
- 23. Características ocultas de TCL/TK
- 24. Características ocultas de Interface Builder?
- 25. Nuevas características de TFS 2010
- 26. Características ocultas IntelliJ IDEA
- 27. matlab en C C++ y C++ en matlab
- 28. aptitud selección proporcional (ruleta rueda de selección) en Python
- 29. Selección Cuadro de selección con jQuery
- 30. 'Matriz de matrices' en matlab?
duplicados de http://stackoverflow.com/questions/3047940/feature-selection -methods-in-matlab? Pero este parece tener una mejor respuesta aceptada. –