Esto es más una pregunta "teórica". Estoy trabajando con el paquete scikit-learn para realizar algunas tareas NLP. Sklearn proporciona muchos métodos para realizar tanto la selección de funciones como la configuración de los parámetros de un modelo. Me pregunto qué debería hacer primero.Qué hacer primero: ¿Selección de características o configuración de parámetros del modelo?
Si utilizo univariate feature selection, es bastante obvio que primero debo seleccionar las características y, con las características seleccionadas, luego ajustar los parámetros del estimador.
¿Pero y si quiero usar recursive feature elimination? ¿Debo primero configurar los parámetros con grid search usando TODAS las características originales y solo entonces realizar la selección de características? ¿O tal vez debería seleccionar las características primero (con los parámetros predeterminados del estimador) y luego establecer los parámetros con las características seleccionadas?
Gracias de antemano por cualquier ayuda que pueda darme.
EDITAR
Estoy teniendo más o menos el mismo problema planteado here. Para ese momento, no había una solución para eso. ¿Alguien sabe si existe uno ahora?
Gracias por la sugerencia. Como solo planeo usar LogistRegression y SVC, creo que chi2 y/o L1 serían suficientes. – feralvam