2012-09-16 18 views
5

Estoy tratando de realizar la selección de atributos en Weka. Me gustaría usar InfoGainAttributeEval como evaluador, porque leo que es equivalente a información mutua, y Ranker como método de búsqueda. ¿Debo realizar la selección de atributos tanto para el entrenamiento como para el conjunto de pruebas? Además, ¿cómo puedo elegir el valor correcto para el parámetro N?Weka Atributo Selección

Muchas gracias por su tiempo,

Nadia

Respuesta

1

La aplicación de selección de atributos por separado en el tren y la prueba podría dar lugar a una selección de diferentes atributos, lo que las hace incompatibles. Por lo tanto, para asegurarse de que ambos conjuntos tengan los mismos atributos, debe aplicar la selección de atributos en todo su conjunto de datos. Una vez que haya seleccionado los atributos más útiles, dividirá sus datos en un conjunto de tren y prueba.

En cuanto a qué valor de -N usar, usaría la cantidad total de atributos. Esto dará como resultado una lista ordenada de todos sus atributos y podrá evaluar los diferentes puntajes de todos los atributos usted mismo. A continuación, puede detectar un umbral claro que separa los atributos que contienen información útil para formar un clasificador a partir de atributos que no agregan nada. Luego establecería este umbral usando la opción -T.

+0

Hola @Sicco! Supongo que el filtrado por lotes es equivalente a su método para compatibilizar el entrenamiento y el conjunto de pruebas. Sus sugerencias sobre los parámetros -N y -T me ayudaron a aclarar el problema y estoy a punto de probarlo en Weka. ¡Muchas gracias por la información y disculpe por la respuesta tardía! ¿ – nadia

+0

no elegirá los atributos de esta manera sobreajustar? – fiacobelli

+0

@fiacobelli Depende de qué tan estricto establezca el umbral. Si solo tomas el atributo de mejor rendimiento e ignoras el resto, es más probable que el ajuste excesivo sea más probable. Mi consejo fue tomar tantos atributos que parecen contener algunos datos interesantes y eliminar los atributos que claramente carecen de información valiosa. Hice esto más claro en mi respuesta. – Sicco

Cuestiones relacionadas