Los clasificadores de paquetes de aprendizaje automático como LIBLINEAR y NLTK ofrecer un método show_most_informative_features()
, que es realmente útil para depurar características:¿Cómo obtener la mayoría de las características informativas para los clasificadores scikit-learn?
viagra = None ok : spam = 4.5 : 1.0
hello = True ok : spam = 4.5 : 1.0
hello = None spam : ok = 3.3 : 1.0
viagra = True spam : ok = 3.3 : 1.0
casino = True spam : ok = 2.0 : 1.0
casino = None ok : spam = 1.5 : 1.0
Mi pregunta es si algo similar se aplica para los clasificadores en scikit-learn. Busqué en la documentación, pero no pude encontrar nada igual.
Si aún no existe esa función, ¿alguien sabe una solución alternativa para llegar a esos valores?
Gracias mucho!
¿Te refieres al parámetro más discriminatorio? – Simon
No estoy seguro de lo que quiere decir con los parámetros. me refiero a las características más discriminatorias, como en un modelo de bolsa de palabras para la clasificación de correo no deseado, cuyas palabras brindan más evidencia para cada clase.no los parámetros que entiendo como "configuraciones" para el clasificador, como la velocidad de aprendizaje, etc. – tobigue
@eowl: en lenguaje de aprendizaje automático, * parámetros * son los ajustes generados por el procedimiento de aprendizaje en función de las * características * de su conjunto de entrenamiento. La tasa de aprendizaje, etc. son * hiperparámetros *. –