Si estoy entrenando un SVM en un conjunto de entrenamiento lrge y si la variable de clase es True o False, ¿tendrían muy pocos valores verdaderos en comparación con el número de valores falsos en el conjunto de entrenamiento? ¿Deberían ser iguales? Si mi conjunto de entrenamiento no tiene una distribución igual de Verdadero y Falso, ¿cómo me ocupo de esto para que mi entrenamiento se realice de la manera más eficiente posible?¿Cómo se maneja el desequilibrio de datos en SVM?
Respuesta
Está bien tener datos desequilibrados, porque la SVM debería poder asignar una mayor penalización a errores de clasificación erróneos relacionados con la instancia menos probable (por ejemplo, "Verdadero" en su caso), en lugar de asignar el mismo error de error que resulta en el clasificador indeseable que asigna todo a la mayoría. Sin embargo, obtendrá probablemente obtenga mejores resultados con datos balanceados. Todo depende de tus datos, realmente.
Puede inclinar los datos artificialmente para obtener datos más equilibrados. ¿Por qué no revisas este artículo? http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF.
Mi experiencia es que los clasificadores estándar de SVM no funcionan muy bien en datos no balanceados. Lo encontré para el C-SVM y es aún peor para nu-SVM. Tal vez quiera echar un vistazo a P-SVM que ofrece un modo que es especialmente adecuado para datos desequilibrados.
- 1. Cómo interpretar predicen el resultado de SVM en R?
- 2. NHibernate, ORM: ¿cómo se maneja la refactorización? ¿los datos existentes?
- 3. Visualización SVM en MATLAB
- 4. ¿Cómo se maneja el fin de sesión en global.asax?
- 5. ¿Cómo se maneja el orden de los mensajes en JMS?
- 6. Profiling SVM (e1071) en R
- 7. SVM Clasificación de texto multiclase
- 8. Cómo entrenar SVM en matlab para el reconocimiento de caracteres?
- 9. ¿Cómo se maneja la concurrencia en NHibernate?
- 10. ¿Cómo se maneja la memoria del código?
- 11. ¿Cómo se maneja el trabajo duplicado en las historias?
- 12. ¿Cómo se maneja el HTML con formato incorrecto en Perl?
- 13. ¿Cómo se maneja el código de error LicenseCheckerCallback.ERROR_NOT_MARKET_MANAGED?
- 14. ¿Cómo se maneja el evento Tap de dos dedos? WPF
- 15. Implementación Python OpenCV SVM
- 16. ¿Cómo maneja gettext el contenido dinámico?
- 17. ¿Cómo se maneja la importación cruzada?
- 18. PHP OOP - ¿Cómo se maneja la autorización?
- 19. ¿Cómo se maneja Python int y long?
- 20. ¿Cómo se maneja el calendario TimeZones usando Java?
- 21. ¿Cómo se maneja la desconexión de socket en Java?
- 22. ¿Cómo se maneja la fecha de Javascript en otros idiomas?
- 23. ¿Cómo maneja Haskell el polimorfismo de sobrecarga?
- 24. ¿Cómo se maneja el evento cuando se hace clic en el espacio vacío?
- 25. ¿Cómo maneja git el permiso de carpeta?
- 26. ¿Cómo se maneja la gestión de la configuración de las tablas de la base de datos?
- 27. ¿Cómo se maneja __eq__ en Python y en qué orden?
- 28. OpenCV y latetent SVM Detector
- 29. Implementación SVM más rápida utilizable en Python
- 30. ¿Cómo se maneja el error/excepción en el script de shell?