Mi reacción inicial a esta pregunta es que no mostró mucha investigación esfuerzo, ya que "todos" saben que los bosques aleatorios no manejan los valores faltantes en los predictores. Pero al verificar ?randomForest
debo confesar que podría ser mucho más explícito al respecto.
(Aunque, Breiman de PDF relacionado con la documentación Qué dice explícitamente que los valores perdidos simplemente no se manejan en absoluto.)
La única pista obvia en la documentación oficial que pude ver fue que el valor por defecto para el parámetro na.action
es na.fail
, que puede ser demasiado críptico para los usuarios nuevos.
En cualquier caso, si los predictores tienen valores que faltan, que tiene (básicamente) dos opciones:
- utilizar una herramienta diferente (
rpart
asas valores que faltan muy bien.)
- Imputar los valores que faltan
No es sorprendente que el paquete randomForest
tenga una función para hacer esto, rfImpute
. La documentación en ?rfImpute
se ejecuta a través de un ejemplo básico de su uso.
Si solo un pequeño número de casos tienen valores faltantes, también puede intentar configurar na.action = na.omit
para simplemente soltar esos casos.
Y, por supuesto, esta respuesta es un poco de adivinar que su problema es simplemente tener valores perdidos.
En su estado actual, esta pregunta será muy difícil de responder. ¿Puedes actualizar tu pregunta con algunos datos de muestra? – Chase
@ MattO'Brien También es divertido que la calidad de una pregunta se discuta en función de la cantidad de reproducciones y no de los méritos de la pregunta en sí. Y la respuesta, ya que @ Joran no tuvo problemas para averiguar qué se le estaba pidiendo y proporcionó lo que parece ser una buena solución para el problema del que hace la pregunta. – user7610