Una de las cosas que más trato en la limpieza de datos son los valores perdidos. R trata bien con su etiqueta de datos "NA" que falta. En Python, parece que tendré que lidiar con arreglos enmascarados que parecen ser un gran problema para configurar y no parecen estar bien documentados. ¿Alguna sugerencia para facilitar este proceso en Python? Esto se está convirtiendo en un factor decisivo para pasar a Python para el análisis de datos. Gracias¿Cómo manejas los datos faltantes usando numpy/scipy?
Actualización Obviamente ha pasado un tiempo desde que miré los métodos en el módulo numpy.ma. Parece que al menos las funciones de análisis básicas están disponibles para las matrices enmascaradas, y los ejemplos proporcionados me ayudaron a entender cómo crear matrices enmascaradas (gracias a los autores). Me gustaría ver si algunos de los métodos estadísticos más nuevos en Python (que se están desarrollando en el GSoC de este año) incorporan este aspecto, y al menos hacen el análisis completo del caso.
Por qué no usar numpy.NaN para identificar los datos que faltan? – Paul