Tengo una gran colección (~ 2.7 millones de documentos) en mongodb, y hay muchos duplicados. Intenté ejecutar ensureIndex({id:1}, {unique:true, dropDups:true})
en la colección. Mongo se aleja un poco antes de decidir too many dups on index build with dropDups=true
.¿Cómo puedo eliminar duplicados en MongoDb?
¿Cómo puedo agregar el índice y deshacerme de los duplicados? O al revés, ¿cuál es la mejor manera de eliminar algunos dups para que mongo pueda construir con éxito el índice?
Para obtener puntos de bonificación, ¿por qué hay un límite en el número de dups que se pueden eliminar?
Como opción: ejecute un mapa/reduzca que cuenta las ocurrencias para cada 'id'. A continuación, recorra este conjunto de resultados y para cada 'id' con duplicados, elimine todos los registros, pero primero. –