Buscar todos los documentos duplicados en una colección MongoDB por un campo de clave

Supongamos que tengo una colección con algún conjunto de documentos. algo como esto.Buscar todos los documentos duplicados en una colección MongoDB por un campo de clave

{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":1, "name" : "foo"} 
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":2, "name" : "bar"} 
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":3, "name" : "baz"} 
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":4, "name" : "foo"} 
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":5, "name" : "bar"} 
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":6, "name" : "bar"}

Quiero encontrar todas las entradas duplicadas en esta colección por el campo "nombre". P.ej. "foo" aparece dos veces y "bar" aparece 3 veces.

Fuente

2012-02-29 Fraz

para la eliminación de duplicados se pueden utilizar [esta solución] (http: // stackoverflow.com/a/33364353/1045444) –

Nota: esta solución es la más fácil de entender, pero no la mejor.

Puede utilizar mapReduce para averiguar cuántas veces un documento contiene un determinado campo:

var map = function(){ 
    if(this.name) { 
     emit(this.name, 1); 
    } 
} 

var reduce = function(key, values){ 
    return Array.sum(values); 
} 

var res = db.collection.mapReduce(map, reduce, {out:{ inline : 1}}); 
db[res.result].find({value: {$gt: 1}}).sort({value: -1});

Fuente

2012-02-29 00:28:15 ggreiner

Para una solución genérica Mongo, ver el MongoDB cookbook recipe for finding duplicates using group. Tenga en cuenta que la agregación es más rápida y más potente ya que puede devolver el _id de los registros duplicados.

Para pymongo, la respuesta aceptada (usando mapReduce) no es tan eficiente. En su lugar, podemos usar el método group:

$connection = 'mongodb://localhost:27017'; 
$con  = new Mongo($connection); // mongo db connection 

$db   = $con->test; // database 
$collection = $db->prb; // table 

$keys  = array("name" => 1); Select name field, group by it 

// set intial values 
$initial = array("count" => 0); 

// JavaScript function to perform 
$reduce  = "function (obj, prev) { prev.count++; }"; 

$g   = $collection->group($keys, $initial, $reduce); 

echo "<pre>"; 
print_r($g);

de salida será la siguiente:

Array 
(
    [retval] => Array 
     (
      [0] => Array 
       (
        [name] => 
        [count] => 1 
       ) 

      [1] => Array 
       (
        [name] => MongoDB 
        [count] => 2 
       ) 

     ) 

    [count] => 3 
    [keys] => 2 
    [ok] => 1 
)

La consulta SQL equivalente sería: SELECT name, COUNT(name) FROM prb GROUP BY name. Tenga en cuenta que todavía tenemos que filtrar elementos con un recuento de 0 de la matriz. De nuevo, consulte MongoDB cookbook recipe for finding duplicates using group para la solución canónica usando group.

Fuente

2013-02-11 05:16:09

El enlace al libro de cocina MongoDB está obsoleto y devuelve 404. – udachny

131

La respuesta aceptada es terriblemente lenta en colecciones grandes y no devuelve el _id de los registros duplicados.

La agregación es mucho más rápido y puede devolver los _id s:

db.collection.aggregate([ 
    { $group: { 
    _id: { name: "$name" }, // replace `name` here twice 
    uniqueIds: { $addToSet: "$_id" }, 
    count: { $sum: 1 } 
    } }, 
    { $match: { 
    count: { $gte: 2 } 
    } }, 
    { $sort : { count : -1} }, 
    { $limit : 10 } 
]);

En la primera etapa de la tubería de agregación, el operador $group agregados de documentos por el campo name y tiendas en uniqueIds cada _id valor de la registros agrupados. El operador $sum suma los valores de los campos pasados a él, en este caso la constante 1 - contando así el número de registros agrupados en el campo count.

En la segunda etapa de la canalización, usamos $match para filtrar documentos con un count de al menos 2, es decir, duplicados.

Luego, ordenar los duplicados más frecuentes primero, y limitar los resultados a los 10 primeros

Esta consulta es la salida hasta $limit registros con nombres duplicados, junto con sus _id s. Por ejemplo:

{ 
    "_id" : { 
    "name" : "Toothpick" 
}, 
    "uniqueIds" : [ 
    "xzuzJd2qatfJCSvkN", 
    "9bpewBsKbrGBQexv4", 
    "fi3Gscg9M64BQdArv", 
    ], 
    "count" : 3 
}, 
{ 
    "_id" : { 
    "name" : "Broom" 
    }, 
    "uniqueIds" : [ 
    "3vwny3YEj2qBsmmhA", 
    "gJeWGcuX6Wk69oFYD" 
    ], 
    "count" : 2 
}

Fuente

2013-08-12 02:00:44 expert

Para eliminar duplicados, puede utilizar [esta solución] (http://stackoverflow.com/a/33364353/1045444) –

Ahora, ¿cómo puede hacerlo? Yo llamo esto usando C#? – blueprintChris

¿Utiliza esta solución el índice existente en la clave? Mi preocupación es ejecutar esto en colecciones muy grandes, donde los documentos agrupados no caben en la memoria. – Iravanchi

encontré información útil sobre el blog oficial de laboratorio mongo: http://blog.mongolab.com/2014/03/finding-duplicate-keys-with-the-mongodb-aggregation-framework/

Fuente

2015-10-14 08:38:26

Buscar todos los documentos duplicados en una colección MongoDB por un campo de clave

Respuesta

Cuestiones relacionadas