La secuencia de comandos SQL "Obtener duplicados" más rápida

¿Qué es un ejemplo de SQL rápido para obtener duplicados en conjuntos de datos con cientos de miles de registros? Normalmente utilizo algo como:La secuencia de comandos SQL "Obtener duplicados" más rápida

SELECT afield1, afield2 FROM afile a 
WHERE 1 < (SELECT count(afield1) FROM afile b WHERE a.afield1 = b.afield1);

Pero esto es bastante lento.

Fuente

2008-10-13 Johan Bresler

Ésta es la manera más directa:

select afield1,count(afield1) from atable 
group by afield1 having count(afield1) > 1

Fuente

2008-10-13 09:38:27

Usted podría intentar:

select afield1, afield2 from afile a 
where afield1 in 
(select afield1 
    from afile 
    group by afield1 
    having count(*) > 1 
);

Fuente

2008-10-13 09:39:11

Esta es mi forma preferida porque puede devolver todas las columnas de la tabla. – leek

Curiosamente, 2 personas han votado esta respuesta sin hacer ningún comentario sobre por qué. Supongo que esto significa que hay algo mal con eso? –

Supongo que es más lento –

Una pregunta similar se le pidió la semana pasada. Hay algunas buenas respuestas allí.

SQL to find duplicate entries (within a group)

En esta cuestión, el OP se interesó por todas las columnas (campos) en la tabla (archivo), pero filas pertenecían al mismo grupo si tuvieran el mismo valor de clave (afield1).

Hay tres tipos de respuestas:

subconsultas en la cláusula where, como algunas de las otras respuestas aquí.

una combinación interna entre la mesa y los grupos vistos como una tabla (mi respuesta)

y consultas analíticas (algo que es nuevo para mí).

Fuente

2008-10-13 12:50:35

Por cierto, si alguien quiere eliminar los duplicados, he utilizado este:

delete from MyTable where MyTableID in (
    select max(MyTableID) 
    from MyTable 
    group by Thing1, Thing2, Thing3 
    having count(*) > 1 
)

Fuente

2011-01-20 21:57:05

Acabo de notar que esto solo eliminará uno de los duplicados. Si hubiera tres filas con el mismo valor, tendría que ejecutar esta consulta dos veces para eliminar todos los duplicados. –

Ésta debe ser razonablemente rápido (incluso más rápido si se indexan los dupeFields).

SELECT DISTINCT a.id, a.dupeField1, a.dupeField2 
FROM TableX a 
JOIN TableX b 
ON a.dupeField1 = b.dupeField2 
AND a.dupeField2 = b.dupeField2 
AND a.id != b.id

supongo que la única desventaja de esta consulta es que debido a que no está haciendo un COUNT(*) no se puede comprobar el número de veces que se duplica, sólo que aparece más de una vez.

Fuente

2012-08-21 05:39:16

Esto no es realmente rápido cuando lo intento en mi mesa. Aunque no tengo un índice. –

La secuencia de comandos SQL "Obtener duplicados" más rápida

Respuesta

Cuestiones relacionadas