Wie kann ich doppelte Zeilen entfernen?

Question

Wie kann ich doppelte Zeilen entfernen?

Gefragt el 20 de August, 2008: Wann wurde die Frage gestellt
1320049 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Wie entfernt man am besten doppelte Zeilen aus einer ziemlich großen SQL Server Tabelle (d.h. 300.000+ Zeilen)?

Die Zeilen werden natürlich keine perfekten Duplikate sein, da es die RowID Identitätsfeld.

MyTable

RowID int not null identity(1,1) primary key,
Col1 varchar(20) not null,
Col2 varchar(2048) not null,
Col3 tinyint not null

Gefragt el 20 de August, 2008 von Seibar

15 Stimmen

Kleiner Tipp für PostgreSQL-Benutzer, die dies lesen (viele, wenn man bedenkt, wie oft es verlinkt wird): Pg stellt CTE-Terme nicht als aktualisierbare Views zur Verfügung, so dass Sie nicht DELETE FROM ein CTE-Begriff direkt. Siehe stackoverflow.com/q/18439054/398670

Kommentiert el 26 de August, 2013 von Craig Ringer

0 Stimmen

@CraigRinger das gleiche gilt für Sybase - Die übrigen Lösungen habe ich hier zusammengestellt (sollten auch für PG und andere gelten): stackoverflow.com/q/19544489/1855801 (ersetzen Sie einfach die ROWID() Funktion durch die Spalte RowID, falls vorhanden)

Kommentiert el 29 de Oktober, 2013 von maf-soft

14 Stimmen

Ich möchte hier nur einen Vorbehalt anbringen. Wenn Sie einen Deduplizierungsprozess durchführen, überprüfen Sie immer zuerst, was Sie löschen! Dies ist einer der Bereiche, in denen es sehr häufig vorkommt, dass versehentlich gute Daten gelöscht werden.

Kommentiert el 4 de Dezember, 2013 von Jeff Davis

Answer 1

5 Antworten

Answer 2

20voto

James Errico Punkte 4966

Ich bevorzuge die Unterabfrage \having count(*) > 1 Lösung für die innere Verknüpfung, weil ich sie leichter zu lesen fand und sie sehr einfach in eine SELECT-Anweisung umzuwandeln war, um zu überprüfen, was gelöscht werden würde, bevor Sie sie ausführen.

--DELETE FROM table1 
--WHERE id IN ( 
     SELECT MIN(id) FROM table1 
     GROUP BY col1, col2, col3 
     -- could add a WHERE clause here to further filter
     HAVING count(*) > 1
--)

Beantwortet el 1 de Marsch, 2014 von James Errico (4966 Punkte )

0 Stimmen

Werden dabei nicht alle Datensätze gelöscht, die in der inneren Abfrage auftauchen? Wir müssen nur Duplikate entfernen und das Original erhalten.

Kommentiert el 15 de Kann, 2015 von Sandy

3 Stimmen

Sie geben nur die Datei mit der niedrigsten ID zurück, basierend auf der min(id) in der Select-Klausel.

Kommentiert el 18 de Kann, 2015 von James Errico

0 Stimmen

Ja, aber die Frage bezog sich nicht darauf, wie die zu löschenden Zeilen zurückgegeben werden können, sondern darauf, wie die doppelten Zeilen gelöscht werden können. Können Sie erläutern, wie ich die Zeilen löschen kann, die die Abfrage zurückgegeben hat?

Kommentiert el 18 de Kann, 2015 von Sandy

Anzeigen 3 weitere Kommentare

Answer 3

17voto

heta77 Punkte 179

SELECT  DISTINCT *
      INTO tempdb.dbo.tmpTable
FROM myTable

TRUNCATE TABLE myTable
INSERT INTO myTable SELECT * FROM tempdb.dbo.tmpTable
DROP TABLE tempdb.dbo.tmpTable

Beantwortet el 10 de Oktober, 2012 von heta77 (179 Punkte )

5 Stimmen

Das Kürzen wird nicht funktionieren, wenn Sie Fremdschlüsselverweise auf myTable haben.

Kommentiert el 27 de Juni, 2013 von Sameer Alibhai

Answer 4

15voto

Ruben Verschueren Punkte 812

Ich dachte, ich teile meine Lösung mit, da sie unter besonderen Umständen funktioniert. In meinem Fall hatte die Tabelle mit den doppelten Werten keinen Fremdschlüssel (weil die Werte aus einer anderen Datenbank dupliziert wurden).

begin transaction
-- create temp table with identical structure as source table
Select * Into #temp From tableName Where 1 = 2

-- insert distinct values into temp
insert into #temp 
select distinct * 
from  tableName

-- delete from source
delete from tableName 

-- insert into source from temp
insert into tableName 
select * 
from #temp

rollback transaction
-- if this works, change rollback to commit and execute again to keep you changes!!

PS: Wenn ich an solchen Dingen arbeite, verwende ich immer eine Transaktion, die nicht nur sicherstellt, dass alles als Ganzes ausgeführt wird, sondern mir auch erlaubt, zu testen, ohne etwas zu riskieren. Aber natürlich sollte man trotzdem ein Backup machen, nur um sicher zu gehen...

Beantwortet el 27 de Januar, 2014 von Ruben Verschueren (812 Punkte )

Answer 5

14voto

Ostati Punkte 4377

CTE verwenden. Die Idee besteht darin, eine oder mehrere Spalten zu verbinden, die einen doppelten Datensatz bilden, und dann zu entfernen, was immer Sie wollen:

;with cte as (
    select 
        min(PrimaryKey) as PrimaryKey
        UniqueColumn1,
        UniqueColumn2
    from dbo.DuplicatesTable 
    group by
        UniqueColumn1, UniqueColumn1
    having count(*) > 1
)
delete d
from dbo.DuplicatesTable d 
inner join cte on 
    d.PrimaryKey > cte.PrimaryKey and
    d.UniqueColumn1 = cte.UniqueColumn1 and 
    d.UniqueColumn2 = cte.UniqueColumn2;

Beantwortet el 13 de November, 2014 von Ostati (4377 Punkte )

1 Stimmen

Ich glaube, Sie vermissen ein AND in Ihrem JOIN.

Kommentiert el 16 de Marsch, 2016 von Justin R.

Answer 6

14voto

Draško Punkte 707

Diese Abfrage ergab für mich eine sehr gute Leistung:

DELETE tbl
FROM
    MyTable tbl
WHERE
    EXISTS (
        SELECT
            *
        FROM
            MyTable tbl2
        WHERE
            tbl2.SameValue = tbl.SameValue
        AND tbl.IdUniqueValue < tbl2.IdUniqueValue
    )

er löschte 1M Zeilen in etwas mehr als 30sec aus einer Tabelle mit 2M (50% Duplikate)

Beantwortet el 10 de Dezember, 2014 von Draško (707 Punkte )

Wie kann ich doppelte Zeilen entfernen?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Wie kann ich doppelte Zeilen entfernen?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: