EXCEL: Nach Duplikaten suchen

Sind Duplikate bei kleinen Datenbeständen schon kaum von Hand in den Griff zu bekommen, so sind sie bei großen Datenmengen, wie sie auch mit EXCEL verwaltet werden können, nur noch mit den passenden Hilfsmitteln zu bewältigen.

Grundsätzlich ist bei Duplikaten zwischen eindeutigen und unscharfen Duplikaten zu unterscheiden. Eindeutige Duplikate, also Duplikate bei denen alle Treffer bis auf die Groß-Kleinschreibung Zeichen für Zeichen übereinstimmen, sind mit EXCEL leicht zu finden. EXCEL enthält zu diesem Zweck eine eigene Funktion.

  1. Diese findet sich auf dem Reiter 'Daten' in dem Bereich 'Datentools' und nennt sich 'Duplikate entfernen'.
  2. Ist beim Aufruf dieser Funktion nur eine einzelne Zelle markiert, dann wird die Markierung automatisch auf die gesamte Tabelle erweitert. Ist dagegen eine einzelne Spalte markiert, dann fragt EXCEL ob die Markierung auf die gesamte Tabelle erweitert werden soll. Gibt man hier an, dass die Markierung nicht erweitert werden soll, dann werden nur in der markierten Spalte die gefundenen Duplikate gelöscht. Alle anderen Spalten bleiben unverändert erhalten. Wird die Markierung auf die gesamte Tabelle erweitert, dann wird die gesamte Zeile gelöscht und zwar auch dann wenn nicht alle Spalten als Spalten ausgewählt worden sind in denen nach Duplikaten gesucht werden soll.
  3. Der Dialog zum Konfigurieren der eigentlichen Funktion für die Suche nach Duplikaten enthält im unteren Teil eine Liste mit den Spalten die die Markierung umfasst. Ist der Haken bei 'Daten haben Überschriften' gesetzt, dann tragen diese Spalten den Text aus der ersten Zeile als Bezeichnung. Andernfalls sind sie einfach nur durchnummeriert. Wie man in einer Tabelle Spaltenüberschriften hinzufügt können Sie in dem Artikel 'Excel: Spaltenüberschriften hinzufügen' nachlesen. Ist bei einem der in der Liste aufgeführten Spalten der Haken gesetzt, dann wird der Inhalt dieser Spalte bei der Duplikatsuche berücksichtigt, wenn nicht, dann wird sie ignoriert. Mithilfe der Schaltflächen 'Alles markieren' und 'Markierung aufheben' können diese Haken leicht mit einem einzigen Mausklick gesetzt oder gelöscht werden.
  4. Ist die Funktion zum Suchen nach Duplikaten fertig konfiguriert, dann kann die Duplikatsuche mit einem Klick auf die Schaltfläche 'Ok' gestartet werden.
  5. EXCEL führt diese dann direkt aus. Ist EXCEL damit fertig, dann informiert es den Benutzer darüber wie viele Duplikate gefunden worden sind und wie viele Zeilen nach dem Löschen noch vorhanden sein werden. Welche Datensätze gelöscht werden und wie diese aussehen verrät EXCEL leider nicht. Wie oben bereits erwähnt löscht EXCEL entweder die komplette Zeile, egal welche Spalten als Kriterium für die Duplikatsuche ausgewählt worden sind, wenn die gesamte Tabelle markiert worden ist oder nur den Teil der Zeile deren Spalten in der Markierung liegen.

Auf diese Weise können mit EXCEL leicht eindeutige Duplikate aus einer Tabelle heraus gelöscht werden. Eine Funktion zu Löschen von unscharfen Duplikate enthält EXCEL aber nicht. Welche Ursachen unscharfe Duplikate haben und wie diese aussehen können können Sie in dem Artikel 'Adressen und Duplikate' nachlesen. Zufriedenstellend gelöst werden aber kann dieses Problem nur von spezialisierten Tools, die eine fehlertolerante Duplikatsuche bieten, wie zum Beispiel die auf www.DataQualityApps.de erhältlichen DataQualityTools und der DeduplicationWizard. Wie man den DeduplicationWizard dafür einsetzt um innerhalb von einer Tabelle nach doppelten Adressen zu suchen können Sie in dem Artikel 'Suche nach Duplikaten mit dem DeduplicationWizard' nachlesen. Wie man mit Hilfe der DataQualityTools zwischen zwei Tabellen nach doppelten Adressen sucht können Sie in dem Artikel 'Opt-out-Listen mit den DataQualityTools verarbeiten' nachlesen. Und in dem Artikel 'Zeitgesteuerte Suche nach Duplikaten mit dem BatchDeduplicator' können Sie nachlesen wie man die Suche nach doppelten Adressen automatisieren kann.

Autor: Thomas Hainke