Adressen und Duplikate

Duplikate in Adresslisten können dabei unterschiedliche Ursachen haben:

  • Beim Zusammenfassen von Adressen aus unterschiedlichen Quellen kommt es fast zwangsläufig zu Duplikaten, denn nur in den wenigsten Fällen werden die zusammenzufassenden Adresslisten überschneidungsfrei sein.
  • Unterschiedliche Mitarbeiter haben unterschiedliche Vorstellungen davon wie eine Adresse am besten zu erfassen ist, ob also beispielsweise der Begriff 'Straße' im Straßennamen ausgeschrieben werden soll oder nicht. Und selbst bei ein und dem selben Mitarbeiter können die erfassten Adressen ganz unterschiedlich aussehen. So werden beispielsweise unter Zeitdruck erfasste Adressen nur die nötigsten Angaben enthalten.
  • Ist das Programm mit dem die Adressen erfasst werden nicht flexibel genug, dann werden Adressen beispielsweise allein schon deswegen doppelt erfasst weil es bei diesem Programm nicht möglich ist zu einer Adresse mehr als einen Ansprechpartner zu hinterlegen.
  • Ist das Programm mit dem die Adressen erfasst werden nicht darauf ausgelegt Duplikate schon bei der Eingabe zu verhindern oder ist die hierfür in dem Programm vorgesehene Funktion nicht leistungsfähig genug, dann bekommt der Mitarbeiter der die neue Adresse erfassen will erst gar nicht mit, dass diese Adresse in der Adressliste bereits vorhanden ist.

Mehrfacheinträge in Adresslisten lassen sich so gut wie nicht verhindern. Umso wichtiger ist es, dass Adresslisten von Zeit zu Zeit nach Duplikaten durchsucht werden. Viele Lösungen die für dieses Problem angeboten werden oder die in Adressverwaltungsprogrammen dafür eingebaut sind lösen dieses Problem nur teilweise. Zu unterschiedlich können zwei an und für sich identische Adressen doch aussehen:

  • Der Vorname steht möglicherweise bei der einen Adresse vor dem Nachnamen und bei der anderen hinter dem Nachnamen.
  • Der Vorname und andere Adressbestandteile können abgekürzt sein.
  • Insbesondere bei Firmennamen sind womöglich einzelne Teile der Firmenbezeichnung nicht mit erfasst worden, beispielsweise wenn statt 'BMW Group' nur 'BMW' eingegeben wird.
  • Einzelne Buchstaben können fehlen, mit dem daneben stehenden Buchstaben vertauscht oder auch falsch erfasst worden sein, beispielsweise wenn ein 'i' anstelle eines 'j' eingegeben wird.
  • Die Groß- und Kleinschreibung kann abweichen. Beispielsweise wird bei Adressen die in Webformularen erfasst werden oft auf die Eingabe von Großbuchstaben verzichtet, so dass diese dann komplett aus Kleinbuchstaben bestehen.

Der Name 'Albert Einstein' könnte beispielsweise folgendermaßen erfasst worden sein:

  • (100%) Einstein Albert
  • (95%) A. Einstein
  • (98%) Albert Einssein
  • (87%) Abert Meinstein

Software die speziell für dieses Problem geschrieben worden ist löst dieses indem sie für den Grad der Übereinstimmung von zwei Worten einen Prozentwert errechnet. Bei dem vorstehenden Beispiel sind in den Klammern die Prozentwerte mit angegeben die die auf www.DataQualityApps.de erhältlichen DataQualityTools dafür errechnen. Der Benutzer kann bei solchen Programmen in der Regel mit Hilfe eines Schwellwerts festlegen wie groß die Abweichungen zwischen zwei als Duplikate erkannten Adressen sein dürfen. Je niedriger dieser Schwellwert ist, je größer die Abweichungen zwischen zwei Adressen also sein dürfen, desto größer ist auch die Wahrscheinlichkeit, dass das Programm Treffer zurück liefert die eigentlich gar keine Duplikate sind. Im Idealfall kann der Benutzer das Ergebnis der Suche nach Duplikaten noch durchsehen und von Hand den ein oder anderen Treffer aus dem Ergebnis entfernen, bevor er die als doppelt erkannten Adressen dann aus seiner Adressliste heraus löschen lässt.

Zwei Programme die hierfür geeignet sind sind die auf www.DataQualityApps.de erhältlichen DataQualityTools und der DeduplicationWizard. Wie man den DeduplicationWizard für die Suche nach Duplikaten innerhalb von einer Tabelle einsetzt können Sie in dem Artikel 'Suche nach Duplikaten mit dem DeduplicationWizard' nachlesen. Wie man mit Hilfe der DataQualityTools zwischen zwei Tabellen nach Duplikaten sucht können Sie in dem Artikel 'Opt-out-Listen den DataQualityTools verarbeiten' nachlesen. Und in dem Artikel 'Zeitgesteuerte Suche nach Duplikaten mit dem BatchDeduplicator' können Sie nachlesen wie man die Suche nach Duplikaten automatisiert.

Autor: Thomas Hainke