Adressenabgleich - Lieferverteiler - "Duplikate" erkennen
#1
Hallo zusammen,
ich hoffe, ihr könnt mir bei folgendem Problem weiterhelfen:
Berufsbedingt arbeite ich häufig mit Lieferverteilern, in denen ich Artikel den jeweiligen Shops in einer linearen Tabelle zuordnen muss.
Vom Kunden erhalte ich in der Regel bereits vorbereitete Excel-Listen mit folgendem Aufbau:
  • Spalte A: Shopname
  • Spalte B: Ort
  • Spalte C: Straße
  • Spalte D: PLZ
  • Spalte E: Land
  • Spalte F: Artikel
Problem:
Oft kommt es vor, dass derselbe Shop mehrfach in der Liste enthalten ist – allerdings mit leicht unterschiedlicher Schreibweise.
Beispiel:
  • Aldi, Moselstraße 39, 53492, Köln
  • ALDI, Moselstrasse 39, 53492, Köln
Für Excel sind das zwei unterschiedliche Einträge, wodurch ich am Ende zwei Lieferscheine erstelle – was natürlich nicht gewünscht ist.
Bisheriger Workaround:
  • Pivot-Tabelle erstellen
  • Als Tabelle formatieren
  • Nach Straße sortieren
  • Manuelle Sichtprüfung
  • Zusätzlich teste ich aktuell mit Power Query (Spalten zusammenführen, alles in Großbuchstaben umwandeln, doppelte Werte markieren)
Leider ist das alles noch nicht wirklich zuverlässig bzw. zu aufwendig.
Meine Frage:
Gibt es eine saubere Lösung (z. B. mit Power Query, Formeln oder Fuzzy-Abgleich), um solche „ähnlichen“ Datensätze automatisch zu erkennen und zusammenzuführen?

Vielen Dank vorab für eure Unterstützung!

Liebe Grüße
Antworten Top
#2
(21.02.2026, 17:54)Shi3x schrieb: Gibt es eine saubere Lösung (z. B. mit Power Query, Formeln oder Fuzzy-Abgleich), um solche „ähnlichen“ Datensätze automatisch zu erkennen und zusammenzuführen?

Hi,

schau Dir mal das hier an. (Kölner Phonetik)

Das kann man in VBA oder auch in M (also Power Query) nachbauen. Der Vergleich braucht aber seine Zeit....
Der sicherste Ansatz für einen Irrtum ist der Glaube, alles im Griff zu haben.
Nur, weil ich den Recorder bedienen kann, macht mich das noch lange nicht zum Musiker.

Ciao, Ralf

Antworten Top
#3
Hallo 🙂
interessanter Vorschlag, danke dir! Allerdings kann ich mit dieser Methode die PLZ nicht zuverlässig miteinander vergleichen. Es kann nämlich durchaus vorkommen, dass Shopname, Straße, Ort und Land identisch sind – aber die PLZ unterschiedlich ist.
Beispiel:
Zeile 1: Aldi, Moselweg 99, 42323, Köln, 72832
Zeile 2: Aldi, Moselweg 99, 42323, Köln, 72833
Gerade beim Herunterziehen in Excel passiert es schnell, dass sich die PLZ unbemerkt ändert. Genau solche Fälle möchte ich erkennen – und das würde mit der vorgeschlagenen Methode leider nicht auffallen.

Korrekt?

Liebe Grüße :)
Antworten Top
#4
Hallo,

Zitat:Oft kommt es vor, dass derselbe Shop mehrfach in der Liste enthalten ist – allerdings mit leicht unterschiedlicher Schreibweise.
Beispiel:
  • Aldi, Moselstraße 39, 53492, Köln
  • ALDI, Moselstrasse 39, 53492, Köln

Das ist ja auch ein Grund dafür, nicht mit Namen/Bezeichnern direkt zu arbeiten, sondern mit mit IDs, in diesem Fall mit ShopIDs. In einem ordentlichen Datenmodell gäbe es eine Tabelle mit den Shopnamen, deren Adresse inkl. einer ID. Diese würde dann als Lookuptabelle fungieren. 

Fehlerhafte Daten fallen dadurch auf, das sie nicht eindeutig zugeordnet werden können und müssen dann eben von Hand zugeordnet werden. Alleine ein phonetischer Vergleich ist hier nicht ausreichend, wie man hier nachlesen kann:
https://www.qaddress.com/de/blog/phonetische-suche/ 

Vielleicht sollte man den Workflow dahingehend ändern, dass die Listen mit maschineller Unterstützung erstellt werden, oder man greift auf professionelle Lösungen zurück.

Knobbi38
Antworten Top
#5
Nabend, :)

ein sauberes Datenmodell mit ShopIDs und einer zentral gepflegten Lookuptabelle wäre natürlich die ideale Lösung.
In unserem Fall ist das allerdings organisatorisch nicht umsetzbar, weil ....

Die Bestellungen laufen über ein Online-Portal eines großen Markenherstellers, in dem sich die Shops eigenständig registrieren und ihre gewünschten Artikel eintragen. 
Wir haben dabei keinen direkten Einfluss auf die Stammdatenpflege oder die Vergabe von IDs.
Das bedeutet leider, dass wir mit den vom Portal gelieferten Daten arbeiten müssen – inklusive unterschiedlicher Schreibweisen. 
Die Shops zu einer einheitlichen Eingabe oder Nutzung fester IDs zu verpflichten, ist in der Praxis nicht realistisch.
Deshalb suche ich nach einer möglichst robusten Lösung innerhalb von Excel bzw. Power Query, um diese Inkonsistenzen automatisiert abzufangen und den manuellen Prüfaufwand zu reduzieren.
Antworten Top
#6
(21.02.2026, 18:52)Shi3x schrieb: Hallo 🙂
interessanter Vorschlag, danke dir! Allerdings kann ich mit dieser Methode die PLZ nicht zuverlässig miteinander vergleichen. Es kann nämlich durchaus vorkommen, dass Shopname, Straße, Ort und Land identisch sind – aber die PLZ unterschiedlich ist.
Beispiel:
Zeile 1: Aldi, Moselweg 99, 42323, Köln, 72832
Zeile 2: Aldi, Moselweg 99, 42323, Köln, 72833
Gerade beim Herunterziehen in Excel passiert es schnell, dass sich die PLZ unbemerkt ändert. Genau solche Fälle möchte ich erkennen – und das würde mit der vorgeschlagenen Methode leider nicht auffallen.

Wozu sollen die Werte heruntergezogen werden? Ich denke, Ihr zieht die aus einem Onlineportal? Zumindest da sollten die PLZ noch einheitlich sein. 
Wenn die heruntergeladenen Werte weiterverarbeitet werden sollen, nimmt man die vom Portal gezogenen Werte als Quelle für den nächsten Schritt. Der Quelle kann man durchaus eine ID vergeben.
Es sollten auch nicht alle Spalten zusammen geprüft werden, sondern Spalte für Spalte. Wenn mehrere Spaltenabweichungen festgestellt werden, ist das ein Indiz für eine Prüfung. Die muss dann natürlich manuell erfolgen. Es sei denn Ihr habt eine Referenztabelle. Die würde ich auf jeden Fall empfehlen... 
Auf der sicheren Seite seid Ihr, wenn Ihr den Link von @Knobbi38 nutzt...
Der sicherste Ansatz für einen Irrtum ist der Glaube, alles im Griff zu haben.
Nur, weil ich den Recorder bedienen kann, macht mich das noch lange nicht zum Musiker.

Ciao, Ralf

Antworten Top
#7
Du kannst die mal die folgende Lösung anschauen: https://www.clever-excel-forum.de/Thread...ower-Query 

Ist zwar auch keine Dublettensuche aber komplett in Power Query, du kannst Synonyme pflegen und ist als Suche direkt nutzbar, wenn due die Spaltentitel deiner Adresss-DB an die meiner Anwendung anpasst.

Eine Dublettensuche hatte ich auch schon mal halbwegs erstellt. Mir fällt aber aktuell nicht ein, ob ich dies vor Jahren in SAP oder in Excel realisiert hatte.

Grundsätzlich lässt sich bezüglich Dubletten, auf Basis meiner Suchtabellen, wohl schon etwas machen. Aber ab Montag werde ich 2 Wochen lang sonniges Wetter testen und kann in dieser Zeit keine Fragen beantworten.
Antworten Top


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste