Hallo zusammen, ich hoffe, ihr könnt mir bei folgendem Problem weiterhelfen: Berufsbedingt arbeite ich häufig mit Lieferverteilern, in denen ich Artikel den jeweiligen Shops in einer linearen Tabelle zuordnen muss. Vom Kunden erhalte ich in der Regel bereits vorbereitete Excel-Listen mit folgendem Aufbau:
Spalte A: Shopname
Spalte B: Ort
Spalte C: Straße
Spalte D: PLZ
Spalte E: Land
Spalte F: Artikel
Problem: Oft kommt es vor, dass derselbe Shop mehrfach in der Liste enthalten ist – allerdings mit leicht unterschiedlicher Schreibweise. Beispiel:
Aldi, Moselstraße 39, 53492, Köln
ALDI, Moselstrasse 39, 53492, Köln
Für Excel sind das zwei unterschiedliche Einträge, wodurch ich am Ende zwei Lieferscheine erstelle – was natürlich nicht gewünscht ist. Bisheriger Workaround:
Pivot-Tabelle erstellen
Als Tabelle formatieren
Nach Straße sortieren
Manuelle Sichtprüfung
Zusätzlich teste ich aktuell mit Power Query (Spalten zusammenführen, alles in Großbuchstaben umwandeln, doppelte Werte markieren)
Leider ist das alles noch nicht wirklich zuverlässig bzw. zu aufwendig. Meine Frage: Gibt es eine saubere Lösung (z. B. mit Power Query, Formeln oder Fuzzy-Abgleich), um solche „ähnlichen“ Datensätze automatisch zu erkennen und zusammenzuführen?
21.02.2026, 18:48 (Dieser Beitrag wurde zuletzt bearbeitet: 21.02.2026, 18:48 von Ralf A.)
(21.02.2026, 17:54)Shi3x schrieb: Gibt es eine saubere Lösung (z. B. mit Power Query, Formeln oder Fuzzy-Abgleich), um solche „ähnlichen“ Datensätze automatisch zu erkennen und zusammenzuführen?
Das kann man in VBA oder auch in M (also Power Query) nachbauen. Der Vergleich braucht aber seine Zeit....
Der sicherste Ansatz für einen Irrtum ist der Glaube, alles im Griff zu haben. Nur, weil ich den Recorder bedienen kann, macht mich das noch lange nicht zum Musiker.
Hallo 🙂 interessanter Vorschlag, danke dir! Allerdings kann ich mit dieser Methode die PLZ nicht zuverlässig miteinander vergleichen. Es kann nämlich durchaus vorkommen, dass Shopname, Straße, Ort und Land identisch sind – aber die PLZ unterschiedlich ist. Beispiel: Zeile 1: Aldi, Moselweg 99, 42323, Köln, 72832 Zeile 2: Aldi, Moselweg 99, 42323, Köln, 72833 Gerade beim Herunterziehen in Excel passiert es schnell, dass sich die PLZ unbemerkt ändert. Genau solche Fälle möchte ich erkennen – und das würde mit der vorgeschlagenen Methode leider nicht auffallen.
Zitat:Oft kommt es vor, dass derselbe Shop mehrfach in der Liste enthalten ist – allerdings mit leicht unterschiedlicher Schreibweise. Beispiel:
Aldi, Moselstraße 39, 53492, Köln
ALDI, Moselstrasse 39, 53492, Köln
Das ist ja auch ein Grund dafür, nicht mit Namen/Bezeichnern direkt zu arbeiten, sondern mit mit IDs, in diesem Fall mit ShopIDs. In einem ordentlichen Datenmodell gäbe es eine Tabelle mit den Shopnamen, deren Adresse inkl. einer ID. Diese würde dann als Lookuptabelle fungieren.
Fehlerhafte Daten fallen dadurch auf, das sie nicht eindeutig zugeordnet werden können und müssen dann eben von Hand zugeordnet werden. Alleine ein phonetischer Vergleich ist hier nicht ausreichend, wie man hier nachlesen kann: https://www.qaddress.com/de/blog/phonetische-suche/
Vielleicht sollte man den Workflow dahingehend ändern, dass die Listen mit maschineller Unterstützung erstellt werden, oder man greift auf professionelle Lösungen zurück.
ein sauberes Datenmodell mit ShopIDs und einer zentral gepflegten Lookuptabelle wäre natürlich die ideale Lösung. In unserem Fall ist das allerdings organisatorisch nicht umsetzbar, weil ....
Die Bestellungen laufen über ein Online-Portal eines großen Markenherstellers, in dem sich die Shops eigenständig registrieren und ihre gewünschten Artikel eintragen. Wir haben dabei keinen direkten Einfluss auf die Stammdatenpflege oder die Vergabe von IDs. Das bedeutet leider, dass wir mit den vom Portal gelieferten Daten arbeiten müssen – inklusive unterschiedlicher Schreibweisen. Die Shops zu einer einheitlichen Eingabe oder Nutzung fester IDs zu verpflichten, ist in der Praxis nicht realistisch. Deshalb suche ich nach einer möglichst robusten Lösung innerhalb von Excel bzw. Power Query, um diese Inkonsistenzen automatisiert abzufangen und den manuellen Prüfaufwand zu reduzieren.
22.02.2026, 01:28 (Dieser Beitrag wurde zuletzt bearbeitet: 22.02.2026, 01:29 von Ralf A.)
(21.02.2026, 18:52)Shi3x schrieb: Hallo 🙂 interessanter Vorschlag, danke dir! Allerdings kann ich mit dieser Methode die PLZ nicht zuverlässig miteinander vergleichen. Es kann nämlich durchaus vorkommen, dass Shopname, Straße, Ort und Land identisch sind – aber die PLZ unterschiedlich ist. Beispiel: Zeile 1: Aldi, Moselweg 99, 42323, Köln, 72832 Zeile 2: Aldi, Moselweg 99, 42323, Köln, 72833 Gerade beim Herunterziehen in Excel passiert es schnell, dass sich die PLZ unbemerkt ändert. Genau solche Fälle möchte ich erkennen – und das würde mit der vorgeschlagenen Methode leider nicht auffallen.
Wozu sollen die Werte heruntergezogen werden? Ich denke, Ihr zieht die aus einem Onlineportal? Zumindest da sollten die PLZ noch einheitlich sein. Wenn die heruntergeladenen Werte weiterverarbeitet werden sollen, nimmt man die vom Portal gezogenen Werte als Quelle für den nächsten Schritt. Der Quelle kann man durchaus eine ID vergeben. Es sollten auch nicht alle Spalten zusammen geprüft werden, sondern Spalte für Spalte. Wenn mehrere Spaltenabweichungen festgestellt werden, ist das ein Indiz für eine Prüfung. Die muss dann natürlich manuell erfolgen. Es sei denn Ihr habt eine Referenztabelle. Die würde ich auf jeden Fall empfehlen... Auf der sicheren Seite seid Ihr, wenn Ihr den Link von @Knobbi38 nutzt...
Der sicherste Ansatz für einen Irrtum ist der Glaube, alles im Griff zu haben. Nur, weil ich den Recorder bedienen kann, macht mich das noch lange nicht zum Musiker.
Ist zwar auch keine Dublettensuche aber komplett in Power Query, du kannst Synonyme pflegen und ist als Suche direkt nutzbar, wenn due die Spaltentitel deiner Adresss-DB an die meiner Anwendung anpasst.
Eine Dublettensuche hatte ich auch schon mal halbwegs erstellt. Mir fällt aber aktuell nicht ein, ob ich dies vor Jahren in SAP oder in Excel realisiert hatte.
Grundsätzlich lässt sich bezüglich Dubletten, auf Basis meiner Suchtabellen, wohl schon etwas machen. Aber ab Montag werde ich 2 Wochen lang sonniges Wetter testen und kann in dieser Zeit keine Fragen beantworten.
(21.02.2026, 17:54)Shi3x schrieb: Berufsbedingt arbeite ich häufig mit Lieferverteilern, in denen ich Artikel den jeweiligen Shops in einer linearen Tabelle zuordnen muss. Vom Kunden erhalte ich in der Regel bereits vorbereitete Excel-Listen mit folgendem Aufbau: Oft kommt es vor, dass derselbe Shop mehrfach in der Liste enthalten ist – allerdings mit leicht unterschiedlicher Schreibweise.
Meine Frage: Gibt es eine saubere Lösung (z. B. mit Power Query, Formeln oder Fuzzy-Abgleich), um solche „ähnlichen“ Datensätze automatisch zu erkennen und zusammenzuführen?
Bei diesem Ansatz: Klares nein.
In Power Query gibt es einen Fuzzy-Vergleich, dieser benutzt die Jaccard-Methode, was für Textvergleiche gut funktioniert. Allerdings ist es sinnlos eine Inputliste mit sich selbst abzugleichen, denn wenn wir 2 ähnliche Einträge finden wissen wir nicht welcher korrekt ist, bzw. überhaupt => 2 falsche Adressen ergeben auch kombiniert keine richtige. https://support.microsoft.com/de-de/offi...3962b90649
Wenn ich mal davon ausgehe das in der Vergangenheit korrekte Adressen (letzten Endes) verwendet wurden, dann nenne ich das mal eine Adressdatenbank. Die Inputliste mit dieser abzugleichen ist der Weg, wir müssen "nur" die Adressen aus der Datenbank der Inputliste zuordnen.
Die Frage ist wie zuverlässig das ist und ggf. welche Vergleichsmethode dafür zu nehmen ist, das können wir nicht beantworten. Es gibt viele Methoden, keine ist "die beste" und je nach Datenlage ist mal die eine besser als die andere und umgekehrt.
Um die Frage der Zuverlässigkeit zu beantworten macht man einen Vergleich der Adressdatenbank mit sich selber, setzt nach und nach den Schwellwert herunter bis Duplikate auftreten.
Die Vergleichsmethode, die mit dem niedrigsten Schwellenwert keine Duplikate liefert, ist mutmaßlich die beste... allerdings gilt das nur bei ausreichend großer Datenmenge, je weniger Daten ich habe desto schlechter lässt sich das beurteilen. Im Prinzip betreibt man ja eine Art von Statistik.
Beim Vergleich der Inputliste mit der Datenbank läßt man die PLZ weg, die Kombination aus StraßeNr und Ort ist eindeutig. Für die Problematik das Orte auch mit Ortsteil genannt werden können oder Firmen wie Microsoft als MFST abgekürzt werden bedarf es einer Transformationstabelle, diese ersetzt quasi im Vorfeld die Problemfälle.
22.02.2026, 11:44 (Dieser Beitrag wurde zuletzt bearbeitet: 22.02.2026, 11:45 von ws-53.)
Ich habe es gefunden. Das habe ich Anfang 2023 entwickelt. Ich denke, damit lassen sich doppelte recht gut finden.
Nachtrag: Jetzt habe ich meine Lösung durch den Copilot beurteilen lassen. Sicherlich hat er übertrieben, aber es zeigt, dass meine Lösung nicht so schlecht sein kann.
Folgende(r) 1 Nutzer sagt Danke an ws-53 für diesen Beitrag:1 Nutzer sagt Danke an ws-53 für diesen Beitrag 28 • Jockel
hier mal eine alte VBA Lösung, heute unmodern, funktioniert aber immer noch. Würde mich freuen wenn dir das weiterhilft. Leider gab es keine Beispieldatei von dir. Sollte das Makro nicht reichen dann bitte ein Beispiel hochladen mit Wunschergebnis von Hand.