Adressenabgleich - Lieferverteiler - "Duplikate" erkennen
#11
Es ist für die meisten Helfer, wie auch für mich, überhaupt kein Problem, wenn einem Fragesteller angebotene Lösungen nicht gefallen, oder nicht passen. Aber wer nicht einmal darauf antwortet, steigert die Chance, das nächste mal ignoriert zu werden.
Antworten Top
#12
Schmunzel ....

Zitat:überhaupt kein Problem ....

mfg Gast 123
Antworten Top
#13
(22.02.2026, 11:44)ws-53 schrieb: Nachtrag: Jetzt habe ich meine Lösung durch den Copilot beurteilen lassen. Sicherlich hat er übertrieben, aber es zeigt, dass meine Lösung nicht so schlecht sein kann.

Möchtest Du ein Beispiel mit den Vorgaben des OP in diesem Thread was die Schwachstellen in Deiner Lösung aufzeigt?

Andreas.
Antworten Top
#14
Ich habe eine Lösung eingestellt, mit der sich recht gut Dubletten finden lassen. Somit kann diese eine Basis darstellen, die an die Bedürfnisse des Fragestellers angepasst werden kann. Aber dazu müsste der Fragesteller Feedback geben. Vorher kann ich mir zwar über ungelegte Eier Gedanken machen, muss aber nicht aktiv werden, da ich ja nicht weiß, ob sich meine weiterführenden Gedanken mit den Bedürfnissen des Fragesteller decken.
Antworten Top
#15
(07.03.2026, 12:25)ws-53 schrieb: Ich habe eine Lösung eingestellt, mit der sich recht gut Dubletten finden lassen. 

Ich werte das als ein Ja. 

Mir geht es hier nicht darum Diene Lösung schlecht oder madig zu machen, aber wenn der Copilot diese über den grünen Klee gelobt hat sollte man schon mal ehrlich sein um diese Qualität dieser Antwort einschätzen zu können.

Also, wir haben 2 Beispiele vom OP bekommen und er/sie sagte das es auch vorkommt das beim runterziehen einer PLZ die Nummer erhöht wird.

Die erste Adresse nehmen wir wie sie ist, bei der 2ten erhöhen wir die PLZ um eins, bauen noch einen kleinen Tippfehler bei der Stadt ein und da es in Deutschland ja vorkommt das die eine Straßenseite eine andere PLZ als die andere hat ändern wir auch noch die Hausnummer.

Key Name City Street
1 Aldi 53492, Köln Moselstraße 39
2 ALDI 53493 Koelln Moselstrasse 38

das könnten nun 2 korrekte Adressen sein oder auch Tippfehler, kann man sich aussuchen wie man das sehen möchte. 

Jetzt tun wir noch eine 3te Adresse dazu, denn weiter die Straße runter wohnt dieser Mann:
3 Aldy, Aiman 53492 Köln Moselstraße 99

Jetzt tun wir diese 3 Adressen in Dein Tool und kucken mal welche beiden Adressen wohl die beste Übereinstimmung bekommen...

Bevor Du Dir Deine Datei herunterlädst versuche mal einzuschätzen wie das Ergebnis aussieht.

.xlsx   Excel PQ - Compare addresses on similarity - 26.02.xlsx (Größe: 1,28 MB / Downloads: 5)

Andreas.
Antworten Top
#16
@ Andreas

Ich schrieb:
Zitat: Jetzt habe ich meine Lösung durch den Copilot beurteilen lassen. Sicherlich hat er übertrieben, aber es zeigt, dass meine Lösung nicht so schlecht sein kann.

Denn ich wollte vom Copilot nur eine Einschätzung der Tauglichkeit, da ja die KI eine ziemlich umfassende Vergleichsmenge hat, um die Tauglichkeit einer Lösung, oder auch nur einer Idee zu beurteilen.

Weiterhin bin ich der Meinung, dass es sowohl bei einem Fuzzy-Search, als auch bei einer Dublettensuche kein perfekt perfekt gibt. Aber das hattest du ja auch schon erwähnt. Ebenso hatte ich bereits 2023, so wie auch du es empfiehlst, die PLZ nicht berücksichtigt. Aber egal, ob mit Power Query, oder irgend einer anderen Programmiersprache, ist auch einfach realisierbar, über eine Parametertabelle zu definieren, welche Felder eines Datensatzes berücksichtigt werden sollen.

Weiterhin würde ich jedem Adresssatz einen Key zuordnen, sowie ein Feld, um auf den Hauptkey einer Dublette verweisen zu können. Darüber können auch bereits getätigte Umsätze auf den Hauptkey zusammengeführt werden. Denn gefundene Dubletten dürfen spätestens dann, wenn es schon Bewegungsdaten zu dieser gibt nicht mehr gelöscht werden. Ebenso würde ich eine weitere Tabelle definieren, in der definiert werden kann, welcher Key nicht Dublette zu einem oder mehrerer anderen Keys ist.

In der Dublettenprüfung selbst würd dich dann noch mindestens folgende Optionen einbauen: 
  • Prüfe alle
  • Ignoriere die mit Verweis auf Hauptkey
  • Prüfe nur die mit Verweis auf Hauptkey 
  • Ignoriere die, die als "keine Dublette" eingetragen sind
  • Prüfe die, die als "keine Dublette" eingetragen sind

Und wenn mir meine Lösung aus 2023 schon zu einem Zeitpunkt eingefallen wäre, als ich noch ABAP programmiert hatte, dann hätte ich diese für einen Adressbestand von mehreren Millionen Datensätzen realisiert und mir wären dann im Laufe der Zeit noch einige Verbesserungsideen eingefallen.

Und klar ist auch, dass mit meiner Lösung und den von dir konstruierten Beispielen recht hohe Übereinstimmungswerte herauskommen. Entsprechend des Ergebnisses der manuellen Prüfung, würde ich dann entweder eine Zuordnung zu einem Hauptkey vornehmen, oder in die Ignore-Tabelle einfügen.
Antworten Top
#17
(08.03.2026, 10:15)ws-53 schrieb: Und klar ist auch, dass mit meiner Lösung und den von dir konstruierten Beispielen recht hohe Übereinstimmungswerte herauskommen. Entsprechend des Ergebnisses der manuellen Prüfung, würde ich dann entweder eine Zuordnung zu einem Hauptkey vornehmen, oder in die Ignore-Tabelle einfügen.

Den Satz habe ich verstanden, alles andere davor... eher nicht, keine Idee was Du wie da machen willst. Ich kann Dir aus eigener Erfahrung sagen das das Leben ein Schweinehund ist und Dir eine 4te Adresse ein Stück weiter die Straße runter in andere Richtung dazu macht:

4 Aldi, Aiman 53492 Köln Moselstraße 19

BTW, google mal nach den Namen Aldi und Aldy, Aiman die Menschen gibt es wirklich, wenn auch im Moment wohl mit anderen Adressen. Aber morgen, Du weißt nicht wer ein Stück weiter die Straße runter einzieht.

Die Ideen in Deinem Tool aus Schrottadressen etwas verwertbares zu machen sind gut, aber aus Schrott kriegst Du nur mit Zufall in seltenen Fällen was richtiges und läufst öfter Gefahr aus einer korrekten Adresse Schrott zu machen. 
Und das mit sich selber zu vergleichen...


Andreas.
Antworten Top
#18
Zitat:#1 - Problem: Oft kommt es vor, dass derselbe Shop mehrfach in der Liste enthalten ist – allerdings mit leicht unterschiedlicher Schreibweise.
Zitat:Andreas Killer - Die Ideen in Deinem Tool aus Schrottadressen etwas verwertbares zu machen …

Wie kommst du darauf, dass ich aus Schrottadressen etwas verwertbares machen will ???
 
Es geht einzig und allein darum Adressen (Kunden) zu finden, die Dubletten sein könnten. Ein Klassiker aus der Zeit, als noch bei den Versandhäusern: Neckermann, Otto, Quelle, … bestellt wurde, dass Günther Schmitt der wegen überfälliger Rechnungen nicht mehr beliefert wurde, halt als Günter Schmidt bestellt hatte und wieder eine Weile beliefert wurde. Oder die Magdalena Krause-Obermayr hat halt mal, ohne betrügerische Absicht, mit und mal ohne ihren Doppelnamen bestellt.
 
Um meine Fuzzy-Suche testen zu können, hatte ich mir mal von meinem Arbeitgeber 25.000 echte Kundendaten heruntergeladen, die zu über 90% aus Privatpersonen bestanden. Aus Datenschutzgründen habe ich dann sämtliche Namens- und Adressbestandsteile vereinzelt und nach Zufall wieder zusammengeführt. Lediglich, um nicht Mengenverhältnisse zu verfälschen, habe ich die Plz-/Ortsbeziehungen bestehen lassen. Direkt danach hatte ich dann den Original Downlaod gelöscht, damit auch ich nicht mehr in der Lage war, irgendeinen Unsinn mit den originalen Kundendaten anzustellen.
 
Diesen Datenbestand habe ich dann auch verwendet, um meine Dublettensuche zu testen. Und natürlich habe ich dann beim Testen auch weitere Adressen angelegt, um zu prüfen, ob und wie meine Logiken damit umgehen.
 
Am Ende entscheidet ein Mensch, ob eine Adresse eine Dublette ist und eine Zuordnung (Neu zu Bestand / Bestand zu neu, wenn neu korrekt) erfolgt, oder ob es sich um zwei unabhängige Kunden handelt.
 
Insofern kann ich deine oben zitierte Anmerkung überhaupt nicht nachvollziehen.
Antworten Top
#19
(09.03.2026, 12:23)ws-53 schrieb: Wie kommst du darauf, dass ich aus Schrottadressen etwas verwertbares machen will ???

Die Datenlage des OP in diesem Thread: Er/Sie hat Adressen die (aus menschlicher Sicht) ähnlich sind, Groß-/Kleinschreibung ist anders, PLZ ist +1, Strasse mit ß, usw.

Das sind für mich Schrottadressen => man weiß nicht ob die Adresse nun richtig ist oder nicht.
Antworten Top
#20
Zumindest gültige PLZ-/Ortlisten sind im Internet kostenlos verfügbar und können normalerweise recht einfach in eine Adresspflege eingebunden werden. Das ganze gibt es auch mit Straßennamen, sind dann aber kaum noch kostenlos, bzw. würde eine Excelanwendung eher Träge machen.
Antworten Top


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 2 Gast/Gäste