Dieses Forum nutzt Cookies
Dieses Forum verwendet Cookies, um deine Login-Informationen zu speichern, wenn du registriert bist, und deinen letzten Besuch, wenn du es nicht bist. Cookies sind kleine Textdokumente, die auf deinem Computer gespeichert werden. Die von diesem Forum gesetzten Cookies werden nur auf dieser Website verwendet und stellen kein Sicherheitsrisiko dar. Cookies aus diesem Forum speichern auch die spezifischen Themen, die du gelesen hast und wann du zum letzten Mal gelesen hast. Bitte bestätige, ob du diese Cookies akzeptierst oder ablehnst.

Ein Cookie wird in deinem Browser unabhängig von der Wahl gespeichert, um zu verhindern, dass dir diese Frage erneut gestellt wird. Du kannst deine Cookie-Einstellungen jederzeit über den Link in der Fußzeile ändern.

Dubletten über mehrere Spalten (variabel) finden
#1
Hallo liebe Community,

ich stehe vor folgendem Problem und brauche unbedingt Rat:

Ich arbeite derzeit mit einer Excel-Tabelle mit ca. 10.000 Zeilen und 350 Spalten.

Ich muss nun doppelte Fälle (ein Fall = eine Zeile) raussuchen. Das Problem ist, dass sich die doppelten Fälle meistens in einigen Spalten unterscheiden können.

Sprich ein Fall kann doppelt sein, obwohl nur Spalte A,C,E,F usw. jeweils den gleichen Wert haben. Es gibt aber auch Fälle die doppelt sind und sich nur in den Spalten A,B,C,F,G usw. gleichen. Es gibt also etliche verschiedene Kombinationen von doppelt vorkommenden Werten in den Spalten die auf einen doppelt vorkommenden Fall hinweisen.

Mit der Funktion ZÄHLENWENNS komm ich also nicht weit, da ich hunderte verschiedene Spalten immer unterschiedlich miteinander kombinieren müssten um letztendlich alle doppelten Fälle darzustellen  Undecided



Es gilt allerdings, dass es umso wahrscheinlicher ist dass ein Fall doppelt vorhanden ist, je mehr Spalten den gleichen Wert enthalten. Gibt es irgendwie eine Möglichkeit, die ähnlich wie die ZÄHLENWENNS Funktion funktioniert, aber anstatt die Anzahl wie oft eine Zeile bzw. ein Fall doppelt vorkommt wenn die ausgewählten Spalten genau gleich sind, anzeigt wie sehr sich die Zeilen, abhängig von der Zahl der gleichen Spalten, ähneln?

Beispiel:

Zeile 1 ähnelt sich mit Zeile 2 in den Spalten A,C,D, also wird mir angezeigt: 3 Gemeinsamkeiten
Zeile 1 ähnelt sich mit Zeile 3 in den Spalten A,B,E,F,G, also wird mit angezeigt: 5 Gemeinsamkeiten

so dass ich nun die 10.000 Zeilen so sortieren kann nach der Anzahl an Spalten, mit der sich die Zeilen untereinander ähneln.

Gibt es so eine Möglichkeit oder habt ihr vielleicht andere Tipps wie ich leichter doppelte Fälle finden kann?

LG Hannes
Antworten Top
#2
Hallöchen,

eventuell hilft Dir das weiter?
Ueberpruefung_ob_in_einer_Liste_Duplikate_enthalten_sind
Du müsstest das nur auf eine Zeile umbauen ...

Oder das:
Thread-Doppelte-Werte-anzeigen
Mit dieser Funktion werden die doppelten ausgegeben.
.      \\\|///      Hoffe, geholfen zu haben.
       ( ô ô )      Grüße, André aus G in T  
  ooO-(_)-Ooo    (Excel 97-2019+365)
Antworten Top
#3
Erst einmal vielen Dank für Deine Antwort, allerdings weiß ich nicht so recht wie ich die Formeln auf meine Liste anwenden kann.

Vielleicht hilft es wenn ich genauer erläutere um was geht:

Also ich habe eine Liste mit diversen Patientendaten. Ein Patient steht in einer Zeile (davon ca. 10.000) und die Patientendaten (z.B. Daten zur Person, Laborwerte, Freitexteingaben, Binärcodes etc.) in den Spalten (davon ca. 350 pro Patient, also Zeile).

Problem ist nun, dass einige Kliniken Patienten mehrmals bzw. zweifach eingegeben haben. Allerdings können sich einige Werte (z.B. Laborwerte, Testdaten, teilweise sogar Daten zur Person) unterscheiden, obwohl es sich um den gleichen Patient handelt (z.B. weil zum späteren Zeitpunkt erneuert angelegt). Diese doppelten Fälle muss ich ausfindig machen und löschen. Dabei ist es immer unterschiedlich welche Eingaben also Spalten sich unterscheiden bzw. gleich sind. Je mehr Daten allerdings übereinstimmen, desto wahrscheinlicher, dass es sich um denselben Patient handelt.

Um das ganze noch zu erschweren sind einige Patienten gewollt doppelt eingetragen, z.B. wenn sich mit der Zeit bestimmte Daten geändert haben und diese als neuer Fall/Zeile aufgeführt werden müssen.
Es kann auch sein, dass zwei Zeilen in fast allen Werten in den Spalten übereinstimmen, es sich jedoch trotzdem um verschiedene Patienten handelt.

Ich muss also nun irgendwie eine Möglichkeit finden, die Fälle herauszufiltern, die sich in möglichst vielen Daten/Spalten gleichen und dann überprüfen, ob es sich dabei um den gleichen Patienten handelt oder nicht.

Habe es zuerst mit der ZÄHLENWENNS-Funktion versucht, allerdings kann man ja immer nur bestimmten Spalten angeben die gleich sein müssen. Ich müsste also hunderte verschiedene Kombinationen durchgehen um alle doppelten Fälle zu finden. 

Leider weiß ich hier überhaupt nicht weiter wie ich das Problem lösen kann  Huh
Antworten Top
#4
Hallöchen,

Zitat:allerdings weiß ich nicht so recht wie ich die Formeln auf meine Liste anwenden kann

Das hatte ich geschrieben, bau die Formel auf Zeilen um. Das sollte doch nicht so schwer sein. A1:A99 betrifft Daten des Bereichs einer Spalte, A1:D1 wäre es dann für die Zeile.
Hier siehst Du es:

Arbeitsblatt mit dem Namen 'Tabelle1'
ABCDE
1ABCAFALSCH
2ABCDWAHR

ZelleFormel
E1=UND(ZÄHLENWENN(A1:D1;A1:D1)<=1)
E2=UND(ZÄHLENWENN(A2:D2;A2:D2)<=1)
Verwendete Systemkomponenten: [Windows (64-bit) NT 10.00] / MS Excel 365
Diese Tabelle wurde mit Tab2Html (v2.7.1) erstellt. ©Gerd alias Bamberg


Zitat:dann überprüfen, ob es sich dabei um den gleichen Patienten handelt oder nicht.
Wenn Du die Liste filterst, kannst Du das anhand der gefilterten Daten tun.
.      \\\|///      Hoffe, geholfen zu haben.
       ( ô ô )      Grüße, André aus G in T  
  ooO-(_)-Ooo    (Excel 97-2019+365)
Antworten Top


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste