Dieses Forum nutzt Cookies
Dieses Forum verwendet Cookies, um deine Login-Informationen zu speichern, wenn du registriert bist, und deinen letzten Besuch, wenn du es nicht bist. Cookies sind kleine Textdokumente, die auf deinem Computer gespeichert werden. Die von diesem Forum gesetzten Cookies werden nur auf dieser Website verwendet und stellen kein Sicherheitsrisiko dar. Cookies aus diesem Forum speichern auch die spezifischen Themen, die du gelesen hast und wann du zum letzten Mal gelesen hast. Bitte bestätige, ob du diese Cookies akzeptierst oder ablehnst.

Ein Cookie wird in deinem Browser unabhängig von der Wahl gespeichert, um zu verhindern, dass dir diese Frage erneut gestellt wird. Du kannst deine Cookie-Einstellungen jederzeit über den Link in der Fußzeile ändern.

Clustern von großer, granularer Datenmenge
#1
Hallo zusammen,

ich habe folgendes Problem:

ich habe riesige Datenmenge Wetterdaten (pro File 50MB, 650.000 Zeilen) die ich analysieren will.

Die Tabelle ist folgendermaßen aufgebaut:
A: Datum & Uhrzeit
B: Breitengrad
C: Längengrad
D: Windgeschwindigkeit
E: Wellenhöhe
F: Seegang

Die Daten sind aktuell chronologisch geordnet. Für jede Koordinate liegen zu verschiedenen Uhrzeiten Messdaten vor.
Die Breitengrade und Längengrade decken einen Bereich ab.
Es liegen für die Breitengrade und Längengrade jeweils 1000 verschiedene Werte vor.

Mein Ziel ist es die Mittelwerte der Windgeschwindigkeit (ggfs. auch Wellenhöhe und Seegang) pro Koordinaten-Paar zu erhalten, um dann die Koordinaten zu clustern, bzw. das gesamte Gebiet in ein Teilgebiet einzuteilen. Ich kann nämlich keine Analyse für jedes einzelne Koordinatenpaar durchführen.

Wären es nicht so viele Daten würde ich folgendermaßen vorgehen:

Verketten von Längengrad und Breitengrad zu einer Zelle für jede mögliche Kombination
Summewenn(Verkettung Längen und Breitengrad;Windgeschwindigkeit) / Anzahlwenn(Verkettung Längen und Breitengrad) für alle einzelnen Paare.

Habt ihr eine Idee, wie ich das für die große Menge an Daten analysieren und zusammenfassen kann.
Als Wunschdarstellung habe ich aktuell eine Heatmap im Kopf. (X= Breitengrad, Y=Längengrad, Farbskala beschreibt durchschnittliche Windgeschwindigkeit)

Vielen Dank für eure Ideen

Viele Grüße
Florian
Antworten Top
#2
Hallo,

das ist doch einmal eine interessante Frage.

Beim Stichwort "Cluster" denke ich zuerst an SPSS oder ähnlich Statistikprogramme. Aber für einen Vorschlag mit Excel wird eine (möglichst kleine) Beispieldatei benötigt, wenige duzend/hundert Datensätze sollten ausreichen, das Zusammenfassen zu testen.

Eine Wunschlösung wäre sehr hilfreich.

mfg
Antworten Top
#3
Hi,

danke erstmal für die schnelle Antwort.

Angehängt habe ich ein Auszug der Daten.

Ich besitze auch Origin als Statistikprogramm, falls du denkst, dass damit eine Lösung einfacher wäre. Leider habe ich bisher keinerlei Erfahrung in Origin und noch Probleme. Falls du unabhängig von Excel ein Ratschlag geben kannst, bin ich dir natürlich auch sehr dankbar.

Im Kopf habe ich als eine Heatmap wie diese. Ich stelle hier drei Dimensionen (Längengrad, Breitengrad, Messwert) da. Daraus könnte ich dann verschiedene Daten zusammenfassen.

Externer Link entfernt

Viele Grüße
Florian


Angehängte Dateien
.zip   2014-04-03_2014-12-31_forum.csv.zip (Größe: 61,74 KB / Downloads: 2)
Antworten Top
#4
Hallo,

zuerst: warum zip'st du die Datei, man kann auch xlsx hochladen und vermeidet das Sicherheitsrisiko der zip!

Eine echte Clusterung ist in XL ohne Add-ins nicht möglich, Hilfskonstruktionen schon.

Z.B. die Windgeschwindigkeit in (willkürliche) Gruppen einteilen geht recht einfach. Da müßtest du aber zuerst die Kriterien definieren, auch welche Zeiten zusammengefasst werden sollen.

Also wenn dir Gruppenbildung mit Mittelwert, Median, Anzahl der Gruppen uä helfen würden, könnte man das in XL versuchen.

Das Bild ist(für mich) nicht erkennbar.

mfg
Antworten Top


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste