4 Stimmen

Statistische Analyse eines großen Datensatzes, der im Internet veröffentlicht werden soll

Ich habe einen nicht computergestützten Datenlogger, der Daten aus dem Feld sammelt. Diese Daten werden als Textdateien gespeichert, und ich fasse die Dateien manuell zusammen und organisiere sie. Das aktuelle Format ist eine csv-Datei pro Jahr und Logger. Jede Datei umfasst etwa 4.000.000 Zeilen x 7 Logger x 5 Jahre = eine Menge Daten. Einige der Daten sind als Bins item_type, item_class, item_dimension_class organisiert, und andere Daten sind eindeutiger, wie item_weight, item_color, date_collected, und so weiter ...

Derzeit führe ich statistische Analysen der Daten mit einem von mir geschriebenen Python/Numpy/Matplotlib-Programm durch. Es funktioniert gut, aber das Problem ist, dass ich der Einzige bin, der es benutzen kann, da es und die Daten auf meinem Computer liegen.

Ich möchte die Daten im Web veröffentlichen, indem ich eine Postgres-Datenbank verwende. Allerdings muss ich ein statistisches Tool finden oder implementieren, das eine große Postgres-Tabelle verarbeitet und statistische Ergebnisse innerhalb eines angemessenen Zeitrahmens liefert. Ich bin mit Python für das Web nicht vertraut, aber ich beherrsche PHP auf der Web-Seite und Python auf der Offline-Seite.

Die Nutzer sollten ihre eigenen Histogramme und Datenanalysen erstellen können. Zum Beispiel kann ein Benutzer nach allen Artikeln suchen, die zwischen Woche x und Woche y blau versandt wurden, während ein anderer Benutzer nach der Gewichtsverteilung aller Artikel nach Stunden für das ganze Jahr suchen kann.

Ich dachte daran, meine eigenen Statistik-Tools zu erstellen und zu indizieren oder den Prozess irgendwie zu automatisieren, um die meisten Abfragen zu emulieren. Das erschien mir ineffizient.

Ich freue mich darauf, Ihre Ideen zu hören

Gracias

1voto

tk. Punkte 1136

Ich denke, Sie können Ihre derzeitige Kombination (Python/Numpy/Matplotlib) voll ausnutzen, wenn die Anzahl der Benutzer nicht zu groß ist. Ich mache einige ähnliche Arbeiten, und meine Datengröße ein wenig mehr als 10g. Die Daten sind in einigen Sqlite-Dateien gespeichert, und ich verwende Numpy zur Datenanalyse, PIL/matplotlib zur Erstellung von Diagrammen (png, gif), Cherrypy als Webserver und Mako als Template-Sprache.

Wenn Sie mehr Server/Client-Datenbanken benötigen, können Sie zu Postgresql migrieren, aber Sie können Ihre aktuellen Programme immer noch voll nutzen, wenn Sie ein Python-Web-Framework wie Cherrypy verwenden.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X