Statistische Analyse eines großen Datensatzes, der im Internet veröffentlicht werden soll

Question

Statistische Analyse eines großen Datensatzes, der im Internet veröffentlicht werden soll

Gefragt el 19 de April, 2010: Wann wurde die Frage gestellt
1801 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich habe einen nicht computergestützten Datenlogger, der Daten aus dem Feld sammelt. Diese Daten werden als Textdateien gespeichert, und ich fasse die Dateien manuell zusammen und organisiere sie. Das aktuelle Format ist eine csv-Datei pro Jahr und Logger. Jede Datei umfasst etwa 4.000.000 Zeilen x 7 Logger x 5 Jahre = eine Menge Daten. Einige der Daten sind als Bins item_type, item_class, item_dimension_class organisiert, und andere Daten sind eindeutiger, wie item_weight, item_color, date_collected, und so weiter ...

Derzeit führe ich statistische Analysen der Daten mit einem von mir geschriebenen Python/Numpy/Matplotlib-Programm durch. Es funktioniert gut, aber das Problem ist, dass ich der Einzige bin, der es benutzen kann, da es und die Daten auf meinem Computer liegen.

Ich möchte die Daten im Web veröffentlichen, indem ich eine Postgres-Datenbank verwende. Allerdings muss ich ein statistisches Tool finden oder implementieren, das eine große Postgres-Tabelle verarbeitet und statistische Ergebnisse innerhalb eines angemessenen Zeitrahmens liefert. Ich bin mit Python für das Web nicht vertraut, aber ich beherrsche PHP auf der Web-Seite und Python auf der Offline-Seite.

Die Nutzer sollten ihre eigenen Histogramme und Datenanalysen erstellen können. Zum Beispiel kann ein Benutzer nach allen Artikeln suchen, die zwischen Woche x und Woche y blau versandt wurden, während ein anderer Benutzer nach der Gewichtsverteilung aller Artikel nach Stunden für das ganze Jahr suchen kann.

Ich dachte daran, meine eigenen Statistik-Tools zu erstellen und zu indizieren oder den Prozess irgendwie zu automatisieren, um die meisten Abfragen zu emulieren. Das erschien mir ineffizient.

Ich freue mich darauf, Ihre Ideen zu hören

Gracias

Gefragt el 19 de April, 2010 von dassouki

Answer 1

1 Antworten

Answer 2

1voto

tk. Punkte 1136

Ich denke, Sie können Ihre derzeitige Kombination (Python/Numpy/Matplotlib) voll ausnutzen, wenn die Anzahl der Benutzer nicht zu groß ist. Ich mache einige ähnliche Arbeiten, und meine Datengröße ein wenig mehr als 10g. Die Daten sind in einigen Sqlite-Dateien gespeichert, und ich verwende Numpy zur Datenanalyse, PIL/matplotlib zur Erstellung von Diagrammen (png, gif), Cherrypy als Webserver und Mako als Template-Sprache.

Wenn Sie mehr Server/Client-Datenbanken benötigen, können Sie zu Postgresql migrieren, aber Sie können Ihre aktuellen Programme immer noch voll nutzen, wenn Sie ein Python-Web-Framework wie Cherrypy verwenden.

Beantwortet el 19 de April, 2010 von tk. (1136 Punkte )

Statistische Analyse eines großen Datensatzes, der im Internet veröffentlicht werden soll

Antwort

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Statistische Analyse eines großen Datensatzes, der im Internet veröffentlicht werden soll

Antwort

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: