Ich habe einen nicht computergestützten Datenlogger, der Daten aus dem Feld sammelt. Diese Daten werden als Textdateien gespeichert, und ich fasse die Dateien manuell zusammen und organisiere sie. Das aktuelle Format ist eine csv-Datei pro Jahr und Logger. Jede Datei umfasst etwa 4.000.000 Zeilen x 7 Logger x 5 Jahre = eine Menge Daten. Einige der Daten sind als Bins item_type, item_class, item_dimension_class organisiert, und andere Daten sind eindeutiger, wie item_weight, item_color, date_collected, und so weiter ...
Derzeit führe ich statistische Analysen der Daten mit einem von mir geschriebenen Python/Numpy/Matplotlib-Programm durch. Es funktioniert gut, aber das Problem ist, dass ich der Einzige bin, der es benutzen kann, da es und die Daten auf meinem Computer liegen.
Ich möchte die Daten im Web veröffentlichen, indem ich eine Postgres-Datenbank verwende. Allerdings muss ich ein statistisches Tool finden oder implementieren, das eine große Postgres-Tabelle verarbeitet und statistische Ergebnisse innerhalb eines angemessenen Zeitrahmens liefert. Ich bin mit Python für das Web nicht vertraut, aber ich beherrsche PHP auf der Web-Seite und Python auf der Offline-Seite.
Die Nutzer sollten ihre eigenen Histogramme und Datenanalysen erstellen können. Zum Beispiel kann ein Benutzer nach allen Artikeln suchen, die zwischen Woche x und Woche y blau versandt wurden, während ein anderer Benutzer nach der Gewichtsverteilung aller Artikel nach Stunden für das ganze Jahr suchen kann.
Ich dachte daran, meine eigenen Statistik-Tools zu erstellen und zu indizieren oder den Prozess irgendwie zu automatisieren, um die meisten Abfragen zu emulieren. Das erschien mir ineffizient.
Ich freue mich darauf, Ihre Ideen zu hören
Gracias