3 Stimmen

Speicherung und Abfrage sehr großer Datenmengen (über relationale DBs hinaus)

Wir stehen derzeit vor dem Problem, wie wir Daten aus sehr großen Datensätzen (in Milliardenhöhe) effektiv speichern und abrufen können. Wir haben Mysql verwendet und das System, das Betriebssystem, das Raid, die Abfragen, die Indizes usw. optimiert, und wollen nun weitergehen.

Ich muss eine fundierte Entscheidung darüber treffen, welche Technologie ich zur Lösung unserer Datenprobleme einsetzen soll. Ich habe mich mit Map/Reduce mit HDFS beschäftigt, aber ich habe auch viel Gutes über HBase gehört. Ich komme nicht umhin zu glauben, dass es auch noch andere Optionen gibt. Gibt es einen guten Vergleich der verfügbaren Technologien und der jeweiligen Kompromisse?

Wenn Sie Links zu den einzelnen Themen haben, wäre ich Ihnen ebenfalls dankbar.

4voto

David Gruzman Punkte 7870

Das ist ein weit gefasstes Thema. Ich werde versuchen, Richtungen zu geben, und für jeden einzelnen können Sie nachschauen oder um weitere Informationen bitten. Die erste sind ...konventionelle DBs. Wenn die Daten so wertvoll sind, dass Sie RAIDs und gute Server haben können, könnte Oracle eine gute, aber teure Lösung sein. TPC-H ist ein Industriestandard-Benchmark für die Abfrage von Entscheidungshilfen: http://www.tpc.org/tpch/results/tpch_perf_results.asp und es ist ein Link zum Ergebnis der Spitzenleistung. Wie Sie sehen können, können RDBMS bis zu Terabytes an Daten skalieren.
Die zweite ist Hadoop in Form von HDFS + Map/Reduce + Hive. Hive ist eine Datawarehousing-Lösung auf der Grundlage von MapReduce. Sie erhalten einige zusätzliche Vorteile wie die Möglichkeit, Daten im Originalformat zu speichern und linear zu skalieren. Eines der Dinge, die Sie sehen werden - Indizierung und Ausführung sehr komplexer Abfragen.
Die dritte ist MPP - Massive Parralel Processing Database. Sie sind skalierbar von Dutzenden bis zu Hunderten von Knoten und haben eine umfangreiche SQL-Unterstützung. Beispiele sind Netezza, Greenplum, Asterdata und Vertica. Die Auswahl unter ihnen ist keine einfache Aufgabe, aber bei präziseren Anforderungen ist sie auch machbar.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X