Speicherung und Abfrage sehr großer Datenmengen (über relationale DBs hinaus)

Question

Speicherung und Abfrage sehr großer Datenmengen (über relationale DBs hinaus)

Gefragt el 20 de Januar, 2011: Wann wurde die Frage gestellt
1228 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Wir stehen derzeit vor dem Problem, wie wir Daten aus sehr großen Datensätzen (in Milliardenhöhe) effektiv speichern und abrufen können. Wir haben Mysql verwendet und das System, das Betriebssystem, das Raid, die Abfragen, die Indizes usw. optimiert, und wollen nun weitergehen.

Ich muss eine fundierte Entscheidung darüber treffen, welche Technologie ich zur Lösung unserer Datenprobleme einsetzen soll. Ich habe mich mit Map/Reduce mit HDFS beschäftigt, aber ich habe auch viel Gutes über HBase gehört. Ich komme nicht umhin zu glauben, dass es auch noch andere Optionen gibt. Gibt es einen guten Vergleich der verfügbaren Technologien und der jeweiligen Kompromisse?

Wenn Sie Links zu den einzelnen Themen haben, wäre ich Ihnen ebenfalls dankbar.

Gefragt el 20 de Januar, 2011 von jW.

Answer 1

1 Antworten

Answer 2

4voto

David Gruzman Punkte 7870

Das ist ein weit gefasstes Thema. Ich werde versuchen, Richtungen zu geben, und für jeden einzelnen können Sie nachschauen oder um weitere Informationen bitten. Die erste sind ...konventionelle DBs. Wenn die Daten so wertvoll sind, dass Sie RAIDs und gute Server haben können, könnte Oracle eine gute, aber teure Lösung sein. TPC-H ist ein Industriestandard-Benchmark für die Abfrage von Entscheidungshilfen: http://www.tpc.org/tpch/results/tpch_perf_results.asp und es ist ein Link zum Ergebnis der Spitzenleistung. Wie Sie sehen können, können RDBMS bis zu Terabytes an Daten skalieren.
Die zweite ist Hadoop in Form von HDFS + Map/Reduce + Hive. Hive ist eine Datawarehousing-Lösung auf der Grundlage von MapReduce. Sie erhalten einige zusätzliche Vorteile wie die Möglichkeit, Daten im Originalformat zu speichern und linear zu skalieren. Eines der Dinge, die Sie sehen werden - Indizierung und Ausführung sehr komplexer Abfragen.
Die dritte ist MPP - Massive Parralel Processing Database. Sie sind skalierbar von Dutzenden bis zu Hunderten von Knoten und haben eine umfangreiche SQL-Unterstützung. Beispiele sind Netezza, Greenplum, Asterdata und Vertica. Die Auswahl unter ihnen ist keine einfache Aufgabe, aber bei präziseren Anforderungen ist sie auch machbar.

Beantwortet el 20 de Januar, 2011 von David Gruzman (7870 Punkte )

Speicherung und Abfrage sehr großer Datenmengen (über relationale DBs hinaus)

Antwort

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Speicherung und Abfrage sehr großer Datenmengen (über relationale DBs hinaus)

Antwort

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: