5 Stimmen

Warum machen spaltenorientierte Datenbanken wie Vertica/InfoBright/GreenPlum so einen Wirbel um Hadoop?

Welchen Sinn hat es, einen Hadoop-Cluster zu füttern und diesen Cluster zur Einspeisung von Daten in ein Vertica/InfoBright Datawarehouse zu verwenden?

Alle diese Anbieter sagen "wir können eine Verbindung zu Hadoop herstellen", aber ich verstehe nicht, was der Sinn dahinter ist. Welches Interesse besteht daran, Daten in Hadoop zu speichern und in InfoBright zu übertragen? Warum können die Anwendungen nicht direkt in der Infobright/Vertica DW gespeichert werden?

Ich danke Ihnen!

0voto

dmeister Punkte 33302

Massive parallele Datenbanken wie Greenplum DB eignen sich hervorragend für die Verarbeitung großer Mengen strukturierter Daten. Hadoop eignet sich hervorragend für die Verarbeitung noch größerer Mengen unstrukturierter Daten, z. B. von Websites.

Heutzutage werden bei einer Vielzahl interessanter Analysen diese beiden Datentypen kombiniert, um Erkenntnisse zu gewinnen. Daher ist es wichtig, dass diese Datenbanksysteme in der Lage sind, sich in Hadoop zu integrieren.

Sie könnten zum Beispiel eine Textverarbeitung auf dem Hadoop-Cluster mit MapReduce durchführen, bis Sie einen Scoring-Wert pro Produkt oder ähnliches haben. Dieser Scoring-Wert könnte dann von der Datenbank verwendet werden, um ihn mit anderen Daten zu kombinieren, die bereits in der Datenbank gespeichert sind, oder mit Daten, die aus anderen Quellen in die Datenbank geladen wurden.

0voto

Kingz Punkte 4576

Unstrukturierte Daten eignen sich naturgemäß nicht zum Laden in Ihr herkömmliches Data Warehouse. Hadoop-Mapreduce-Aufträge können Strukturen aus Ihren Protokolldateien extrahieren (z. B.), die dann für Analysen in Ihr DW übertragen werden können. Hadoop ist eine Stapelverarbeitung und eignet sich daher nicht für die Verarbeitung analytischer Abfragen. Sie können also Ihre Daten mit Hadoop verarbeiten, um sie zu strukturieren, und sie dann über Ihre Visualisierungs-/SQL-Schicht abfragebereit machen.

0voto

Kingz Punkte 4576

Welchen Sinn hat es, einen Hadoop-Cluster zu füttern und diesen Cluster zur Einspeisung von Daten in ein Vertica/InfoBright Datawarehouse zu verwenden?

Sie möchten nicht, dass Ihre Benutzer eine Abfrage starten und minuten- oder gar stundenlang warten müssen, bevor Sie eine Antwort erhalten. Hadoop kann Ihnen keine Echtzeit-Antwort auf Ihre Abfrage geben. Dies ändert sich jedoch mit der Einführung von Impala von Cloudera und Stinger von Hortonworks. Dabei handelt es sich um Echtzeit-Datenverarbeitungsmodule für Hadoop.

Das Hadoop zugrunde liegende Datensystem HDFS ermöglicht es, Ihre Daten zu bündeln und auf die Knoten in Ihrem Cluster zu verteilen. Tatsächlich kann HDFS auch durch einen Datenspeicher eines Drittanbieters wie S3 ersetzt werden. Der Punkt ist: Hadoop bietet beides -> Speicherung und Verarbeitung. Sie können Hadoop also gerne als Speicher-Engine verwenden und die Daten bei Bedarf in Ihr Data Warehouse extrahieren. Sie können Hadoop auch zum Erstellen von Cubes und Marts verwenden und diese Marts im Warehouse speichern.

Mit dem Erscheinen des Stinger und des Impala werden diese Behauptungen jedoch bald hinfällig sein. Halten Sie also die Augen offen.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X