5 Stimmen

Warum machen spaltenorientierte Datenbanken wie Vertica/InfoBright/GreenPlum so einen Wirbel um Hadoop?

Welchen Sinn hat es, einen Hadoop-Cluster zu füttern und diesen Cluster zur Einspeisung von Daten in ein Vertica/InfoBright Datawarehouse zu verwenden?

Alle diese Anbieter sagen "wir können eine Verbindung zu Hadoop herstellen", aber ich verstehe nicht, was der Sinn dahinter ist. Welches Interesse besteht daran, Daten in Hadoop zu speichern und in InfoBright zu übertragen? Warum können die Anwendungen nicht direkt in der Infobright/Vertica DW gespeichert werden?

Ich danke Ihnen!

14voto

Paul Desjardins Punkte 141

Warum sollten Sie die Lösungen kombinieren? Hadoop hat einige großartige Fähigkeiten (siehe URL unten). Diese Fähigkeiten umfassen jedoch nicht die Möglichkeit, dass Geschäftsanwender schnelle Analysen durchführen können. Abfragen, die in Hadoop 30 Minuten bis Stunden dauern, werden mit Infobright in 10 Sekunden ausgeführt.

Ihre ursprüngliche Frage ging übrigens nicht von einer MPP-Architektur aus, und das aus gutem Grund. Die Infobright-Kunden Liverail, AdSafe Media & InMobi, unter anderem, nutzen IEE mit Hadoop.

Wenn Sie sich für ein Industry White Paper registrieren http://support.infobright.com/Support/Resource-Library/Whitepapers/ sehen Sie einen Überblick über den aktuellen Markt, in dem vier vorgeschlagene Anwendungsfälle für Hadoop skizziert werden. Er wurde von Wayne Eckerson , Director of Research, Business Applications and Architecture Group, TechTarget, im September 2011 verfasst.

1) Erstellen Sie ein Online-Archiv .
Mit Hadoop müssen Unternehmen die Daten nicht löschen oder auf einen Offline-Speicher verlagern, sondern können sie auf unbestimmte Zeit online halten, indem sie Standard-Server hinzufügen, um die Speicher- und Verarbeitungsanforderungen zu erfüllen. Hadoop wird so zu einer kostengünstigen Alternative für die Erfüllung von Online-Archivierungsanforderungen.

2) Füttern des Data Warehouse .
Unternehmen können Hadoop auch zum Parsen, Integrieren und Aggregieren großer Mengen von Web- oder anderen Datentypen verwenden und diese dann an das Data Warehouse weiterleiten, wo sowohl Gelegenheits- als auch Power-User die Daten mit bekannten BI-Tools abfragen und analysieren können. In diesem Fall wird Hadoop zu einem ETL-Tool für die Verarbeitung großer Mengen von Webdaten, bevor sie im Data Warehouse des Unternehmens landen.

3) Unterstützung der Analytik.
Die Big-Data-Gemeinde (d. h. die Internet-Entwickler) betrachtet Hadoop in erster Linie als Analyse-Engine für die Durchführung analytischer Berechnungen mit großen Datenmengen. Um Hadoop abzufragen, müssen Analysten derzeit Programme in Java oder anderen Sprachen schreiben und MapReduce verstehen, ein Framework zum Schreiben verteilter (oder paralleler) Anwendungen. Der Vorteil dabei ist, dass Analysten bei der Formulierung von Abfragen nicht durch SQL eingeschränkt sind. SQL unterstützt viele Arten von Analysen nicht, insbesondere solche, die Berechnungen zwischen den Zeilen beinhalten, wie sie bei der Analyse des Webverkehrs üblich sind. Der Nachteil ist, dass Hadoop Batch-orientiert ist und sich nicht für iterative Abfragen eignet.

4) Berichte ausführen.
Durch seine Batch-Orientierung eignet sich Hadoop jedoch für die Ausführung von regelmäßig geplanten Berichten. Anstatt Berichte anhand von zusammengefassten Daten auszuführen, können Unternehmen sie jetzt anhand von Rohdaten ausführen, was die genauesten Ergebnisse garantiert.

4voto

Arnon Rotem-Gal-Oz Punkte 24695

Es gibt mehrere Gründe, warum Sie das tun sollten 1. Kosten pro TB. Die Speicherkosten in Hadoop sind viel billiger als bei Vertica/Netezza/Greenplum und dergleichen). Sie können langfristige Daten in Hadoop und kurzfristige Daten in der analytischen DB speichern. 2. Die Möglichkeiten der Dateneingabe in Hadoop (Durchführung von Transformationen) sind in Hadoop besser 3. Programmatische Analytik (Bibliotheken wie Mahout ), damit Sie erweiterte Textanalysen erstellen können 4. Umgang mit unstrukturierten Daten

Die MPP-DBs bieten eine bessere Leistung bei Ad-hoc-Abfragen, einen besseren Umgang mit strukturierten Daten und Konnektivität zu traditionellen BI-Tools (OLAP und Reporting) - Hadoop ergänzt also im Grunde das Angebot dieser DBs

3voto

Miguel Ping Punkte 17786

Hadoop ist eher eine Plattform als eine DB.

Stellen Sie sich Hadoop als ein ordentliches Dateisystem vor, das viele Abfragen über verschiedene Dateitypen unterstützt. Vor diesem Hintergrund laden die meisten Leute Rohdaten in Hadoop ab und verwenden es als Zwischenschicht in der Datenpipeline, wo es die Daten verarbeiten und an andere Systeme wie Vertica oder andere weiterleiten kann. Sie haben mehrere Vorteile, die sich wie folgt zusammenfassen lassen Entkopplung .

Hadoop wird also zu einem die Tatsache Speicherplattform für Big Data. Sie ist einfach, fehlertolerant, gut skalierbar und lässt sich leicht füttern und mit Daten versorgen. Die meisten Anbieter versuchen also, ein Produkt an Unternehmen zu verkaufen, die wahrscheinlich bereits eine Hadoop-Installation haben.

3voto

Up_One Punkte 5093

Was macht den gemeinsamen Einsatz für diese Software so effektiv?

Erstens haben beide Plattformen viele Gemeinsamkeiten:

  • Von Grund auf speziell für die Transformation und Analyse von Big Data entwickelt
  • Nutzung der MPP-Architektur zur Skalierung mit handelsüblicher Hardware, Verwaltung von TBs bis PBs an Daten
  • Native HA-Unterstützung mit geringem Verwaltungsaufwand

Hadoop ist ideal für die erste explorative Datenanalyse, bei der die Daten oft in HDFS Vertica hingegen ist ideal für stilisierte, interaktive Analysen, bei denen eine bekannte Analysemethode wiederholt auf eingehende Datenstapel angewendet werden muss.

Durch die Verwendung von Verticas Hadoop-Anschluss können Nutzer problemlos Daten zwischen den beiden Plattformen austauschen. Außerdem kann ein einzelner Analyseauftrag in Teile zerlegt werden, die die Ausführungsleistung beider Plattformen nutzen. In einem Anwendungsfall der Webanalyse werden beispielsweise die von Webservern generierten JSON-Daten zunächst in HDFS abgelegt. Anschließend wird ein Map-Reduce-Auftrag aufgerufen, um diese halbstrukturierten Daten in relationale Tupel zu konvertieren. Die Ergebnisse werden dann in Vertica geladen, um die Speicherung und den Abruf durch nachfolgende Analyseabfragen zu optimieren.

Was sind die Hauptunterschiede, durch die sich Hadoop und Vertica bei der Bewältigung von Big Data ergänzen?

  • Schnittstelle und Erweiterbarkeit

    Hadoop
    Die Map-Reduce-Programmierschnittstelle von Hadoop richtet sich an Entwickler und ist bekannt für ihre mehrsprachige Unterstützung sowie für fertige Analysebibliotheken, die von einer starken Gemeinschaft bereitgestellt werden.
    Vertica
    Die Schnittstelle von Vertica entspricht den BI-Branchenstandards (SQL, ODBC, JDBC usw.). Dies ermöglicht es sowohl Technologen als auch Business-Analysten, Vertica in ihren analytischen Anwendungsfällen zu nutzen. Das SDK ist eine Alternative zum Map-Reduce-Paradigma und bietet häufig eine höhere Leistung.

  • Werkzeugkette/Ökosystem

    Hadoop
    Hadoop und HDFS lassen sich gut mit vielen anderen Open-Source-Tools integrieren. Die Integration mit bestehenden BI-Tools ist im Kommen.
    Vertica
    Vertica lässt sich aufgrund seiner standardkonformen Schnittstelle mit den BI-Tools integrieren. Über den Hadoop-Connector von Vertica können Daten parallel zwischen Hadoop und Vertica ausgetauscht werden.

  • Speicherverwaltung

    Hadoop
    Hadoop repliziert Daten standardmäßig 3 Mal für HA. Es segmentiert die Daten über den Maschinen-Cluster für den Lastausgleich, aber das Datensegmentierungsschema ist für die Endbenutzer undurchsichtig und kann nicht für die Optimierung der Analyseaufgaben optimiert werden.
    Vertica
    Die spaltenbasierte Komprimierung von Vertica erreicht oft ein Kompressionsverhältnis von 10:1. Bei einer typischen Vertica-Bereitstellung werden die Daten einmal für HA repliziert, und beide Datenrepliken können ein unterschiedliches physisches Layout erhalten, um für eine größere Bandbreite von Abfragen optimiert zu werden. Schließlich segmentiert Vertica die Daten nicht nur für den Lastausgleich, sondern auch für die Komprimierung und die Optimierung der Abfrage-Workloads.

  • Optimierung der Laufzeit

    Hadoop
    Da die HDFS-Speicherverwaltung die Daten nicht so sortiert oder segmentiert, dass sie für einen Analyseauftrag optimiert sind, müssen die Eingabedaten zur Laufzeit des Auftrags häufig im gesamten Cluster neu segmentiert und/oder sortiert werden, was eine große Menge an Netzwerk- und Festplatten-E/A verursacht.

    Vertica
    Das Datenlayout wird häufig während des Datenladens für die Arbeitslast der Zielabfrage optimiert, so dass zur Laufzeit der Abfrage nur eine minimale Menge an E/A anfällt. Folglich ist Vertica für Echtzeit-Analysen und nicht für die stapelorientierte Datenverarbeitung konzipiert.

  • Automatische Abstimmung

    Hadoop
    Die Map-Reduce-Programme verwenden prozedurale Sprachen (Java, Python usw.), die den Entwicklern eine feinkörnige Kontrolle über die analytische Logik ermöglichen, aber auch eine sorgfältige Optimierung der Aufträge in ihren Programmen erfordern.
    Vertica
    Der Vertica Database Designer bietet eine automatische Leistungsabstimmung anhand einer eingegebenen Arbeitslast. Abfragen werden in der deklarativen SQL-Sprache spezifiziert und automatisch durch den Vertica-Spaltenoptimierer optimiert.

0voto

geoffrobinson Punkte 1540

Ich bin kein Hadoop-Benutzer (nur ein Vertica-Benutzer/DBA), aber ich würde annehmen, dass die Antwort in etwa so lauten würde:

Sie haben bereits eine Einrichtung mit Hadoop und möchten eine "Big Data"-Datenbank für intensive analytische Analysen hinzufügen.

-Sie möchten Hadoop für nicht-analytische Funktionen und Verarbeitung und eine Datenbank für die Analyse verwenden. Es handelt sich jedoch um dieselben Daten, so dass keine zwei Feeds erforderlich sind.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X