38 Stimmen

Pentaho vs. Microsoft BI-Stapel

Mein Unternehmen ist stark in den MS BI Stack (SQL Server Reporting Services, -Analysis Services und -Integration Services) investiert, aber ich möchte mir die scheinbar meistdiskutierte Open-Source-Alternative Pentaho einmal ansehen.

Ich habe eine Version installiert und konnte sie ohne Probleme zum Laufen bringen. Das ist also gut. Aber ich habe noch nicht wirklich die Zeit, es für die eigentliche Arbeit zu verwenden, um ein gründliches Verständnis des Pakets zu bekommen.

Hat jemand von Ihnen einen Einblick in die Vor- und Nachteile von Pentaho im Vergleich zu MS BI oder einen Link zu solchen Vergleichen?

Vielen Dank!

55voto

Stradas Punkte 1678

Ich habe mehrere Bi-Stacks geprüft, als ich mich von Business Objects lösen wollte. Viele meiner Kommentare sind Vorlieben. Beide Tool-Sets sind ausgezeichnet. Manche Dinge sind so, wie ich Schokoladen-Brownie-Eiscreme der normalen Schokolade vorziehe.

Pentaho hat einige wirklich kluge Köpfe, die mit ihnen zusammenarbeiten, aber Microsoft hat einen gut finanzierten und gut geplanten Weg eingeschlagen. Vergessen Sie nicht, dass MS auf dem Datenbankmarkt immer noch der Außenseiter ist. Oracle ist hier der König. Um wettbewerbsfähig zu sein, hat MS beim Kauf der Datenbank eine Menge Goodies verschenkt und war gezwungen, seine Plattform ein paar Mal neu zu erfinden. Ich weiß, dass es hier nicht um die Datenbank geht, aber die DB-Schlacht hat MS dazu veranlasst, eine Menge zu verschenken, um ihren Stack aufzuwerten.

1.) Plattform
SQL Server läuft nicht auf Unix oder Linux, so dass sie automatisch von diesem Markt ausgeschlossen sind. Windows ist jetzt ungefähr gleich teuer wie einige Versionen von Unix. Windows ist ziemlich billig und läuft jetzt sehr gut. Es macht mir ungefähr genauso viel Ärger wie Linux.

2.) OLAP
Analysis Services wurde 2005 (aktuell ist 2008) gegenüber der Version von 2000 neu erfunden. Es ist um eine Größenordnung leistungsfähiger als 2000. Pentaho (Mondrian) ist nicht so schnell, wenn man groß wird. Außerdem hat es nur wenige Funktionen. Es ist ziemlich gut, aber es gibt weniger Werkzeuge. Beide unterstützen Excel als Plattform, was von entscheidender Bedeutung ist. Die MS-Version ist robuster.

3.) ETL
MS - DTS wurde durch SSIS ersetzt. Auch hier ist die Geschwindigkeit, Leistung und Fähigkeit um ein Vielfaches gestiegen. Es steuert alle Datenbewegungen und Programmsteuerungen. Wenn es das nicht kann, können Sie ein Skript in Powershell schreiben. Auf Augenhöhe mit Informatica in der Version 2008. Pentaho - Viel besser als früher. Nicht so schnell, wie ich es gerne hätte, aber ich kann so ziemlich alles tun, was ich tun möchte.

4.) Armaturenbrett
Pentaho hat dies verbessert. Es ist irgendwie unbequem und unfreundlich zu entwickeln, aber es gibt wirklich kein echtes Äquiv für MS.

5.) Berichte
MS Reports ist sehr leistungsfähig, aber nicht allzu schwer zu bedienen. Ich mag es jetzt, aber anfangs habe ich es gehasst, bis ich es ein wenig besser kennengelernt habe. Ich hatte zuvor Crystal Reports verwendet, und der MS Report Builder ist viel leistungsfähiger. In MS ist es einfach, schwierige Dinge zu tun, aber etwas schwieriger, einfache Dinge zu tun. Pentaho ist ein wenig unhandlich. Mir hat es überhaupt nicht gefallen, aber vielleicht gefällt es Ihnen. Ich fand es übermäßig komplex. Ich wünschte, es wäre entweder mehr wie der Crystal Report Builder oder der MS Report Builder, aber es ist wie Jasper. Ich finde es schwierig. Das mag eine Vorliebe sein.

6.) ad hoc
MS - das war der eigentliche Gewinner für mich. Ich habe es mit meinen Benutzern getestet, und sie waren sofort begeistert vom MS User Report Builder. Was den Unterschied ausmachte, war, dass es nicht nur einfach zu benutzen, sondern auch produktiv war. Pentaho - ist gut, aber ziemlich altmodisch. Es verwendet das typische, auf Assistenten basierende Modell und verfügt über leistungsstarke Tools, aber ich hasse es. Es ist ein exzellentes Werkzeug für das, was es ist, aber wir haben uns von diesem Stil entfernt und niemand will zurückkehren. Dasselbe Problem hatte ich mit logiXML. Die Schnittstelle funktionierte gut für das, was sie war, aber sie ist nicht wirklich eine große Veränderung gegenüber dem, was wir 12 Jahre lang benutzt haben. http://wiki.pentaho.com/display/PRESALESPORTAL/Methods+von+Interaktive+Berichterstattung

Es gibt einige erfahrene Leute da draußen, die Pentaho wirklich gut zum Laufen bringen können, ich fand die MS-Suite einfach produktiver.

8voto

alchemical Punkte 13019

Achtung: Es gibt zahlreiche Websites, auf denen die zahlreichen Mängel, Fehler und Ärgernisse von SSIS aufgelistet sind. Ich bin mir nicht sicher, warum SSIS in dem Beitrag an erster Stelle steht - aber bevor Sie Ihr Projekt darauf setzen, sollten Sie sich ansehen, was die Leute in der Blogosphäre zu sagen haben. Meiner Erfahrung nach steht es etwa 20:1, dass die Leute darüber schimpfen, wie schrecklich SSIS zu bedienen ist - ich kann dem nur zustimmen und suche derzeit nach einer Alternative.

7voto

Lee Punkte 71

Tolle Informationen hier? Ich habe Pentaho noch nicht ausprobiert, aber ich habe vor, es zu testen. Ich bin ein erfahrener MS BI-Berater und benutze es seit 1998. SSIS ist sehr schnell und sehr leistungsfähig, aber die Kritikpunkte sind genau richtig. Ich habe die folgenden Probleme mit SSIS gefunden:

(1) Es ist schwer zu debuggen, Sie erhalten kryptische Fehler, die Ihnen keinen Hinweis darauf geben, was und wo das Problem wirklich liegt.

(2) Wie in einem früheren Kommentar erwähnt, ist es die beschissenste Entwicklungsumgebung überhaupt! Ich habe keine Ahnung, was sie sich dabei gedacht haben.

(a) Erstellen Sie eine Tabelle mit 100 oder mehr Spalten und legen Sie einen Merge Join an. Gehen Sie nun wieder hinein und versuchen Sie, die Verknüpfung zu aktualisieren (z. B. eine neue Spalte einzufügen). Selbst auf dem schnellsten Rechner kann es mehrere Minuten dauern, nachdem Sie auf "OK" geklickt haben, um Ihre Änderung zu speichern. Ich habe einen riesigen Datenfluss mit vielen breiten Datensätzen und vielen Zusammenführungen (Merge Joins). Das Hinzufügen einer Spalte zum Datenfluss dauert mehr als einen halben Tag. Ich aktualisiere eine Verknüpfung und muss dann etwas anderes tun und 5-10 Minuten später wieder nachsehen, ob es erledigt ist. Microsofts Antwort darauf ist, das Paket in mehrere Pakete aufzuteilen und die Daten in einer Tabelle oder einer Binärdatei zwischen den Paketen zu speichern. Nun, wenn Sie zwischen all diesen Schritten eine Diskette einlegen, können Sie das Ganze auch in SQL machen! Einer der Hauptzwecke eines ETL-Tools besteht darin, all diese Daten im Speicher zu halten und E/A auf der Festplatte zu vermeiden.

(b) Der Designer stürzt manchmal regelrecht ab, wobei die gesamte Arbeit seit dem letzten Speichern verloren geht (ich benutze Strg-S jetzt im Schlaf, weil das so ist)

(c) Ich musste mir einen Hack ausdenken und SSIS-Paket-XML in Excel für breite Datensätze generieren. Ich habe einen Kunden im Gesundheitswesen, bei dem Datensätze mit mehr als 600 Spalten an der Tagesordnung sind. Wenn Sie versuchen, ein Dateiformat mit 600 Spalten in SSIS zu definieren, müssen Sie jede einzelne Spalte einzeln eingeben!!! Selbst in MS Access kann man ein Layout aus einer Tabellenkalkulation ausschneiden und in ein Dateilayout einfügen, aber nicht in SSIS. Also musste ich das XML aus dem Layout generieren und den XML-Code an der richtigen Stelle in das Paket einfügen. Eine hässliche Methode, aber sie hat mir ganze Tage Arbeit und viele Fehler erspart.

(d) Ähnlich wie bei (c), wenn Sie alle Ihre Spalten kürzen müssen und Sie mehr als 600 davon haben, raten Sie mal? In der abgeleiteten Spaltenkomponente müssen Sie trim(column1) 600+ mal eingeben! Ich führe jetzt alle einfachen Transformationen wie diese in der SQL-Abfrage durch, um die Daten zu erhalten, da diese leicht aus einer Excel-Tabelle generiert werden können.

(e) Es gibt viele merkwürdige Dinge, Komponenten, die unsichtbar werden, manchmal öffnet man das Paket und alle Komponenten sind völlig unzusammenhängend neu angeordnet.

(f) Die FTP-Funktion, wahrscheinlich eine der am häufigsten benötigten Funktionen in ETL, ist schwach und unterstützt nur einfaches Vanilla-FTP, das niemand verwendet. Jeder verwendet heutzutage SFTP, FTPS, https, etc... Daher erfordert fast jede Implementierung die Verwendung einer Kommandozeilen-gesteuerten Dateiübertragungsanwendung eines Drittanbieters, die das Paket aufrufen muss.

(g) Ähnlich wie bei den lächerlichen Sicherheitsvorkehrungen in Windows Vista hat es Microsoft aus Gründen der ZYA äußerst schwierig gemacht, ein SSIS-Paket von einer Umgebung in eine andere zu übertragen. Das bedeutet, dass es in der Umgebung, in die Sie es verschieben, unter demselben Konto laufen muss wie in der Umgebung, in der Sie es entwickelt haben, was selten der Fall ist. Es gibt bessere Möglichkeiten der Konfiguration, aber es wird immer versucht, auf diesen völlig nutzlosen Sicherheitsschutz zurückzugreifen.

(h) Schließlich sind die meisten dieser Probleme bereits in der dritten Version vorhanden, was eindeutig darauf hindeutet, dass Microsoft nicht vorhat, sie zu beheben.

(i) Die Fehlersuche ist nicht annähernd so einfach wie bei anderen Sprachen.

SSIS hat immer noch viele Vorteile, aber nicht ohne einige ernsthafte Schmerzen.

4voto

Gary Brunton Punkte 1678

Ich habe vor vielen Jahren mit MS Reporting Services begonnen und liebe sie. Ich habe die Reporting-Lösung von Pentaho noch nicht ausprobiert und kann daher nichts dazu sagen. Auch habe ich weder Analysis Services noch die Alternative von Pentaho ausprobiert.

Kürzlich benötigte ich eine ETL-Lösung, und da ich mit MSSQL und MSRS vertraut war, lag es auf der Hand, dass ich MS Integration Service prüfen und wahrscheinlich auswählen würde. Aber für mich war MSIS furchtbar. Vor allem, weil es nicht intuitiv war. Nachdem ich ein paar Tage damit verbracht hatte, mich in das Tool einzuarbeiten, beschloss ich, mich nach einer Alternative umzusehen, und stieß auf Pentaho Data Integration, früher bekannt als Kettle. Ich hatte es innerhalb von Minuten einsatzbereit und konnte sofort meine erste Transformation erstellen. Es funktioniert einfach.

Zugegeben, meine Bedürfnisse sind recht einfach, aber die Leistung ist großartig und die Community scheint sehr hilfreich zu sein.

4voto

geoffrobinson Punkte 1540

Ich habe SSIS und Pentaho Kettle verwendet und würde dringend empfehlen, Pentaho Kettle als ETL-Tool anstelle von SSIS zu verwenden.

Meine Gründe: -Der Ablauf von SSIS ist von Aufgabe zu Aufgabe. Bei Kettle denkt man über Datenreihen nach, die durch das System fließen. Der Ansatz von Kettle scheint mir viel intuitiver zu sein. -SSIS ist schlecht dokumentiert. Das kommt vor. Aber es scheint viel umständliches Klicken und Setzen von Variablen zu geben. Sehr komplex. Pentaho hat ein Community-Forum, das sehr hilfreich ist. -Ich vertraue darauf, dass Pentaho mit verschiedenen Arten von Datenbanken integriert werden kann, einschließlich SQL Server. Sie können auch JDBC verwenden, was sehr praktisch ist. Ich habe Pentaho auch verwendet, um zwischen SQL Server und Oracle auf der einen Seite und Vertica auf der anderen Seite zu wechseln. Es gibt einen Bulk Loader für Vertica. Das ist ganz nett. Ich habe festgestellt, dass es relativ gesehen sehr, sehr schwierig ist, ein SSIS-Paket auf einem Server zum Laufen zu bringen. Es war meine Zeit einfach nicht wert. -Ich fand es ziemlich einfach, mit Pentaho eine Warnung oder Fehlermeldung an eine Person oder eine Liste von Personen zu schicken. -Pentaho ermöglicht die Ausführung von Aufgaben in JavaScript für Dinge, die eine gewisse Logik erfordern. Einfach und leicht zu erledigen mit einer Sprache, mit der die meisten von uns schon zu tun hatten.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X