Wir stehen derzeit vor dem Problem, wie wir Daten aus sehr großen Datensätzen (in Milliardenhöhe) effektiv speichern und abrufen können. Wir haben Mysql verwendet und das System, das Betriebssystem, das Raid, die Abfragen, die Indizes usw. optimiert, und wollen nun weitergehen.
Ich muss eine fundierte Entscheidung darüber treffen, welche Technologie ich zur Lösung unserer Datenprobleme einsetzen soll. Ich habe mich mit Map/Reduce mit HDFS beschäftigt, aber ich habe auch viel Gutes über HBase gehört. Ich komme nicht umhin zu glauben, dass es auch noch andere Optionen gibt. Gibt es einen guten Vergleich der verfügbaren Technologien und der jeweiligen Kompromisse?
Wenn Sie Links zu den einzelnen Themen haben, wäre ich Ihnen ebenfalls dankbar.