Ich habe begonnen, mich mit Hadoop zu beschäftigen. Wenn ich es richtig verstanden habe, könnte ich eine sehr große Datei verarbeiten und sie würde auf verschiedene Knoten aufgeteilt werden. Wenn die Datei jedoch komprimiert ist, könnte sie nicht aufgeteilt werden und müsste von einem einzigen Knoten verarbeitet werden (was den Vorteil der Ausführung eines Mapreduce-Clusters mit parallelen Maschinen zunichte macht).
Meine Frage ist, vorausgesetzt, die oben genannten korrekt ist, ist es möglich, eine große Datei manuell in feste Größe Chunks oder tägliche Chunks zu teilen, komprimieren Sie Sie und übergeben Sie dann eine Liste der komprimierten Eingabedateien, um eine Mapreduce durchzuführen?