Logs Tcpdumps sind Binärdateien, ich möchte wissen, welches FileInputFormat von Hadoop ich für die Aufteilung der Eingabedaten in Chunks verwenden sollte...bitte helfen Sie mir!!!
Antworten
Zu viele Anzeigen?Es gab einen Thread in der Benutzerliste zu diesem Thema: http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+bestellung:datum-weiter
Im Grunde ist das Format nicht aufteilbar, da man den Anfang eines Datensatzes, der an einem beliebigen Offset in der Datei beginnt, nicht finden kann. Sie müssen also eine Vorverarbeitung vornehmen, indem Sie Synchronisationspunkte oder ähnliches einfügen. Vielleicht kleinere Dateien in Sequenzdateien umwandeln und dann die kleinen Sequenzdateien zusammenführen?
Wenn Sie etwas Wiederverwendbares schreiben, denken Sie bitte daran, einen Beitrag zum Projekt zu leisten.
Schreiben Sie ein InputFormat, das PCAP-Dateien liest und etwas wie LongWritable als Schlüssel (das n-te Paket in der Datei) und PacketWritable als Wert (mit den PCAP-Daten) zurückgibt. Für den InputSplit können Sie FileSplit oder MultiFileSplit für eine bessere Leistung verwenden, da eine einzelne PCAP-Datei überraschend schnell gelesen werden kann.
Wenn Ihre Blockgröße nicht größer ist als die Größe Ihrer pcap-Dateien, werden Sie eine Menge Netzwerk-IO erleben...
Wir haben kürzlich eine Bibliothek für Dateien im PCAP-Format veröffentlicht: https://github.com/RIPE-NCC/hadoop-pcap
1 Stimmen
Hmm, der Benutzername ist Stalyn und möchte wissen, wie man riesige pcap (packet capture) dumps verarbeitet