2 Stimmen

Wie kann ich die Eingabeprotokolle .PCAP(Binary) mit Map Rreduce Hadoop verwenden?

Logs Tcpdumps sind Binärdateien, ich möchte wissen, welches FileInputFormat von Hadoop ich für die Aufteilung der Eingabedaten in Chunks verwenden sollte...bitte helfen Sie mir!!!

1 Stimmen

Hmm, der Benutzername ist Stalyn und möchte wissen, wie man riesige pcap (packet capture) dumps verarbeitet

2voto

SquareCog Punkte 19031

Es gab einen Thread in der Benutzerliste zu diesem Thema: http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+bestellung:datum-weiter

Im Grunde ist das Format nicht aufteilbar, da man den Anfang eines Datensatzes, der an einem beliebigen Offset in der Datei beginnt, nicht finden kann. Sie müssen also eine Vorverarbeitung vornehmen, indem Sie Synchronisationspunkte oder ähnliches einfügen. Vielleicht kleinere Dateien in Sequenzdateien umwandeln und dann die kleinen Sequenzdateien zusammenführen?

Wenn Sie etwas Wiederverwendbares schreiben, denken Sie bitte daran, einen Beitrag zum Projekt zu leisten.

1voto

jonathan-stafford Punkte 11347

Schreiben Sie ein InputFormat, das PCAP-Dateien liest und etwas wie LongWritable als Schlüssel (das n-te Paket in der Datei) und PacketWritable als Wert (mit den PCAP-Daten) zurückgibt. Für den InputSplit können Sie FileSplit oder MultiFileSplit für eine bessere Leistung verwenden, da eine einzelne PCAP-Datei überraschend schnell gelesen werden kann.

Wenn Ihre Blockgröße nicht größer ist als die Größe Ihrer pcap-Dateien, werden Sie eine Menge Netzwerk-IO erleben...

1voto

Wolfgang Nagele Punkte 11

Wir haben kürzlich eine Bibliothek für Dateien im PCAP-Format veröffentlicht: https://github.com/RIPE-NCC/hadoop-pcap

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X