2 Stimmen

Email-Inhalt mit regulären Ausdrücken analysieren

Ich erhalte jeden Tag Tausende von E-Mails und möchte den Inhalt/Body dieser E-Mails analysieren, um sie in eine Datenbank zu laden.

Mein Problem ist, dass ich zurzeit den E-Mail-Body manuell analysiere und ich würde gerne die Logik auf einen Regulären Ausdruck in C# ändern.

Hier ist der Body der E-Mails:


Gentilissima Agenzia Nexity Residenziale

il nostro utente:

Sig./Sig.ra :Pablo Azorin

Email: pabloazorin@gmail.com

Tel.: 02322-498900

sta cercando un immobile con le seguenti caratteristiche:

Categoria: Residenziale

Tipologia: Villa

Tipo di contratto: Vendita

Comune: Assago Prov. Milano

Zona: non specificata

Fascia di prezzo: non specificata


Ich muss den Text in fett hervorgehobenem Text extrahieren und dachte, dass ein RegEx das Richtige dafür ist...

Ich freue mich auf Ihre Vorschläge, wie ich es zum Laufen bringen kann.

Vielen Dank!

--Pablo

0voto

Norman Ramsey Punkte 193087

Wir haben festgestellt, dass für Spam-Filterung und andere Anwendungen mit hohem Datenaufkommen reguläre Ausdrücke ein wenig langsam sind beim Parsen von MIME-Headern, was Sie tun möchten. Der Code ist etwas spezialisiert, aber ich habe eine C-Statusmaschine für das Parsing geschrieben, die so schnell ist, wie man es ohne den Einsatz von etwas wie re2c bekommen kann. Der Code ist nichts für schwache Nerven, aber er ist blitzschnell.

Für E-Mails denke ich, dass Sie feststellen werden, dass eine explizite Zustandsmaschine einfacher zu arbeiten ist als reguläre Ausdrücke. Es ist auch das letzte Refugium der goto-Anweisung!

0voto

Chase Seibert Punkte 15327

Sie möchten dies wirklich nicht manuell oder mit regulären Ausdrücken tun. Es gibt viele verschiedene Möglichkeiten, Daten in einer E-Mail zu codieren, und viele E-Mails, die nicht streng den Spezifikationen entsprechen, können dennoch geparst werden. Ich habe Erfolg mit AnPOP in einer .NET-Umgebung gehabt.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X