Ich lade gerade eine lange Liste meiner E-Mail-Betreffzeilen herunter, um E-Mail-Listen zu finden, bei denen ich vor Jahren Mitglied war und die ich aus meinem Google Mail-Konto löschen möchte (das ziemlich langsam wird).
Ich denke dabei vor allem an Newsletter, die oft von derselben Adresse kommen und in der Betreffzeile den Namen des Produkts/der Dienstleistung/der Gruppe wiederholen.
Ich weiß, dass ich nach dem häufigen Auftreten von Sendungen von einer bestimmten E-Mail-Adresse suchen/sortieren könnte (und das habe ich auch vor), aber ich würde diese Daten gerne mit sich wiederholenden Betreffzeilen korrelieren....
Bei vielen Betreffzeilen würde ein String-Treffer nicht funktionieren, aber "Google-Freunde: Unsere neuesten Nachrichten" "Google Friends: Was wir heute machen" sind einander ähnlicher als eine zufällige Betreffzeile, wie z. B: "Virgin Airlines hat heute ein tolles Angebot" "Machen Sie einen Flug mit Virgin Airlines"
Wie kann ich also beginnen, automatisch Trends/Beispiele von Zeichenketten zu extrahieren, die möglicherweise ähnlicher sind?
Ansätze, die ich in Erwägung gezogen und wieder verworfen habe ("weil es einen besseren Weg geben muss"):
- Extrahieren aller möglichen Teilzeichenketten und Ordnen nach Häufigkeit ihres Auftretens sowie manuelles Auswählen der relevanten Teilzeichenketten
- Das erste Wort oder die ersten zwei Wörter werden entfernt, und dann wird das Auftreten der einzelnen Teilstrings gezählt
- Vergleich des Levenshtein-Abstands zwischen Einträgen
- Eine Art Ähnlichkeitsindex für Zeichenketten ...
Die meisten davon wurden wegen massiver Ineffizienz oder der Wahrscheinlichkeit eines enormen manuellen Eingriffs abgelehnt. Ich schätze, ich brauche eine Art Fuzzy-String-Matching ?
Ich kann mir zwar vorstellen, dass es auch anders geht, aber ich bin auf der Suche nach etwas Allgemeinerem, so dass ich meinen Satz von Werkzeugen erweitert habe, anstatt ein spezielles Gehäuse für diesen Datensatz zu entwickeln.
Ich bin mir nicht sicher, ob es eine gute Möglichkeit gibt, eine Datenstruktur zu erstellen, die darstellt, wie wahrscheinlich/unwahrscheinlich zwei Nachrichten Teil derselben E-Mail-Liste" sind, oder indem ich alle meine E-Mail-Betreffe/Absenderadressen in Pools von wahrscheinlichen verwandten" E-Mails und nicht verwandten E-Mails filtere - aber das ist ein Problem, das nach diesem gelöst werden muss.
Für jeden Hinweis wären wir dankbar.