Wenn ich z.B. 20 HTML-Seiten habe und die gemeinsamen/ähnlichen Teile der Dokumente extrahieren möchte, welche effizienten Möglichkeiten gibt es, das zu tun?
So sagen für StackOverflow, Vergleich 10 Seiten würde ich feststellen, dass die obere Leiste und die Hauptmenüleiste sind die gleichen auf jeder Seite, so konnte ich sie herausziehen.
Es sieht so aus, als bräuchte ich entweder ein Diff-Programm oder einige komplexe Regexps, aber ich gehe davon aus, dass ich die Seiten/Text/html-Struktur vorher nicht kenne.
Ist dies möglich?