Ähnlichkeiten zwischen Textblöcken in mehreren HTML-Dokumenten finden?

Question

Ähnlichkeiten zwischen Textblöcken in mehreren HTML-Dokumenten finden?

Gefragt el 23 de Juni, 2010: Wann wurde die Frage gestellt
954 Ansichten: Anzahl der Besuche der Frage
2 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Wenn ich z.B. 20 HTML-Seiten habe und die gemeinsamen/ähnlichen Teile der Dokumente extrahieren möchte, welche effizienten Möglichkeiten gibt es, das zu tun?

So sagen für StackOverflow, Vergleich 10 Seiten würde ich feststellen, dass die obere Leiste und die Hauptmenüleiste sind die gleichen auf jeder Seite, so konnte ich sie herausziehen.

Es sieht so aus, als bräuchte ich entweder ein Diff-Programm oder einige komplexe Regexps, aber ich gehe davon aus, dass ich die Seiten/Text/html-Struktur vorher nicht kenne.

Ist dies möglich?

Gefragt el 23 de Juni, 2010 von Lance

Answer 1

2 Antworten

Answer 2

1voto

Ira Baxter Punkte 91118

Sie sollten eine Klon-Detektor wie CloneDR . Gute Programme vergleichen die Struktur von Tausenden von Dateien auf einmal, unabhängig von der Formatierung, und sagen Ihnen, welche Elemente die Dateien gemeinsam haben und wie sich diese gemeinsamen Elemente unterscheiden.

CloneDR wurde bereits in vielen Programmiersprachen eingesetzt. Seine Grundlage, das DMS Software Reengeering Toolkit, verarbeitet bereits (schmutziges) HTML, so dass es ziemlich einfach wäre, einen HMTL-CloneDR zu erstellen.

Beantwortet el 25 de Juni, 2010 von Ira Baxter (91118 Punkte )

Answer 3

0voto

Justin L. Punkte 13196

Sie brauchen keine komplexen Regexps; ein einfacher Diff-Analyzer reicht aus. Führen Sie einfach eine (aufzählbare) Injektion durch und behalten Sie nur ähnliche Teile wie Ihr Memo.

Hier sind einige in Ruby:

ruby-diff -- Implementiert den Text-Diff-Algorithmus aus Perl
diff-lcs
HTMLdiff -- Findet den Unterschied zwischen zwei Zeichenketten und rendert sie mit hübscher Formatierung (HTML) (wahrscheinlich nicht genau das, was Sie wollen, es sei denn, Sie können alles Nicht-Diff-Material aus der Ausgabe entfernen)

Ich hoffe, das hilft!

Beantwortet el 23 de Juni, 2010 von Justin L. (13196 Punkte )

Ähnlichkeiten zwischen Textblöcken in mehreren HTML-Dokumenten finden?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Ähnlichkeiten zwischen Textblöcken in mehreren HTML-Dokumenten finden?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: