Zunächst möchte ich mich für die Hilfe im Voraus bedanken.
Ich schreibe gerade einen Web-Crawler, der HTML-Inhalte analysiert, HTML-Tags entfernt und dann die Rechtschreibung des Textes prüft, der aus der Analyse hervorgeht.
Das Entfernen von HTML-Tags und die Rechtschreibprüfung haben keine Probleme verursacht, da JSoup und die Google Spell Check API verwendet wurden.
Ich bin in der Lage, Inhalte von einer URL abzurufen und diese Informationen in ein Byte[] und schließlich in einen String zu übertragen, so dass sie gestrippt und auf Rechtschreibung geprüft werden können. Ich bin in ein Problem mit Zeichencodierung laufen.
Zum Beispiel beim Parsen von http://www.testwareinc.com/ ...
Ursprünglicher Text: Wir haben unsere Testdienste für Mobile Web und Mobile Apps erweitert.
... die Seite verwendet laut Meta-Tag ISO-8859-1...
ISO-8859-1 Parsen: Wir haben unsere Testdienstleistungen für Mobile Web und Mobile App erweitert.
... dann versuchen Sie es mit UTF-8...
UTF-8 Parsen: Wir haben unsere Testdienstleistungen für Mobile Web und Mobile App erweitert.
Pregunta Ist es möglich, dass der HTML-Code einer Webseite eine Mischung von Kodierungen enthalten kann? Und wie kann das erkannt werden?