HTML-Mischkodierungen?

Question

HTML-Mischkodierungen?

Gefragt el 28 de September, 2011: Wann wurde die Frage gestellt
998 Ansichten: Anzahl der Besuche der Frage
0 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Zunächst möchte ich mich für die Hilfe im Voraus bedanken.

Ich schreibe gerade einen Web-Crawler, der HTML-Inhalte analysiert, HTML-Tags entfernt und dann die Rechtschreibung des Textes prüft, der aus der Analyse hervorgeht.

Das Entfernen von HTML-Tags und die Rechtschreibprüfung haben keine Probleme verursacht, da JSoup und die Google Spell Check API verwendet wurden.

Ich bin in der Lage, Inhalte von einer URL abzurufen und diese Informationen in ein Byte[] und schließlich in einen String zu übertragen, so dass sie gestrippt und auf Rechtschreibung geprüft werden können. Ich bin in ein Problem mit Zeichencodierung laufen.

Zum Beispiel beim Parsen von http://www.testwareinc.com/ ...

Ursprünglicher Text: Wir haben unsere Testdienste für Mobile Web und Mobile Apps erweitert.

... die Seite verwendet laut Meta-Tag ISO-8859-1...

ISO-8859-1 Parsen: Wir haben unsere Testdienstleistungen für Mobile Web und Mobile App erweitert.

... dann versuchen Sie es mit UTF-8...

UTF-8 Parsen: Wir haben unsere Testdienstleistungen für Mobile Web und Mobile App erweitert.

Pregunta Ist es möglich, dass der HTML-Code einer Webseite eine Mischung von Kodierungen enthalten kann? Und wie kann das erkannt werden?

Gefragt el 28 de September, 2011 von mikesalvia

Answer 1

0 Antworten

HTML-Mischkodierungen?

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

HTML-Mischkodierungen?

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: