Auto-Detect Character Encoding in Java

Question

Auto-Detect Character Encoding in Java

Gefragt el 7 de Februar, 2012: Wann wurde die Frage gestellt
23199 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Scheint ein ziemlich häufiges Problem zu sein, aber ich konnte bisher keine Lösung finden; vielleicht weil es so viele Variationen gibt. Hier ist es jedoch. Ich versuche, einige kommaseparierte Dateien zu lesen (manchmal können die Trennzeichen etwas einzigartiger sein als Kommas, aber Kommas reichen vorerst aus).

Die Dateien sollen branchenweit standardisiert sein, aber in letzter Zeit haben wir viele verschiedene Arten von Zeichensatzdateien erhalten. Ich möchte in der Lage sein, einen BufferedReader so einzurichten, dass er dies ausgleichen kann.

Was ist eine ziemlich standardisierte Methode, dies zu tun und festzustellen, ob es erfolgreich war oder nicht?

Meine ersten Gedanken zu diesem Ansatz sind, durch Zeichensätze von einfach zu komplex zu loopen, bis ich die Datei ohne Ausnahme lesen kann. Nicht gerade ideal...

Vielen Dank für Ihre Aufmerksamkeit.

Gefragt el 7 de Februar, 2012 von Kirk

Answer 1

1 Antworten

Answer 2

11voto

Aravind Yarram Punkte 76365

Das universalchardet von Mozilla soll der effizienteste Detektor sein. juniversalchardet ist die Java-Portierung davon. Es gibt noch einen weiteren Port. Lesen Sie dazu dieses SO für weitere Informationen Algorithmus zur Erkennung von Zeichencodierung

Beantwortet el 7 de Februar, 2012 von Aravind Yarram (76365 Punkte )

Auto-Detect Character Encoding in Java

Antwort

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Auto-Detect Character Encoding in Java

Antwort

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: