4 Stimmen

Welche Zeichenkodierung ist dies?

Ich muss eine Datei mit französischem Text bereinigen. Das Problem ist, dass die Dateien fälschlicherweise mehrere Kodierungen innerhalb derselben Datei enthalten.

Ich glaube, einige Abschnitte sind ISO8859-1 (Latin 1), aber andere Teile haben Text, der in Einzelbyte-Zeichen kodiert ist, die wie "erweitertes" ASCII aussehen. Mit anderen Worten, es handelt sich um eine UTF-7-Kodierung plus das Folgende:

  • 0x82 für é (e akut)
  • 0x8a für è (e grave)
  • 0x88 für ê (e Zirkumflex)
  • 0x85 für à (ein Grab)
  • 0x87 für ç (c cedilla)

Um welche Kodierung handelt es sich?

9voto

Michael Borgwardt Punkte 334642

Das ist die ursprüngliche IBM-PC-Kodierung, Code Seite 437 .

0voto

Michael Dorgan Punkte 12265

Diese Website aquí zeigt eine Verknüpfung mit 0x87 für cedilla. Ich habe nicht viel weiter als bis hierher geschaut, aber ich wette, der Rest Ihrer Informationen könnte auch hier gefunden werden.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X