Ich muss eine Datei mit französischem Text bereinigen. Das Problem ist, dass die Dateien fälschlicherweise mehrere Kodierungen innerhalb derselben Datei enthalten.
Ich glaube, einige Abschnitte sind ISO8859-1 (Latin 1), aber andere Teile haben Text, der in Einzelbyte-Zeichen kodiert ist, die wie "erweitertes" ASCII aussehen. Mit anderen Worten, es handelt sich um eine UTF-7-Kodierung plus das Folgende:
- 0x82 für é (e akut)
- 0x8a für è (e grave)
- 0x88 für ê (e Zirkumflex)
- 0x85 für à (ein Grab)
- 0x87 für ç (c cedilla)
Um welche Kodierung handelt es sich?