2 Stimmen

Konvertierung einer UTF-8 ohne BOM xml-Datei in ISO 8859-1

Ich habe eine UTF-8 kodierte Xml-Datei ohne BOM. In einem Hex-Editor gibt es : 3c 3f 78 6d

Ich speichere meine Xml-Datei und füge die Stückliste am Anfang ein:

char* BufferEncoder = (char*)malloc(3);
memset(BufferEncoder, 0, size);
for(int i=0;i<3;i++) BufferEncoder[i] ^= 0xaa;
BufferEncoder[0]=(char)0xef;
BufferEncoder[1]=(char)0xbb;
BufferEncoder[2]=(char)0xbf;
// concatenate into a new Buffer containing old xml and the BOM

Ich habe dann versucht, mit diesen Codezeilen von UTF-8 mit BOM nach ISO 8859-1 zu konvertieren:

int size = WideCharToMultiByte(28591 /*ISO-8859-1*/, 0,  pBuffer, -1, NULL, 0, NULL, 0);
if (size>0)
{
    char* pBuffer2 = (char*)malloc(size);
    memset(pBuffer2, 0, sizeNew);
    WideCharToMultiByte(28591, 0,pBuffer,-1, pBuffer2, size, NULL, 0);
    // .........

Dieser Code ist noch nicht getestet. Glauben Sie, dass dies die beste Lösung ist? Jede Idee oder jeder Rat ist willkommen. Ich danke Ihnen im Voraus.

1voto

Williham Totland Punkte 27585

Wie ich in meinem Kommentar bereits erwähnte: Ich denke, dass dieser Gedankengang ein paar Fragen an Sie erforderlich macht, sozusagen:

  1. Warum machen Sie diese Umstellung überhaupt?

  2. Wissen Sie eigentlich, was WideCharToMultiByte() tut?

Ich gebe freimütig zu, dass mir selbst nicht ganz klar ist, was genau WideCharToMultiByte() tut; aber ich gehe einfach mal davon aus, dass es eine Zeichenkette aus breiten Zeichen in eine Zeichenkette aus Multibyte-Zeichen umwandelt. Ein kurzer Blick in die Dokumentation zeigt, dass dies in einen neuen Puffer erfolgt und die Länge der neuen Zeichenfolge zurückgegeben wird.

Das ist alles schön und gut. Das Problem ist, dass UTF-8 no tatsächlich eine breite Zeichenkodierung; und ISO-8859-1 ist no eine Multibyte-Kodierung. UTF-8 es eine Multibyte-Kodierung; aber das hilft Ihnen in diesem Fall nicht wirklich weiter.

Ich rate Ihnen daher, sich über Zeichenkodierungen zu informieren, insbesondere über die Unterschiede zwischen UTF-8 (Multibyte) und UTF-16 (Wide).

Ich schlage auch vor, dass Sie eine andere Schnittstelle für was auch immer Sie versuchen zu tun, die tatsächlich UTF-8 Zeichenfolgen akzeptiert; weil jede Schnittstelle, die ISO-8859-1 Zeichenfolgen erfordert, vor allem beim Umgang mit XML, scheint mir als wahnsinnig Legacy-y, grenzt an völlig verrückt.

Hätten Sie tatsächlich angegeben, was Sie im Großen und Ganzen erreichen wollen, könnten natürlich spezifischere Ratschläge gegeben werden.

Bearbeiten: Wenn ich Ihr Rätsel richtig verstehe, besteht das Problem darin, dass Sie eine korrekt formatierte und kodierte XML-Datei erhalten, die möglicherweise Zeichen außerhalb des ASCII-Bereichs (U+0 U+127) enthält. Wenn dies das Problem ist, wird die Verwendung von ISO-8859-1 in irgendeiner Form dazu führen, dass Sie später die meisten Kopfschmerzen haben werden:

Probleme mit der Kodierung

Wenn die Textdatei Folgendes enthalten kann irgendein Charakter außerhalb des ASCII-Bereichs liegt, dann kann sie möglicherweise jedes Zeichen außerhalb des ASCII-Bereichs. Und während UTF-8 darstellen kann jedes Zeichen ist dies bei ISO-8859-1 nicht der Fall.

Mit anderen Worten: Wenn Sie sich an eine Schnittstelle halten, die Kodierungen falsch behandelt, gehen im besten Fall Informationen unwiederbringlich verloren; im schlimmsten Fall stürzen Sie ab und verbrennen.

Mein Punkt ist: Hätscheln Sie nicht die kaputte Schnittstelle, und verwenden Sie niemals UTF-8.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X