Konvertierung einer UTF-8 ohne BOM xml-Datei in ISO 8859-1

Question

Konvertierung einer UTF-8 ohne BOM xml-Datei in ISO 8859-1

Gefragt el 23 de Juni, 2011: Wann wurde die Frage gestellt
1889 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich habe eine UTF-8 kodierte Xml-Datei ohne BOM. In einem Hex-Editor gibt es : 3c 3f 78 6d

Ich speichere meine Xml-Datei und füge die Stückliste am Anfang ein:

char* BufferEncoder = (char*)malloc(3);
memset(BufferEncoder, 0, size);
for(int i=0;i<3;i++) BufferEncoder[i] ^= 0xaa;
BufferEncoder[0]=(char)0xef;
BufferEncoder[1]=(char)0xbb;
BufferEncoder[2]=(char)0xbf;
// concatenate into a new Buffer containing old xml and the BOM

Ich habe dann versucht, mit diesen Codezeilen von UTF-8 mit BOM nach ISO 8859-1 zu konvertieren:

int size = WideCharToMultiByte(28591 /*ISO-8859-1*/, 0,  pBuffer, -1, NULL, 0, NULL, 0);
if (size>0)
{
    char* pBuffer2 = (char*)malloc(size);
    memset(pBuffer2, 0, sizeNew);
    WideCharToMultiByte(28591, 0,pBuffer,-1, pBuffer2, size, NULL, 0);
    // .........

Dieser Code ist noch nicht getestet. Glauben Sie, dass dies die beste Lösung ist? Jede Idee oder jeder Rat ist willkommen. Ich danke Ihnen im Voraus.

Gefragt el 23 de Juni, 2011 von Jawhar

Answer 1

1 Antworten

Answer 2

1voto

Williham Totland Punkte 27585

Wie ich in meinem Kommentar bereits erwähnte: Ich denke, dass dieser Gedankengang ein paar Fragen an Sie erforderlich macht, sozusagen:

Warum machen Sie diese Umstellung überhaupt?
Wissen Sie eigentlich, was WideCharToMultiByte() tut?

Ich gebe freimütig zu, dass mir selbst nicht ganz klar ist, was genau WideCharToMultiByte() tut; aber ich gehe einfach mal davon aus, dass es eine Zeichenkette aus breiten Zeichen in eine Zeichenkette aus Multibyte-Zeichen umwandelt. Ein kurzer Blick in die Dokumentation zeigt, dass dies in einen neuen Puffer erfolgt und die Länge der neuen Zeichenfolge zurückgegeben wird.

Das ist alles schön und gut. Das Problem ist, dass UTF-8 no tatsächlich eine breite Zeichenkodierung; und ISO-8859-1 ist no eine Multibyte-Kodierung. UTF-8 es eine Multibyte-Kodierung; aber das hilft Ihnen in diesem Fall nicht wirklich weiter.

Ich rate Ihnen daher, sich über Zeichenkodierungen zu informieren, insbesondere über die Unterschiede zwischen UTF-8 (Multibyte) und UTF-16 (Wide).

Ich schlage auch vor, dass Sie eine andere Schnittstelle für was auch immer Sie versuchen zu tun, die tatsächlich UTF-8 Zeichenfolgen akzeptiert; weil jede Schnittstelle, die ISO-8859-1 Zeichenfolgen erfordert, vor allem beim Umgang mit XML, scheint mir als wahnsinnig Legacy-y, grenzt an völlig verrückt.

Hätten Sie tatsächlich angegeben, was Sie im Großen und Ganzen erreichen wollen, könnten natürlich spezifischere Ratschläge gegeben werden.

Bearbeiten: Wenn ich Ihr Rätsel richtig verstehe, besteht das Problem darin, dass Sie eine korrekt formatierte und kodierte XML-Datei erhalten, die möglicherweise Zeichen außerhalb des ASCII-Bereichs (U+0 U+127) enthält. Wenn dies das Problem ist, wird die Verwendung von ISO-8859-1 in irgendeiner Form dazu führen, dass Sie später die meisten Kopfschmerzen haben werden:

Probleme mit der Kodierung

Wenn die Textdatei Folgendes enthalten kann irgendein Charakter außerhalb des ASCII-Bereichs liegt, dann kann sie möglicherweise jedes Zeichen außerhalb des ASCII-Bereichs. Und während UTF-8 darstellen kann jedes Zeichen ist dies bei ISO-8859-1 nicht der Fall.

Mit anderen Worten: Wenn Sie sich an eine Schnittstelle halten, die Kodierungen falsch behandelt, gehen im besten Fall Informationen unwiederbringlich verloren; im schlimmsten Fall stürzen Sie ab und verbrennen.

Mein Punkt ist: Hätscheln Sie nicht die kaputte Schnittstelle, und verwenden Sie niemals UTF-8.

Beantwortet el 23 de Juni, 2011 von Williham Totland (27585 Punkte )

Konvertierung einer UTF-8 ohne BOM xml-Datei in ISO 8859-1

Antwort

Probleme mit der Kodierung

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Konvertierung einer UTF-8 ohne BOM xml-Datei in ISO 8859-1

Antwort

Probleme mit der Kodierung

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: