Ich bin ein wenig verwirrt über die Kodierungen. Soweit ich weiß, benötigten die alten ASCII-Zeichen ein Byte pro Zeichen. Wie viele Bytes benötigt ein Unicode-Zeichen?
Ich gehe davon aus, dass ein Unicode-Zeichen alle möglichen Zeichen einer beliebigen Sprache enthalten kann - liege ich da richtig? Wie viele Bytes braucht es also pro Zeichen?
Und was bedeuten UTF-7, UTF-6, UTF-16 usw.? Sind das verschiedene Versionen von Unicode?
Ich habe die Wikipedia-Artikel über Unicode aber es ist ziemlich schwierig für mich. Ich bin gespannt auf eine einfache Antwort.
1 Stimmen
de.wikipedia.org/wiki/Vergleich_von_Unicode_Kodierungen
18 Stimmen
Tut mir leid, es gibt keine einfache Antwort. Ich finde die ganze Sache ein bisschen verwirrend. Es wurde behauptet, dass Unicode zwei Bytes benötigt und alle Zeichen darstellen kann, aber es hat sich herausgestellt, dass zwei Bytes nicht ganz ausreichend sind.
14 Stimmen
"Einfache Antwort": Ein Unicode-Zeichen benötigt 1-4 Bytes. Unicode deckt viele Sprachen ab, aber nicht alle. Als ich das letzte Mal nachgesehen habe, war Klingonisch zum Beispiel kein offizieller Unicode-Zeichensatz.
10 Stimmen
Klingonisch ist nicht Teil des Unicode-Standards selbst, nein. Es verwendet stattdessen die Private Use Area von Unicode (U+F8D0 - U+F8FF).
2 Stimmen
Retterfrage - danke. Meine Situation ist die Speicherung von Daten über SCORM 1.2 konforme LMSs... der Standard für SCORM 1.2 'cmi.suspend_data' ist 4096 Bytes Daten, von denen ein früherer Entwickler annahm, dass wir 4096 Zeichen speichern können. Oh Mann, da hat er sich geirrt - ich habe gerade herausgefunden, warum unsere Lesezeichen bei langen Kursen nicht funktionieren. Jetzt weiß ich, dass wir UTF-8 verwenden und daher 4 Bytes pro Zeichen benötigen, was uns 1024 Zeichen gibt.
1 Stimmen
Eine Menge von Zeichen menschlicher Sprachen sind nicht in Unicode enthalten.
0 Stimmen
@NicolasBarbulesco Zum Beispiel?
0 Stimmen
Das hat mir geholfen: gammon.com.au/unicode