553 Stimmen

Was ist der Unterschied zwischen ASCII und Unicode?

Was ist der genaue Unterschied zwischen Unicode und ASCII?

ASCII hat insgesamt 128 Zeichen (256 im erweiterten Satz).

Gibt es eine Größenspezifikation für Unicode-Zeichen?

15voto

Nikhil Katre Punkte 2010

ASCII und Unicode sind zwei Zeichenkodierungen. Im Grunde genommen handelt es sich um Standards, wie Unterschiede Zeichen binär dargestellt werden können, um sie in digitalen Medien zu schreiben, speichern, übertragen und lesen. Der Hauptunterschied zwischen den beiden liegt in der Art und Weise, wie sie das Zeichen kodieren, und der Anzahl der Bits, die sie dafür verwenden. ASCII verwendete ursprünglich sieben Bits, um jedes Zeichen zu kodieren. Dies wurde später auf acht erhöht mit Extended ASCII, um der offensichtlichen Unzulänglichkeit des Originals entgegenzuwirken. Im Gegensatz dazu verwendet Unicode ein variables Bitkodierungsprogramm, bei dem Sie zwischen 32-, 16- und 8-Bit-Kodierungen wählen können. Die Verwendung von mehr Bits ermöglicht die Verwendung von mehr Zeichen auf Kosten größerer Dateien, während weniger Bits eine begrenzte Auswahl bieten, aber viel Platz sparen. Die Verwendung von weniger Bits (d. h. UTF-8 oder ASCII) wäre wahrscheinlich am besten, wenn Sie ein großes Dokument auf Englisch kodieren.

Einer der Hauptgründe, warum Unicode das Problem aufweist, ist auf die vielen nicht standardisierten erweiterten ASCII-Programme zurückzuführen. Es sei denn, Sie verwenden die vorherrschende Seite, die von Microsoft und den meisten anderen Softwareunternehmen verwendet wird, dann werden Sie höchstwahrscheinlich Probleme haben, bei denen Ihre Zeichen als Kästchen angezeigt werden. Unicode eliminiert dieses Problem praktisch, da alle Zeichen-Codepunkte standardisiert wurden.

Ein weiterer großer Vorteil von Unicode ist, dass es maximal eine enorme Anzahl von Zeichen aufnehmen kann. Deshalb enthält Unicode derzeit die meisten geschriebenen Sprachen und hat immer noch Platz für noch mehr. Dazu gehören typische von links nach rechts verlaufende Skripte wie Englisch und sogar von rechts nach links verlaufende Skripte wie Arabisch. Chinesisch, Japanisch und die vielen anderen Varianten sind ebenfalls innerhalb von Unicode repräsentiert. Daher wird Unicode so schnell nicht ersetzt.

Um die Kompatibilität mit dem älteren ASCII, der zu diesem Zeitpunkt bereits weit verbreitet war, zu gewährleisten, wurde Unicode so konzipiert, dass die ersten acht Bits denen der beliebtesten ASCII-Seite entsprachen. Also, wenn Sie eine mit ASCII codierte Datei mit Unicode öffnen, erhalten Sie immer noch die korrekten Zeichen, die in der Datei codiert sind. Dies erleichterte die Übernahme von Unicode, da es die Auswirkungen der Einführung eines neuen Kodierungsstandards für diejenigen verringerte, die bereits ASCII verwendeten.

Zusammenfassung:

1. ASCII verwendet eine 8-Bit-Kodierung, während Unicode eine variable Bit-Kodierung verwendet.
2. Unicode ist standardisiert, während ASCII es nicht ist.
3. Unicode repräsentiert die meisten geschriebenen Sprachen der Welt, während ASCII dies nicht tut.
4. ASCII hat sein Äquivalent innerhalb von Unicode.

Entnommen von: http://www.differencebetween.net/technology/software-technology/difference-between-unicode-and-ascii/#ixzz4zEjnxPhs

4voto

Hasan Sefa Ozalp Punkte 4296

Speicherung

Die angegebenen Zahlen dienen nur zur Speicherung von 1 Zeichen

  • ASCII 27 bits (1 Byte)
  • Erweitertes ASCII 28 bits (1 Byte)
  • UTF-8 minimum 28, maximum 232 bits (min 1, max 4 Bytes)
  • UTF-16 minimum 216, maximum 232 bits (min 2, max 4 Bytes)
  • UTF-32 232 bits (4 Bytes)

Verwendung (Stand: Feb 2020)

Prozentsätze von Websites, die verschiedene Zeichenkodierungen verwenden

-1voto

sphynx888 Punkte 17

ASCII definiert 128 Zeichen, während Unicode ein Repertoire von mehr als 120.000 Zeichen enthält.

-1voto

stackuser83 Punkte 1674

Jenseits davon, wie UTF eine Obermenge von ASCII ist, ein weiterer guter Unterschied zwischen ASCII und UTF liegt in Bezug auf die Codierung von Dateien auf der Festplatte und die Darstellung und Speicherung von Daten im RAM. Programme wissen, dass gegebene Daten entweder anhand der Erkennung spezieller Byte-Reihenfolgemarkencodes am Anfang der Daten als ASCII- oder UTF-Zeichenfolge verstanden werden sollten oder annehmen können, dass die Daten Text sind und dann prüfen, ob sie Muster aufweisen, die darauf hinweisen, dass sie in einer Textcodierung oder einer anderen vorliegen.

Bei Verwendung der konventionellen Präfixnotation von 0x für hexadezimale Daten ist ein grundlegendes gutes Nachschlagewerk, dass ASCII-Text mit Byte-Werten von 0x00 bis 0x7F beginnt, die einen der möglichen ASCII-Zeichencodierungen darstellen. UTF-Text wird normalerweise durch den Beginn der Bytes 0xEF 0xBB 0xBF für UTF8 angezeigt. Für UTF16 werden Startbytes 0xFE 0xFF oder 0xFF 0xFE verwendet, wobei die Endianness der Textbytes durch die Reihenfolge der Startbytes angegeben wird. Die einfache Präsenz von Byte-Werten, die nicht im ASCII-Bereich möglicher Byte-Werte liegen, zeigt auch an, dass Daten wahrscheinlich UTF sind.

Es gibt andere Byte-Reihenfolgemarken, die verschiedene Codes verwenden, um anzuzeigen, dass Daten als Text interpretiert werden sollten, der nach einem bestimmten Codierungsstandard kodiert ist.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X