|
UTF-8
Universal Character Set Transformation Format 8-Bit
Allgemeines Schriftzeichensatz-Umwandlungsformat in 8 Bit
Format zur Umwandlung von 16 Bit- in 8 Bit-codierte Schriftzeichen.
"UTF-8" steht für "UCS Transformation Format 8 Bit" (Dt.: "UCS-Umformungsformat 8 Bit"). Das "Universal Character Set" (UCS, Dt.: "Universeller Zeichensatz") ist ein in dem Standard ISO/IEC 10646-1 definierter Zeichensatz, der die meisten Alphabete und Schriftzeichensysteme umfasst, die weltweit derzeit genutzt werden, also nicht nur die lateinischen Buchstaben und arabischen Zahlen, sondern zum Beispiel auch die arabische, griechische, kyrillische, koreanische oder thailandische Schrift. Es gibt zwei Spielarten des "Universal Character Set", nämlich UCS-4 und UCS-2. In UCS-4 werden vier Byte (also 32 Bit) für jedes Schriftzeichen reserviert, in UCS-2 sind es zwei Byte (also 16 Bit) pro Zeichen. In vielen gängigen Anwendungen und Protokollen sind jedoch nur Zeichensätze vorgesehen, in denen jedes Schriftzeichen mit einem Byte (also acht Bit) oder sogar, wie im "American Standard Code for Information Interchange" (ASCII; "Amerikanischer Standard-Code für den Informations-Austausch") nur mit 7 Bit codiert ist. Daher ist das "Universal Character Set" mit vielen gebräuchlichen Programmen und Datenübertragungsverfahren unvereinbar. Deswegen wurden mehrere "UCS Transformation Formats" (UTF; Dt.: "UCS-Umwandlungsformate") mit unterschiedlichen Eigenschaften entwickelt. Eines dieser Umwandlungsformate für das "Universal Character Set" ist UTF-8. UFT-8 hat den Vorzug, mit herkömmlichen Datei-Systemen, Parsern und anderen Programmen kompatibel zu sein. Daher kann UTF-8 auch im Internet eingesetzt werden. Die Ziffer 8 in "UTF-8" weist darauf hin, dass in diesem Kodierungsverfahren jedes Zeichen mit acht Bit dargestellt wird.
Die internationale Organisation für Standardisierung, ISO, hat in den 1980er Jahren die Serie von ISO-8859-Standards für 8 Bit-Codierungen von Schriftzeichen eingeführt. In ISO 8859-1, auch als "ISO Latin-1" bezeichnet, sind die Zeichen der europäischen Sprachen zusammengefasst, die im lateinischen Alphabet geschrieben werden. Dieser Zeichensatz umfasst also zum Beispiel auch die deutschen und skandinavischen Umlaute, die Accents aus dem Französischen oder die Tilde aus den iberischen Sprachen. Mit 256 möglichen Zeichen geht ISO Latin-1 über die 128 Zeichen hinaus, die im 7 Bit-ASCII kodiert werden können.
Ende der 1980er Jahre wurde mit dem Unicode ein neuer, internationaler Standard für die Zeichendarstellung eingeführt, der möglichst alle Zeichen aller Sprachen der Welt umfassen soll, also nicht nur die Alphabete (wie Lateinisch, Arabisch, Hebräisch, Griechisch, Kyrillisch), sondern auch die Silbenschriften (Chinesisch, Japanisch, Koreanisch). In Unicode hat jedes Zeichen einen 16 Bit-Code. Die ersten 256 Zeichen im Unicode entsprechen dem "ISO Latin-1"-Zeichensatz; da allerdings Latin-1 nur 8 Bit pro Zeichen verwendet und Unicode 16 Bit, werden bei den Unicode-Zeichen nicht benutzte Bit-Stellen durch Leerstellen aufgefüllt, die in Latin-1 keinen Sinn ergeben und zu Zeichenkauderwelsch führen. So ist der Buchstabe A in ASCII in Hexadezimalschreibweise "41"; in Unicode wird das große A hingegen in Hexadezimal-Schreibweise als "0041" wiedergegeben. Durch Umkodierung mit Hilfe des Transformationsformats UTF-8 kann man die mit 16 Bit kodierten Unicode-Zeichen auch in einer 8 Bit-Umgebung verwenden. Durch die Transformation werden keine zusätzlichen ASCII-Zeichen erzeugt.
UTF-8 ist im "Request For Comments" (RFC) Nr. 2279 beschrieben.
 Druckversion
|