Hilfe zum Lexikon Neues im Lexikon Nehmen Sie Kontakt mit uns auf! Lexitron auf Ihrer Site Startseite Lexitron - Das Fachlexikon der IT-Begriffe
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 0-9 Sonderzeichen Alle Einträge anzeigen Schlagwort-Menü

Partnersites
www.e-workers.de

professional network service center

webdesign berlin

 

Suchbegriff eingeben

      



Zeichensatz
Engl.: "Character Set"
Definierte Menge zusammengehöriger Text-Zeichen.

 Kategorie:     E-Mail Schriftcodierung

Ein Zeichensatz ist eine festgelegte Menge von Zeichen (Buchstaben, Ziffern, Satz- und Sonderzeichen sowie Steuerungszeichen), also eine Gruppierung von alphabetischen, numerischen und anderen Zeichen mit gemeinsamen Merkmalen. Die Bezeichnung "Zeichensatz" wird auf unterschiedliche Arten von Zeichen-Sets angewendet, nämlich auf:

  • Alphabete (und andere Schriftzeichensysteme),
  • Fonts (Schrifttypen, Schriftschnitte)
  • Zeichencodierungen (Engl.: "Character Encoding Scheme"; CES) .

Man unterscheidet (nach der Norm ISO 2382/4) alphabetische, numerische und alphanumerische Zeichensätze. Ein alphabetischer Zeichensatz ist ein Zeichenvorrat, der aus Buchstaben besteht und auch Steuerzeichen und Sonderzeichen, jedoch keine Ziffern enthalten kann. Ein numerischer Zeichensatz besteht aus Ziffern und kann auch Steuer- und Sonderzeichen enthalten, jedoch keine Buchstaben. Ein alphanumerischer Zeichensatz besteht sowohl aus Buchstaben als auch aus Ziffern und kann auch Steuer- und Sonderzeichen umfassen.

Zeichencodierungen dienen dazu, Byte-Werte in lesbare Zeichen zu übersetzen, die sich zum Beispiel auf dem Bildschirm darstellen lassen. Ein Zeichenssatz ist also eine Konvention, die festlegt, welcher Byte-Wert als welches Zeichen dargestellt wird. Zeichensätze sind also im Wesentlichen Tabellen, die einem Byte-Wert ein Textzeichen zuordnen. Für diese Zuordnung von Byte-Werten zu Textzeichen gibt es zahlreiche unterschiedliche, miteinander meist unvereinbare Konventionen. Es gibt also viele, miteinander inkompatible Zeichensätze.

Die für das Internet wohl wichtigste Zeichencodierung ist der "American Standard Code for Information Interchange" (ASCII). Im ASCII wird jedes Zeichen mit 7 Bit kodiert, es sind also maximal 128 Zeichen möglich. Der ASCII umfasst - neben einigen Steuerzeichen - vor allem die in der englischen Sprache verwendeten Buchstaben des lateinischen Alphabets sowie die arabischen Ziffern. Die in vielen europäischen Sprachen verwendeten Akzentzeichen und Umlaute sind im ASCII-Zeichensatz nicht enthalten, von den Schriftzeichen anderer Alphabete (Griechisch, Kyrillisch, Arabisch, Hebräisch) ganz zu schweigen. Deswegen sind im Laufe der Zeit zahlreiche gegenüber dem ASCII erweiterte Zeichensätze entwickelt worden, die mehr Zeichen umfassen. Um einen größeren Zeichenvorrat zu ermöglichen, werden die einzelnen Zeichen dieser Zeichensätze mit mehr als 7 Bit kodiert. So kodieren beispielsweise die Zeichensätze der internationalen Standardisierungsorganisation ISO die lateinischen Schriftzeichen mit 8 Bit pro Zeichen. Diese als "ISO Latin" bezeichneten Zeichensätze können folglich bis zu 256 Zeichen umfassen. Der Zeichensatz ISO-Latin-1 (ISO 8859-1) erweitert den ASCII-Code um die Sonderzeichen und Umlaute, die in den west-europäischen Sprachen verwendet werden; in ISO-Latin-2 (ISO 8859-2) sind die Sonderzeichen der ost-europäischen Sprachen enthalten, die im lateinischen Alphabet geschrieben werden.

Es gibt Zeichensätze, die zwar 8 Bit pro Zeichen verwenden, gleichwohl aber den Zeichenvorrat nicht wesentlich gegenüber dem ASCII erweitern. Dazu zählen der "extended ASCII" (Dt.: "erweiterter amerikanischer Standard-Code für den Informationsaustausch") von Microsoft und der "Extended Binary Coded Decimal Interchange Code" (EBCDIC; Dt.: "Erweiterter, binär codierter, dezimaler Austausch-Code") der Firma IBM.

Das "American National Standards Institute" (ANSI; Dt.: "Amerikanisches nationales Standardisierungs-Institut") hat den ANSI-Zeichensatz entwickelt, in dem 8 Bit pro Zeichen verwendet werden, also 256 verschiedene Zeichen definiert werden können. Der ANSI-Zeichensatz stimmt für die Zeichen 0 bis 127 mit dem ASCII überein, definiert aber für die Werte zwischen 128 und 255 zusätzlich etliche Sonderzeichen, darunter deutsche Umlaute, französische Accent-Zeichen, die in Spanien und Portugal verwendete Tilde sowie kaufmännische und wissenschaftliche Zeichen. Auch der ANSI-Zeichensatz bleibt jedoch auf das lateinische Alphabet beschränkt.

Der ANSI-Code wird zur Zeichendarstellung von den älteren Versionen des Microsoft-Betriebssystems Windows und von Windows-Programmen verwendet. Nicht-Windows-Programme verwenden zur Darstellung in der Regel den ASCII-Zeichensatz.

Um den Zeichenvorrat auf Schriftzeichen anderer Schriftzeichensysteme als des lateinischen Alphabets zu erweitern, reichen die 256 Zeichen nicht aus, die eine 8 Bit-Kodierung pro Zeichen ermöglicht. Es wurden deshalb Zeichensätze eingeführt, die mehr als ein Byte für die Kodierung jedes Textzeichens verwenden. Zeichensätze, die zwei Byte zur Darstellung ihrer Zeichen nutzen, bezeichnet man als "Double Byte Character Set" (DBCS; Dt.: "Doppel-Byte-Zeichensatz").

Einen Versuch, alle gebräuchlichen Schriftsysteme in einem Zeichensatz darstellbar zu machen, also beispielsweise auch die Schriftzeichen aus Silbenschriften wie dem Japanischen, Chinesischen und Koreanischen, hat die ISO mit der Einführung des Unicode unternommen. Unicode war nach der "Basic Multilingual Plane" (BMP; Dt.: "Grundlegende, mehrsprachige Ebene") zunächst ein "Double Byte Character Set"; in diesem Zeichensatz wurde also jedes Zeichen mit 16 Bit codiert; es waren daher also 65.536 Zeichen möglich. In der Unicode-Version 3.0 vom September 1999 wurden bereits 49.194 Zeichen von 65.536 möglichen Zeichen zugewiesen. In die Version 3.1 vom März 2001 sollten nochmals 44.946 Zeichen, zum Beispiel aus historischen Schriften (etwa Runen oder Hieroglyphen), zusätzlich aufgenommen werden, so dass der Unicode 94.140 Zeichen umfasst. So viele Zeichen sind in 16 Bit pro Zeichen jedoch nicht mehr darstellbar; deswegen werden im Unicode nun 32 Bit (vier Byte) pro Zeichen verwendet, was 4.294.967.296 verschiedene Zeichen ermöglicht.
Seit Version 2.0 ist das Unicode-System auf die internationale Norm ISO/IEC 10646 abgestimmt, der auch die "HyperText Markup Langugage" (HTML) seit Version 4.0 und die "eXtensible Markup Language" (XML) seit Version 1.0 folgen. Dadurch ist es relativ einfach, jedes beliebige Unicode-Zeichen in einem HTML- oder XML-Dokument zu verwenden. Dazu schlägt man in den Unicode-Zeichentabellen nach, welchen Zeichenwert (welche laufende Nummer) das gewünschte Zeichen hat. Dann kann das betreffende Unicode-Zeichen als numerische Notation - zum Beispiel ⚏ in dezimaler Schreibweise oder ⚏ in hexadezimaler Schreibweise - in den Quelltext der HTML- oder XML-Datei eingefügt werden. Die hexadezimale Schreibweise wird anhand des vorangestellten "x" von der Dezimal-Schreibweise unterschieden.

Unicode definiert also einen Byte-Wert für alle gängigen und etliche seltene Textzeichen, löst jedoch nicht das Problem, wie alle diese Zeichen an einem Computer dargestellt werden können; denn Unicode definiert nur Zeichenwerte und Eigenschaften von Zeichen, aber es enthält keine Angaben darüber, wie das Zeichen zum Beispiel auf dem Bildschirm oder im Druck darzustellen ist. Herkömmliche Computer-Schriftarten reichen dazu nicht aus und neue, zum Unicode passende Schriftarten verbreiten sich erst allmählich. Immerhin unterstützen moderne Betriebssysteme und Anwendungen wenigstens Doppel-Byte-Zeichensätze, also Unicode-Zeichen nach der "Basic Multilingual Plane" (BMP) bis einschließlich Version 3.0 des Unicode-Systems.

Es genügt also für die Praxis nicht, Zeichencodierungen für Schriftzeichensystem zu erstellen, es müssen auch die entsprechenden Schriftarten zu ihrer Darstellung auf dem Bildschirm und im Druck zur Verfügung stehen. Schriftarten, auch als "Fonts" bezeichnet, sind Beschreibungen von Schriftzeichen zum Zwecke ihrer Abbildung auf Ausgabegeräten wie Bildschirm oder Drucker. Ein Font ist also ein vollständiger Satz von Buchstaben, Ziffern und Sonderzeichen in einer Schriftart und in einer Schriftgröße. Das einzelne Zeichen kann als Pixelgrafik (Bitmap) oder als Vektorgrafik vorliegen. Nur Schriftarten, die in vektorieller Darstellung vorliegen, können frei skaliert (vergrößert oder verkleinert) werden.

Da nach wie vor viele Datenübertragungsverfahren (Protokolle), Anwendungen und Programme auf dem ASCII-Zeichensatz beruhen, kann es bei der Verwendung von Schriftzeichen, die nicht zu diesem amerikanischen Zeichensatz gehören, zu Schwierigkeiten kommen. E-Mail zum Beispiel fußt auf 7 Bit-ASCII-Zeichen. Sollen in einer E-Mail gleichwohl Sonderzeichen (zum Beispiel die deutschen Umlaute) übertragen werden, müssen diese in ASCII-Zeichen umkodiert werden. Dies ist unter anderem mit Hilfe der "Multipurpose Internet Mail Extensions" (MIME; Dt.: "Mehrzweck-Erweiterungen für Internet-Mail") möglich.
Für die Umwandlung von 16 Bit- in 8 Bit-codierte Schriftzeichen steht das "Universal Character Set Transformation Format 8-Bit" (UTF-8; Dt.: "Allgemeines Schriftzeichensatz-Umwandlungsformat in 8 Bit") zur Verfügung.


 Querverweise:     ANSI-Zeichensatz ASCII CES Charset Codepage EBCDIC Font HTML ISO MIME Unicode UTF-8 XML
 Externe Verweise:     --
 Letzte Aktualisierung:     2002-12-30
     Autor:     jm


Druckversion

 

Übersicht Teil-Lexika

   

Mehr Service für Ihre Besucher! Wie Sie das Lexitron auf Ihrer Website einbinden!


   

Hier können Sie unseren Newsletter abonnieren!


   

Was fehlt ?
Sie vermissen einen Begriff? Nutzen Sie unser Formular!


   

LEXITRON
Wort markieren.
Button klicken.

   LEXITRON-Suche  

   

URL dieser Seite:
www.lexitron.de/main.php?detail=true&eintrag=1336

   

© Lexitron 2001

 

 Hilfe  ·  Neues  ·  Kontakt  ·  Service 

  Seitenanfang Impressum
  

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 0-9 # Alle

 
   

powered by e-workers