|
ANSI-Zeichensatz
American National Standard Institute
Amerikanisches nationales Institut für Standards
Ein genormtes Verfahren zur Kodierung von Text- und Steuerzeichen.
Der ANSI-Zeichensatz ist ein genormter Satz von alphanumerischen Zeichen und Steuerzeichen, der in der Datenübertragung und Computer-Technik verwendet wird. Dieser Zeichensatz wurde vom "American National Standard Institute" (ANSI; Dt. etwa: "Amerikanisches nationales Institut für Standards") festgelegt. Das ANSI ist eine im Jahre 1918 gegründete, unabhängige, nicht profitorientierte Organisation amerikanischer Industrie- und Wirtschaftsvereinigungen. Dieses US-amerikanische Normungsgremium ist vergleichbar mit dem Deutschen Institut für Normung (DIN) und vertritt die USA bei der "International Standards Organization" (ISO).
Zu den zahlreichen technischen Normen des ANSI zählt der ANSI-Zeichensatz mit der offiziellen Bezeichnung ISO 6937/2. Dieser Zeichensatz enthält 256 fortlaufend (von 0 bis 255) durchnummerierte Zeichen. Zur Kodierung jedes Zeichens wird ein Byte verwendet, so dass rechnerisch 256 Zeichen (2 hoch 8) möglich sind, von denen allerdings 60 nicht definiert (vakant) sind.
Bereits im Jahre 1965 hatte das ANSI den "American Standard Code for Information Interchange" (ASCII; Dt.: "Amerikanischer Standard-Code für den Informationsaustausch") festgelegt. Beim ASCII, dem im Internet noch immer am weitesten verbreiteten Zeichensatz, werden nur sieben Bit jedes Bytes zur Kodierung der Zeichen verwendet, so dass der ASCII nur 128 (2 hoch 7) und damit halb so viele Zeichen umfasst wie der ANSI-Zeichensatz. In dem beschränkten Zeichenvorrat des ASCII sind keine Sonderzeichen enthalten; so fehlen im ASCII zum Beispiel die deutschen Umlaute, das ß, die französischen Akzente oder die spanische Tilde. Um diesem Mangel abzuhelfen, wurden in verschiedenen Ländern unterschiedliche, untereinander inkompatible Abwandlungen oder Erweiterungen des ASCII entwickelt.
Die internationale Organisation für Normen (ISO) unternahm in den 1980er Jahren den Versuch, den
Wildwuchs bei den 8 Bit-Zeichensätzen durch ihre Serie von ISO-8859-Standards zu beschränken. Bis heute weit verbreitet ist der Zeichensatz ISO 8859-1, der auch als ISO Latin-1 bekannt ist. Er umfasst die Textzeichen der meisten west-europäischen Sprachen.
Die ANSI entwickelte mit dem ANSI-Zeichensatz einen 8 Bit-Code, also einen Zeichensatz, in dem alle acht Bit jedes Bytes zur Kodierung von insgesamt 256 Zeichen verwendet werden. Dieser ANSI-Zeichensatz stimmt in den Zeichen Nummer 32 bis 127 mit dem ASCII-Zeichensatz überein. Der ANSI-Zeichensatz geht jedoch über den ASCII-Zeichensatz hinaus; er enthält auch Sonderzeichen, etwa die Umlaute. Der ANSI-Zeichensatz wird daher auch als "extended ASCII" (Dt.: "erweiterter ASCII") bezeichnet.
Der US-amerikanische Büromaschinenhersteller IBM entwickelte den "Extended Binary Coded Decimal Interchange Code" (EBCDIC; Dt. etwa: "Erweiterter, binär kodierter, dezimaler Austausch-Code"), in dem ebenfalls alle acht Bit jedes Bytes zur Kodierung von insgesamt 256 Zeichen verwendet werden. Der EBCDIC enthält fast keine Sonderzeichen, sein Zeichenvorrat ist kaum größer als der des ASCII. ANSI-Zeichensatz und EBCDIC sind nicht miteinander kompatibel.
Den jüngsten Versuch, eine international einheitliche Kodierung für Textzeichen aller Art zu schaffen, stellt der Unicode dar. Auf der "Basic Multilingual Plane" (BMP; Dt.: "Grundlegende mehrsprachige Ebene") des Unicode ist jedes Zeichen mit zwei Byte (16 Bit) kodiert, es sind also 65.536 (2 hoch 16) Zeichen möglich. Dieser wichtigste Teil des Unicode wird als "Universal Character Set 2" (UCS-2; Dt.:
"Universelle Schriftzeichen-Menge 2") bezeichnet, wobei die 2 darauf verweist, dass zwei Byte für die Kodierung jedes Zeichens verwendet werden. UCS-2 ist also ein "Double Byte Character Set" (DBCS; Dt.: "Doppel-Byte-Zeichensatz"). Die ersten 256 Plätze von Unicode UCS-2 entsprechen ISO Latin-1 (ISO 8859-1). Gleichwohl sind diese beiden Zeichensätze nicht ohne Weiteres miteinander kompatibel, weil Unicode UCS-2 zwei, ISO Latin-1 jedoch nur ein Byte pro Zeichen verwendet. Dadurch sind die Zeichen-Ordnungszahlen im Unicode UCS-2 in Hexadezimalschreibweise vierstellig, in den ISO-8859-Standards hingegen nur zweistellig. Zum Beispiel wird der Buchstabe A in Hexadezimalschreibweise in Unicode UCS-2 als 0041, im ASCII als 41 wiedergegeben. Es bedarf daher einer Umkodierung, wenn Texte zwischen diesen beiden Zeichensätzen ausgetauscht werden. Zu diesem Zweck wurden mehrere "USC Transformation Formats" (UTF; Dt.: "USC-Umwandlungsformate") mit unterschiedlichen Eigenschaften entwickelt. Eines dieser Umwandlungsformate für das "Universal Character Set" ist UTF-8. UTF-8 kann jedes Unicode-Zeichen als Abfolge von Datenwörtern von nur je 8 Bit Länge ausdrücken. UTF-8 ermöglicht also die Umwandlung von 16 Bit- in 8 Bit-kodierte Schriftzeichen.
Programmteile, die eine Zeichensatzkonversion durchführen, bezeichnet man als Filter.
Die ersten 32 Zeichen des ANSI-Zeichensatzes (mit den Nummern 0 bis 32) sind Steuerbefehle (Engl.: "Control Character"). Es handelt sich also um nicht druck- oder darstellbare Zeichen. Die alphanummerischen Zeichen mit den Nummern 33 bis 127 stimmen, wie gesagt, zwischen ANSI-Zeichensatz und ASCII überein. Die ANSI-Zeichen mit den Nummern 128 bis 159 sind nicht definiert (vakant). Die ANSI-Zeichen mit den Nummern 160 bis 255 stimmen mit den des Unicode UCS-2-Skript "C1 Controls and Latin 1 Supplement" überein.
Der ANSI-Zeichensatz wird in den Windows-Betriebssystemen von Microsoft sowie im Amiga verwendet. ANSI-Zeichen werden in vielen Windows-Programmen erzeugt, indem man die "Alt"-Taste gedrückt hält und auf dem Ziffernblock die ANSI-Nummer des gewünschten Zeichens mit vorangestellter 0 eingibt. Das kleine o mit Schrägstrich (ø) gibt man zum Beispiel ein, in dem man bei gedrückter Alt-Taste nacheinander die Ziffern-Tasten 0, 2, 4 und 8 im Ziffernblock der Tastatur drückt, der Thesenpunkt (•) wird entsprechend durch gleichzeitiges Drücken der Alt-Taste und nacheinander der Tasten 0, 1, 8 und 3 im Ziffernblock erzeugt.
In der nachfolgenden Tabelle sind die ANSI-Zeichen Nummer 160 bis 255 wiedergegeben.
ANSI-Nr. |
Zeichen |
HTML-Maskierung |
Deut. Beschreibung |
160 |
|
|
Leerschritt ohne Zeilenumbruch |
161 |
¡ |
¡ |
umgekehrtes Ausrufungszeichen |
162 |
¢ |
¢ |
Cent-Zeichen (Währungszeichen) |
163 |
£ |
£ |
Pfund-Zeichen (Brit. Pfund Sterling; Währungszeichen) |
164 |
¤ |
¤ |
Allgemeines Währungszeichen |
165 |
¥ |
¥ |
Yen-Zeichen (Währungszeichen) |
166 |
¦ |
¦ |
Unterbrochener senkrechter Strich |
167 |
§ |
§ |
Paragraphen-Zeichen |
168 |
¨ |
¨ |
Diaeresis (Trema) |
169 |
© |
© |
Copyright-Zeichen |
170 |
ª |
ª |
Weibliche Ordnungszahl |
171 |
« |
« |
Spitze Anführungszeichen links (Guillemets) |
172 |
¬ |
¬ |
"Nicht"-Zeichen, Verneinungszeichen |
173 |
|
­ |
bedingter Trennstrich |
174 |
® |
® |
Eingetragene Marke |
175 |
¯ |
¯ |
Macron |
176 |
° |
° |
Grad-Zeichen (Temperatur, Winkel) |
177 |
± |
± |
Plus-Minus-Zeichen, Toleranz-Zeichen |
178 |
² |
² |
hoch 2, zum Quadrat |
179 |
³ |
³ |
hoch 3, Kubik |
180 |
´ |
´ |
Akut; accent aigu |
181 |
µ |
µ |
Mikro-Zeichen |
182 |
¶ |
¶ |
Absatzzeichen (Pilcrow) |
183 |
· |
· |
Punkt in der Mitte (Middot) |
184 |
¸ |
¸ |
Cedilla |
185 |
¹ |
¹ |
hoch 1 |
186 |
º |
º |
männliche Ordnungszahl |
187 |
» |
» |
Spitze Anführungszeichen rechts; Guillemet |
188 |
¼ |
¼ |
ein Viertel |
189 |
½ |
½ |
einhalb |
190 |
¾ |
¾ |
drei Viertel |
191 |
¿ |
¿ |
umgekehrtes Fragezeichen |
192 |
À |
À |
Großes A mit Grave |
193 |
Á |
Á |
Großes A mit Akut |
194 |
 |
 |
Großes A mit Zirkumflex |
195 |
à |
à |
Großes A mit Tilde |
196 |
Ä |
Ä |
Großes A mit Diaeresis (Umlaut) |
197 |
Å |
Å |
Großes A mit Ring (Krouzek) |
198 |
Æ |
Æ |
Ligatur aus großem A und großem E |
199 |
Ç |
Ç |
Großes C mit Cedilla |
200 |
È |
È |
Großes E mit Grave |
201 |
É |
É |
Großes E mit Akut |
202 |
Ê |
Ê |
Großes E mit Zirkumflex |
203 |
Ë |
Ë |
Großes E mit Diaeresis (Trema) |
204 |
Ì |
Ì |
Großes I mit Grave |
205 |
Í |
Í |
Großes I mit Akut |
206 |
Î |
Î |
Großes I mit Zirkumflex |
207 |
Ï |
Ï |
Großes I mit Diaeresis (Trema) |
208 |
Ð |
Ð |
Großes Eth (isländischer Buchstabe |
209 |
Ñ |
Ñ |
Großes N mit Tilde |
210 |
Ò |
Ò |
Großes O mit Grave |
211 |
Ó |
Ó |
Großes O mit Akut |
212 |
Ô |
Ô |
Großes O mit Zirkumflex |
213 |
Õ |
Õ |
Großes O mit Tilde |
214 |
Ö |
Ö |
Großes O mit Diaeresis (Umlaut) |
215 |
× |
× |
mal, Multiplikationszeichen |
216 |
Ø |
Ø |
Großes O mit Schrägstrich |
217 |
Ù |
Ù |
Goßes U mit Grave |
218 |
Ú |
Ú |
Großes U mit Akut |
219 |
Û |
Û |
Großes U mit Zirkumflex |
220 |
Ü |
Ü |
Großes U mit Diaeresis (Umlaut) |
221 |
Ý |
Ý |
Großes Y mit Akut |
222 |
Þ |
Þ |
Großes Thorn (isländischer Buchstabe |
223 |
ß |
ß |
Esszett, Ligatur aus s und z |
224 |
à |
à |
Kleines a mit Grave |
225 |
á |
á |
Kleines a mit Akut |
226 |
â |
â |
Kleines a mit Zirkumflex |
227 |
ã |
ã |
Kleines a mit Tilde |
228 |
ä |
ä |
Kleines a mit Diaeresis (Umlaut) |
229 |
å |
å |
Kleines a mit Ring (Krouzek) |
230 |
æ |
æ |
Ligatur aus a und e |
231 |
ç |
ç |
Kleines c mit Cedilla |
232 |
è |
è |
Kleines e mit Grave (Accent grave) |
233 |
é |
é |
Kleines e mit Akut |
234 |
ê |
ê |
Kleines e mit Zirkumflex |
235 |
ë |
ë |
Kleines e mit Diaeresis (Trema) |
236 |
ì |
ì |
Kleines i mit Grave |
237 |
í |
í |
Kleines i mit Akut |
238 |
î |
î |
Kleines i mit Zirkumflex |
239 |
ï |
ï |
Kleines i mit Diaeresis (Trema) |
240 |
ð |
ð |
Kleines eth (isländischer Buchstabe) |
241 |
ñ |
ñ |
Kleines n mit Tilde |
242 |
ò |
ò |
Kleines o mit Grave |
243 |
ó |
ó |
Kleines o mit Akut |
244 |
ô |
ô |
Kleines o mit Zirkumflex |
245 |
õ |
õ |
Kleines o mit Tilde |
246 |
ö |
ö |
Kleines o mit Diaeresis (Umlaut) |
247 |
÷ |
÷ |
Geteilt durch (Divisionszeichen) |
248 |
ø |
ø |
Kleines o mit Schrägstrich |
249 |
ù |
ù |
Kleines u mit Grave |
250 |
ú |
ú |
Kleines u mit Akut |
251 |
û |
û |
Kleines u mit Zirkumflex |
252 |
ü |
ü |
Kleines u mit Diaeresis (Umlaut) |
253 |
ý |
ý |
Kleines y mit Akut |
254 |
þ |
þ |
Kleines thorn (isländischer Buchstabe) |
255 |
ÿ |
ÿ |
Kleines y mit Diaeresis |
Der ANSI-Zeichensatz ist nicht mit dem ANSI-Steuercode zu verwechseln. Steuercodes (Engl.: "Control Codes") sind nicht druckbare Zeichen, mit denen ein Computerprogramm die Aktionen eines Gerätes steuert. Steuercodes werden beim Druck, im Datenaustausch sowie zur Steuerung der Bildschirmanzeige verwendet. Der Computer sendet Steuercodes zum Beispiel an die Anzeigeeinheit des Bildschirms, um das Erscheinungsbild des Textes zu beeinflussen oder die Einfügemarke (den Cursor) zu positionieren. ANSI-Kontrollsequenzen steuern Zeichenattribute wie Blinken oder auch die Farbdarstellung. Steuercodes sind hauptsächlich für Programmierer von Bedeutung; der Computer-Anwender verwendet sie allenfalls für die Anpassung eines Druckers, wenn dieser von einer Anwendung nicht angesprochen werden kann.
Steuercodes enthält auch der ASCII (in den Zeichen mit den Nummer 0 bis 31). Diesen Steuerzeichen ist jeweils eine genormte Steuerfunktion zugewiesen, zum Beispiel Wagenrücklauf (Engl.: "Carriage Return"; CR; Zeichen 12), Zeilenvorschub (Engl.: "Line Feed"; LF; Zeichen 10) oder Rückwärtsschritt (Engl.: "Backspace", BS, Zeichen 8). Bisweilen werden auch nur die ersten 26 Zeichen des ASCII "Steuerzeichen" genannt.
Steuercodes werden auch als Escape-Sequenzen bezeichnet, da sie in der Regel mit dem "Escape"-Zeichen beginnen (Esc; Dt. etwa: "Verlassen"; ASCII dezimal: 27, hexadezimal: 1B). ANSI-Steuercodes (Escape-Sequenzen) sind zum Beispiel in der Datei namens "ansi.sys" enthalten, einem Gerätetreiber für MS-DOS-Computer, der die Steuerungsvarianten für Bildschirm und Tastatur erweitert.
 Druckversion
|