|
ISO 8859
Zeichensätze mit nationalen Sonderzeichen.
Die ISO-8859-Zeichensätze für die Kodierungen von europäischen Schriftzeichen wurden von der "European Computer Manufacturer's Association" (ECMA; dt.: "Europäische Vereinigung der Computer-Hersteller") entwickelt und in den 1980er Jahren von der internationalen Organisation für Standardisierung (ISO) genormt. Die internationale Norm ISO 8859 beschreibt gegenwärtig zehn verschiedene Zeichensätze (8859-1 bis 8859-10), in denen jedes Zeichen (engl.: "character") durch je ein Byte (8 Bit) kodiert wird. Jeder Zeichensatz (engl.: "Character Encoding Scheme"; CES) kann also bis zu 256 Zeichen (druckbare Zeichen und Steuerzeichen) umfassen. Unter den zehn ISO 8859-Standards dienen sechs zur Kodierung lateinischer Schriften (Latin-1 bis Latin-6) und je ein weiterer für das kyrillische, arabische, griechische und hebräische Alphabet. Die erste Hälfte der Zeichen aller Latin-Zeichensätze (Zeichen Nr. 0 bis Nr. 127) stimmt mit dem "American Standard Code for Information Interchange" (ASCII) überein, in den übrigen 128 Zeichen, in denen sie über den ASCII hinausgehen, unterscheiden sich alle ISO-Zeichensätze voneinander. Zu jedem Zeichen enthalten die Zeichensätze eine standardisierte Beschreibung, zum Beispiel wird das deutsche Esszett (ß) als LATIN SMALL LETTER SHARP S bezeichnet.
- ISO 8859-1 (West European), auch als "ISO Latin-1" bekannt, ist für west- und mitteleuropäische Sprachen vorgesehen. ISO Latin-1 stellt die Schriftzeichen bereit für Albanisch, Baskisch, Dänisch, Deutsch, Englisch, Farörisch, Finnisch, Französisch, Irisch (Gälisch), Isländisch, Italienisch, Katalanisch, Niederländisch (Flämisch), Norwegisch, Portugiesisch, Rhäto-Romanisch, Schwedisch und Spanisch (Castellano). Es fehlen allerdings das Euro-Zeichen (€) die im Niederländischen gebräuchliche Ligatur aus i und j, die im Französischen verwendete Ligatur aus o und e (œ) und die im Deutschen üblichen Anführungszeichen unten („). ISO-Latin-1 stimmt in den oberen 128 Zeichen (also denen, die über den ASCII-Zeichensatz hinausgehen) mit dem Unicode-Zeichensatz "C1 Controls and Latin-1 Supplement" überein (Unicode-Zeichen Nr.128 bis 255). ISO 8859-1 entspricht der Codepage 850.
- ISO 8859-2 (East European), auch als "ISO Latin-2" bekannt, deckt viele Sprachen Mittel- und Osteuropas ab, soweit sie im lateinischen Alphabet geschrieben werden, darunter Kroatisch, Polnisch, Slowakisch, Slowenisch, Sorbisch, Tschechisch und Ungarisch. Der Zeichensatz "ISO Latin-2" entspricht der Codepage 852.
- ISO 8859-3 (South European), auch als "ISO Latin-3" bekannt, enthält die Zeichen für die süd-europäischen Sprachen Maltekisch und Türkisch sowie für die künstliche Sprache Esperanto.
- ISO 8859-4 (North European), auch als "ISO Latin-4" bekannt, umfasst die Zeichen für die baltischen Sprachen Estnisch, Lettisch und Litauisch sowie die meisten erforderlichen Textzeichen für Grönländisch (Inuit) und Lappländisch (Sami).
- ISO 8859-5 (Cyrillic) dient für die im kyrillischen Alphabet geschriebenen Sprachen Bulgarisch, Mazedonisch, (Weiß-)Russisch, Serbisch und Ukrainisch.
- ISO 8859-6 (Arabic) dient für die arabischen Sprachen sowie für Sprachen, die zwar nicht zur arabischen Sprachfamilie gehören, aber im arabischen Alphabet geschrieben werden, etwa Persisch (Farsi). Die Schreibrichtung des Arabischen ist von rechts nach links.
- ISO 8859-7 (Greek) dient für Neu-Griechisch.
- ISO 8859-8 Hebräisch (Hebrew) dient für Hebräisch (Iwrit) und Jiddisch. Die Schreibrichtung des Hebräischen ist von rechts nach links.
- ISO 8859-9 (Turkish), auch als "ISO Latin-5" bekannt, ähnelt weitgehend ISO Latin-1, allerdings sind die isländischen Sonderbuchstaben Eth und Thorn (Þ Ð) in Latin-5 gegen die Textzeichen ausgetauscht, die man zur Schreibung des Türkischen benötigt (Ğ ğ İ ı) und die in Latin-1 nicht enthalten sind.
- ISO 8859-10 (Nordic), auch als "ISO Latin-6" bekannt, enthält die Sonderzeichen für einige nordische Sprachen, darunter für grönländisches Eskimo (Inuit) und eine Spielart des Samischen (Lappländischen). Dieser Zeichensatz enthält auch - wie ISO Latin-1 - die isländischen Sonderbuchstaben.
Die deutschen Sonderzeichen liegen in Latin 1 bis 6 an denselben Stellen. Da also zum Beispiel ISO-8859-2 neben den polnischen auch die deutschen Sonderzeichen umfasst, kann dieser Zeichensatz für zweisprachige Text in Polnisch und Deutsch verwendet werden. Für einen Text auf Deutsch und Türkisch ist ISO 8859-9 (ISO Latin-5) verwendbar; für einen zweisprachigen Text auf Deutsch und Russisch (oder auf Deutsch und Serbisch) gibt es hingegen keinen geeigneten ISO-Zeichensatz. Für Texte, die sowohl im lateinischen als auch im kyrillischen Alphabet geschrieben sind, kann man nur das "Universal Character Set" (USC; besser bekannt als "Unicode") verwenden.
Die ISO 8859-Zeichensätze legen jeweils 95 verschiedene Zeichen für die Codepoints von Nummer 160 bis Nummer 255 fest. Während im Unicode jeder Codepoint eindeutig einem einzigen Zeichen zugeordnet, ist in ISO 8859 jeder Codepoint mehrfach belegt; je nach Zeichensatz. So liegt zum Beispiel in ISO 8859-1 (Latin 1) an Codepoint Nr. 192 das großes A mit Grave (À), während in ISO 8859-2 am Codepoint Nr. 192 das große R mit Akut (Ŕ) zu finden ist. In der folgenden Tabelle werden die ISO-Zeichensätze Latin 1 und Latin 2 miteinander verglichen.
| |
8859-1 |
8859-2 |
| Codepoint |
Zeichen |
Beschreibung |
Zeichen |
Beschreibung |
| 160 |
|
Geschützter Leerschritt |
|
Geschützter Leerschritt |
| 161 |
¡ |
Umgekehrtes Ausrufungszeichen |
Ą |
Großes A mit Ogonek |
| 162 |
¢ |
Cent-Zeichen |
˘ |
Breve |
| 163 |
£ |
Britische Pfund Sterling |
Ł |
Großes L mit Schrägstrich |
| 164 |
¤ |
Allgem. Währungszeichen |
¤ |
Allgem. Währungszeichen |
| 165 |
¥ |
Yen (Yuan) |
Ľ |
Großes L mit Caron |
| 166 |
¦ |
Durchbrochener, senkrechter Strich |
Ś |
Großes S mit Akut |
| 167 |
§ |
Paragraphen-Zeichen |
§ |
Paragraphen-Zeichen |
| 168 |
¨ |
Diaeresis (Umlaut) |
¨ |
Diaeresis (Umlaut) |
| 169 |
© |
Copyright-Zeichen |
Š |
Großes S mit Caron (Hatschek) |
| 170 |
ª |
Anzeiger für weibliche Ordnungszahlen |
Ş |
Großes S mit Cedilla |
| 171 |
« |
Doppelte, winklige Anführungszeichen, nach links weisend (Guillemets) |
Ť |
Großes T mit Caron (Hatschek) |
| 172 |
¬ |
"Nicht"-Zeichen, Verneinungszeichen |
Ź |
Großes Z mit Akut |
| 173 |
|
Bedingter Trennstrich |
|
Bedingter Trennstrich |
| 174 |
® |
Eingetragene Marke |
Ž |
Großes Z mit Caron (Hatschek) |
| 175 |
¯ |
Macron |
Ż |
Großes Z mit einem Punkt darüber |
| 176 |
° |
Grad-Zeichen (Winkel, Temperatur) |
° |
Grad-Zeichen (Winkel, Temperaturen) |
| 177 |
± |
Plus-Minus-Zeichen, Toleranz-Zeichen |
ą |
Kleines a mit Ogonek |
| 178 |
² |
hoch 2, zum Quadrat |
˛ |
Ogonek ('Schwänzchen') |
| 179 |
³ |
hoch 3, Kubik |
ł |
Kleines l mit Schrägstrich |
| 180 |
´ |
Akut (accent aigu) |
´ |
Akut (accent aigu) |
| 181 |
µ |
mu; Mikro-Zeichen |
ľ |
Kleines l mit Caron (Hatschek) |
| 182 |
¶ |
Absatzzeichen |
ś |
Kleines s mit Akut |
| 183 |
· |
Punkt in der Mitte (Middot) |
ˇ |
Caron (Hatschek) |
| 184 |
¸ |
Cedilla |
¸ |
Cedilla |
| 185 |
¹ |
hoch 1 |
š |
Kleines s mit Caron (Hatschek) |
| 186 |
º |
Indikator für männliche Ordnungszahl |
ş |
Kleines s mit Cedilla |
| 187 |
» |
Doppelte, winklige Anführungszeichen, nach rechts weisend (Guillemets) |
ť |
Kleines t mit Caron |
| 188 |
¼ |
ein Viertel |
ź |
Kleines z mit Akut |
| 189 |
½ |
einhalb |
˝ |
Doppel-Akut |
| 190 |
¾ |
drei Viertel |
ž |
Kleines z mit Caron |
| 191 |
¿ |
umgekehrtes Fragezeichen |
ż |
Kleines z mit Punkt darüber |
| 192 |
À |
Großes A mit Grave |
Ŕ |
Großes R mit Akut |
| 193 |
Á |
Großes A mit Akut |
Á |
Großes A mit Akut |
| 194 |
 |
Großes A mit Zirkumflex |
 |
Großes A mit Zirkumflex |
| 195 |
à |
Großes A mit Tilde |
Ă |
Großes A mit Breve |
| 196 |
Ä |
Großes A mit Diaeresis (Umlaut) |
Ä |
Großes A mit Diaeresis (Umlaut) |
| 197 |
Å |
Großes A mit Ring (Krouzek) |
Ĺ |
Großes L mit Akut |
| 198 |
Æ |
Ligatur aus großem A und großem E |
Ć |
Großes C mit Akut |
| 199 |
Ç |
Großes C mit Cedilla |
Ç |
Großes C mit Cedilla |
| 200 |
È |
Großes E mit Grave |
Č |
Großes C mit Caron (Hatschek) |
| 201 |
É |
Großes E mit Akut |
É |
Großes E mit Akut |
| 202 |
Ê |
Großes E mit Zirkumflex |
Ę |
Großes E mit Ogonek |
| 203 |
Ë |
Großes E mit Diaeresis |
Ë |
Großes E mit Diaeresis |
| 204 |
Ì |
Großes I mit Grave |
Ě |
Großes E mit Caron (Hatschek) |
| 205 |
Í |
Großes I mit Akut |
Í |
Großes I mit Akut |
| 206 |
Î |
Großes I mit Zirkumflex |
Î |
Großes I mit Zirkumflex |
| 207 |
Ï |
Großes I mit Diaeresis |
Ď |
Großes D mit Caron (Hatschek) |
| 208 |
Ð |
Großes Eth |
Đ |
Großes D mit Querstrich |
| 209 |
Ñ |
Großes N mit Tilde |
Ń |
Großes N mit Akut |
| 210 |
Ò |
Großes O mit Grave |
Ň |
Großes N mit Caron (Hatschek) |
| 211 |
Ó |
Großes O mit Akut |
Ó |
Großes O mit Akut |
| 212 |
Ô |
Großes O mit Zirkumflex |
Ô |
Großes O mit Zirkumflex |
| 213 |
Õ |
Großes O mit Tilde |
Ő |
Großes O mit Doppel-Akut |
| 214 |
Ö |
Großes O mit Diaeresis (Umlaut) |
Ö |
Großes O mit Diaeresis (Umlaut) |
| 215 |
× |
Multiplikationszeichen (mal) |
× |
Multiplikationszeichen (mal) |
| 216 |
Ø |
Großes O mit Schrägstrich |
Ř |
Großes R mit Caron (Hatschek) |
| 217 |
Ù |
Großes U mit Grave |
Ů |
Großes U mit Ring (Krouzek) |
| 218 |
Ú |
Großes U mit Akut |
Ú |
Großes U mit Akut |
| 219 |
Û |
Großes U mit Zirkumflex |
Ű |
Großes U mit Doppel-Akut |
| 220 |
Ü |
Großes U mit Diaeresis (Umlaut) |
Ü |
Großes U mit Diaeresis (Umlaut) |
| 221 |
Ý |
Großes Y mit Akut |
Ý |
Großes Y mit Akut |
| 222 |
Þ |
Großes Thorn |
Ţ |
Großes T mit Cedilla |
| 223 |
ß |
Esszett, deutsches scharfes s |
ß |
Esszett, deutsches scharfes s |
| 224 |
à |
Kleines a mit Grave |
ŕ |
Kleines r mit Akut |
| 225 |
á |
Kleines a mit Akut |
á |
Kleines a mit Akut |
| 226 |
â |
Kleines a mit Zirkumflex |
â |
Kleines a mit Zirkumflex |
| 227 |
ã |
Kleines a mit Tilde |
ă |
Kleines a mit Breve |
| 228 |
ä |
Kleines a mit Diaeresis (Umlaut) |
ä |
Kleines a mit Diaeresis (Umlaut) |
| 229 |
å |
Kleines a mit Ring (Krouzek) |
ĺ |
Kleines l mit Akut |
| 230 |
æ |
Ligatur aus kleinem a und kleinem e |
ć |
Kleines c mit Akut |
| 231 |
ç |
Kleines c mit Cedilla |
ç |
Kleines c mit Cedilla |
| 232 |
è |
Kleines e mit Grave |
č |
Kleines c mit Caron (Hatschek) |
| 233 |
é |
Kleines e mit Akut |
é |
Kleines e mit Akut |
| 234 |
ê |
Kleines e mit Zirkumflex |
ę |
Kleines e mit Ogonek |
| 235 |
ë |
Kleines e mit Diaeresis |
ë |
Kleines e mit Diaeresis |
| 236 |
ì |
Kleines i mit Grave |
ě |
Kleines e mit Caron (Hatschek) |
| 237 |
í |
Kleines i mit Akut |
í |
Kleines i mit Akut |
| 238 |
î |
Kleines i mit Zirkumflex |
î |
Kleines i mit Zirkumflex |
| 239 |
ï |
Kleines i mit Diaeresis |
ď |
Kleines d mit Caron (Hatschek) |
| 240 |
ð |
Kleines eth |
đ |
Kleines d mit Querstrich |
| 241 |
ñ |
Kleines n mit Tilde |
ń |
Kleines n mit Akut |
| 242 |
ò |
Kleines o mit Grave |
ň |
Kleines n mit Caron (Hatschek) |
| 243 |
ó |
Kleines o mit Akut |
ó |
Kleines o mit Akut |
| 244 |
ô |
Kleines o mit Zirkumflex |
ô |
Kleines o mit Zirkumflex |
| 245 |
õ |
Kleines o mit Tilde |
ő |
Kleines o mit Doppel-Akut |
| 246 |
ö |
Kleines o mit Diaeresis (Umlaut) |
ö |
Kleines o mit Diaeresis (Umlaut) |
| 247 |
÷ |
Divisionszeichen ("Geteilt durch ...") |
÷ |
Divisionszeichen ("Geteilt durch ...") |
| 248 |
ø |
Kleines o mit Schrägstrich |
ř |
Kleines r mit Caron (Hatschek) |
| 249 |
ù |
Kleines u mit Grave |
ů |
Kleines u mit Ring (Krouzek) |
| 250 |
ú |
Kleines u mit Akut |
ú |
Kleines u mit Akut |
| 251 |
û |
Kleines u mit Zirkumflex |
ű |
Kleines u mit Doppel-Akut |
| 252 |
ü |
Kleines u mit Diaeresis (Umlaut) |
ü |
Kleines u mit Diaeresis (Umlaut) |
| 253 |
ý |
Kleines y mit Akut |
ý |
Kleines y mit Akut |
| 254 |
þ |
Kleines thorn |
ţ |
Kleines t mit Cedilla |
| 255 |
ÿ |
Kleines y mit Diaeresis |
˙ |
Einfacher Punkt darüber |
Der für das Internet wohl wichtigste Zeichensatz, der "American Standard Code for Information Interchange" (ASCII), enthält keine Sonderzeichen. Da im ASCII nur 7 Bit für die Kodierung jedes Schriftzeichens verwendet werden, sind maximal 128 ASCII-Zeichen möglich. In den ISO 8859-Zeichensätzen hingegen wird jedes Textzeichen mit 8 Bit kodiert, so dass jeweils 256 verschiedene Zeichen möglich sind. Auch diese Zeichenanzahl genügt jedoch noch nicht einmal für alle in Europa gesprochenen Sprachen. Der einzige wirklich umfassende, sprachübergreifende Zeichensatz ist das "Universal Character Set" (= Unicode), der das Ziel hat, weltweit allen verwendeten Textzeichen einen eindeutigen Byte-Wert zuzuordnen.
 Druckversion
|