English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Der Zeichensatz bestimmt, wie die Bytes des Textes in Ihrem HTML-Dokuments in lesbare Zeichen übersetzt werden. Es kann nach ISO010646 Zeichenkodierung interpretiert numerische oder hexadezimale Zeichenreferenzen ("〹" oder "ሴ 2.0 übereinstimmt und unabhängig vom gewählten Zeichensatz ist.
Um HTML-Seiten korrekt anzuzeigen, muss der Browser wissen, welche Zeichensatzart verwendet wird.
Die frühen Versionen des World Wide Web verwendeten das Zeichensatzsystem ASCII. ASCII unterstützt 0-9 Ziffern, Groß- und Kleinbuchstaben, sowie einige spezielle Zeichen.}
Vollständiges ASCII-Referenzhandbuch.
Da viele Länder verwendende Zeichen nicht dem ASCII zuzuordnen sind, ist die Standardzeichensatzkonfiguration moderner Browser ISO-8859-1.
Vollständige ISO-8859-1 Referenzhandbuch.
Wenn die Webseite eine andere als ISO-8859-1 Zeichensätze, sollten im <meta>-Tag angegeben werden.
Die ISO-Zeichensätze sind von der Internationalen Organisation für Normung (ISO) für verschiedene Alphabeten/Sprachdefinierte Standardzeichensätze.
Nachstehend sind verschiedene Zeichensätze auf der ganzen Welt aufgeführt, die verwendet werden:
Character set | Description | Verwendungsbereich |
---|---|---|
ISO-8859-1 | Lateinischer Alphabetteil 1 | Nordamerika, Westeuropa, Lateinamerika, Karibik, Kanada, Afrika |
ISO-8859-2 | Lateinischer Alphabetteil 2 | Osteuropa |
ISO-8859-3 | Lateinischer Alphabetteil 3 | Südeuropa, Esperanto, andere verschiedene |
ISO-8859-4 | Lateinischer Alphabetteil 4 | Skandinavien/Baltische (und andere, die nicht in ISO-8859-1 darin enthalten sind) |
ISO-8859-5 | Lateinisch/Kyrillischer Teil 5 | Sprachen, die das alte slawische Alphabet verwenden, wie Bulgarisch, Weißrussisch, Russisch, Mazedonisch |
ISO-8859-6 | Lateinisch/Arabischer Teil 6 | Sprachen, die arabisch schreiben |
ISO-8859-7 | Lateinisch/Griechischer Teil 7 | Moderne Griechisch, sowie durch Griechisch abgeleitete mathematische Symbole |
ISO-8859-8 | Lateinisch/Hebräischer Teil 8 | Sprachen, die Hebräisch sprechen |
ISO-8859-9 | Lateinisch 5 Teil 9 | Türkisch. Abgesehen davon, dass türkische Zeichen die isländischen Schriftzeichen ersetzt haben, sind die anderen mit ISO-8859-1 . |
ISO-8859-10 | Lateinisch 6 | Finnisch, Deutsch, Finnisch, Norwegisch |
ISO-8859-15 | Lateinisch 9 (auch Latein 0) | mit ISO 8859-1 Ähnlich ersetzen der Euro-Symbol und einige andere Zeichen einige weniger genutzte Symbole |
ISO-2022-JP | Lateinisch/Japanischer Teil 1 | Japanisch |
ISO-2022-JP-2 | Lateinisch/Japanischer Teil 2 | Japanisch |
ISO-2022-KR | Lateinisch/Koreanischer Teil 1 | Koreanisch |
Da alle oben genannten Zeichensätze Kapazitätsbegrenzungen haben und nicht kompatibel mit mehrsprachigen Umgebungen sind, hat die Unicode-Allianz den Unicode-Standard entwickelt.
Der Unicode-Standard umfasst alle Zeichen, Satzzeichen und Symbole der Welt.
Egal auf welchem Plattform, Programm oder Sprache, Unicode kann Textdaten verarbeiten, speichern und austauschen.
Die Unicode-Allianz hat den Unicode-Standard entwickelt. Ihr Ziel ist es, die bestehenden Zeichensätze durch das standardisierte Unicode-Transformationsformat (UTF) zu ersetzen.
Der Unicode-Standard hat Erfolg erlangt und wird in XML, Java, ECMAScript (JavaScript), LDAP, CORBA unterstützt. 3.0、In WML, Unicode ist bereits implementiert. Unicode wird in vielen Betriebssystemen sowie in allen modernen Browsern unterstützt.
The Unicode Consortium collaborates with leading standard development organizations such as ISO, W3C and ECMA.
Unicode can be compatible with different character sets. The most commonly used encoding method is UTF-8 and UTF-16:
Character set | Description |
---|---|
UTF-8 | UTF8 The characters in can be 1-4 bytes long. UTF-8 Can represent any character in the Unicode standard. UTF-8 Backward compatible with ASCII. UTF-8 is the preferred encoding for web pages and emails. |
UTF-16 | 16 bit Unicode transformation format is a Unicode variable character encoding that can encode the entire Unicode instruction table. UTF-16 It is mainly used in operating systems and environments such as Microsoft's Windows 2000/XP/2003/Vista/CE as well as Java and .NET bytecode environments. |
Hint: the first 256 Unicode character set characters correspond to 256 ISO-8859-1 characters.
Hint: All HTML 4 processors have supported UTF-8While all XHTML and XML processors support UTF-8 and UTF-16!