English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

HTML Referenzhandbuch

Komplettes Verzeichnis der HTML-Tags

Zeichensatz von HTML

Der Zeichensatz bestimmt, wie die Bytes des Textes in Ihrem HTML-Dokuments in lesbare Zeichen übersetzt werden. Es kann nach ISO010646 Zeichenkodierung interpretiert numerische oder hexadezimale Zeichenreferenzen ("〹" oder "ሴ 2.0 übereinstimmt und unabhängig vom gewählten Zeichensatz ist.

Zeichensatz von HTML

Um HTML-Seiten korrekt anzuzeigen, muss der Browser wissen, welche Zeichensatzart verwendet wird.

Die frühen Versionen des World Wide Web verwendeten das Zeichensatzsystem ASCII. ASCII unterstützt 0-9 Ziffern, Groß- und Kleinbuchstaben, sowie einige spezielle Zeichen.}

Vollständiges ASCII-Referenzhandbuch.

Da viele Länder verwendende Zeichen nicht dem ASCII zuzuordnen sind, ist die Standardzeichensatzkonfiguration moderner Browser ISO-8859-1.

Vollständige ISO-8859-1 Referenzhandbuch.

Wenn die Webseite eine andere als ISO-8859-1 Zeichensätze, sollten im <meta>-Tag angegeben werden.

ISO-Zeichensätze

Die ISO-Zeichensätze sind von der Internationalen Organisation für Normung (ISO) für verschiedene Alphabeten/Sprachdefinierte Standardzeichensätze.

Nachstehend sind verschiedene Zeichensätze auf der ganzen Welt aufgeführt, die verwendet werden:

Character setDescriptionVerwendungsbereich
ISO-8859-1Lateinischer Alphabetteil 1Nordamerika, Westeuropa, Lateinamerika, Karibik, Kanada, Afrika
ISO-8859-2Lateinischer Alphabetteil 2Osteuropa
ISO-8859-3Lateinischer Alphabetteil 3Südeuropa, Esperanto, andere verschiedene
ISO-8859-4Lateinischer Alphabetteil 4Skandinavien/Baltische (und andere, die nicht in ISO-8859-1 darin enthalten sind)
ISO-8859-5Lateinisch/Kyrillischer Teil 5Sprachen, die das alte slawische Alphabet verwenden, wie Bulgarisch, Weißrussisch, Russisch, Mazedonisch
ISO-8859-6Lateinisch/Arabischer Teil 6Sprachen, die arabisch schreiben
ISO-8859-7Lateinisch/Griechischer Teil 7Moderne Griechisch, sowie durch Griechisch abgeleitete mathematische Symbole
ISO-8859-8Lateinisch/Hebräischer Teil 8Sprachen, die Hebräisch sprechen
ISO-8859-9Lateinisch 5 Teil 9Türkisch. Abgesehen davon, dass türkische Zeichen die isländischen Schriftzeichen ersetzt haben, sind die anderen mit ISO-8859-1 .
ISO-8859-10Lateinisch 6Finnisch, Deutsch, Finnisch, Norwegisch
ISO-8859-15Lateinisch 9 (auch Latein 0)mit ISO 8859-1 Ähnlich ersetzen der Euro-Symbol und einige andere Zeichen einige weniger genutzte Symbole
ISO-2022-JPLateinisch/Japanischer Teil 1Japanisch
ISO-2022-JP-2Lateinisch/Japanischer Teil 2Japanisch
ISO-2022-KRLateinisch/Koreanischer Teil 1Koreanisch

Der Unicode-Standard

Da alle oben genannten Zeichensätze Kapazitätsbegrenzungen haben und nicht kompatibel mit mehrsprachigen Umgebungen sind, hat die Unicode-Allianz den Unicode-Standard entwickelt.

Der Unicode-Standard umfasst alle Zeichen, Satzzeichen und Symbole der Welt.

Egal auf welchem Plattform, Programm oder Sprache, Unicode kann Textdaten verarbeiten, speichern und austauschen.

Die Unicode-Allianz

Die Unicode-Allianz hat den Unicode-Standard entwickelt. Ihr Ziel ist es, die bestehenden Zeichensätze durch das standardisierte Unicode-Transformationsformat (UTF) zu ersetzen.

Der Unicode-Standard hat Erfolg erlangt und wird in XML, Java, ECMAScript (JavaScript), LDAP, CORBA unterstützt. 3.0、In WML, Unicode ist bereits implementiert. Unicode wird in vielen Betriebssystemen sowie in allen modernen Browsern unterstützt.

The Unicode Consortium collaborates with leading standard development organizations such as ISO, W3C and ECMA.

Unicode can be compatible with different character sets. The most commonly used encoding method is UTF-8 and UTF-16:

Character setDescription
UTF-8UTF8 The characters in can be 1-4 bytes long. UTF-8 Can represent any character in the Unicode standard. UTF-8 Backward compatible with ASCII. UTF-8 is the preferred encoding for web pages and emails.
UTF-1616 bit Unicode transformation format is a Unicode variable character encoding that can encode the entire Unicode instruction table. UTF-16 It is mainly used in operating systems and environments such as Microsoft's Windows 2000/XP/2003/Vista/CE as well as Java and .NET bytecode environments.

Hint: the first 256 Unicode character set characters correspond to 256 ISO-8859-1 characters.

Hint: All HTML 4 processors have supported UTF-8While all XHTML and XML processors support UTF-8 and UTF-16!