Designer-Logo
Designer-Logo
Überschrift HTML Zeichenkodierung UTF-8

Was ist UCS Transformation Format 8?

UTF-8(Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung im "World Wide Web" (WWW). UCS und Unicode sind praktisch identisch. Es werden 97% aller Webseiten in UTF-8 gespeichert. Das Internet hat sich im Verlauf der Jahre immer mehr von der englischen Sprache entfernt und so musst man auch andere Sprachen kodieren. Daher reicht der American Standard Code Information Interchange (kurz ASCII) nicht mehr aus und es wurde UTF-8 ins Leben gerufen. ASCII und UTF-8 sind in den ersten 128 englischen Zeichen identisch(was UTF-8 auch abwärtskompatibel macht). UTF-8 braucht zur Darstellung eines Zeichens in der Regel nur 1 Byte(es werden keine weiteren Bytes verwendet und die Dateigrösse wird nicht unnötig aufgebläht).

Wieviele Bytes braucht welches Zeichen(Sprache)

SpeicherbedarfZeichen/Sprache
Ein Byte: Die ersten 128 Zeichen (entsprechend den ASCII-Zeichen).
Zwei Bytes: Umfasst die auf dem lateinische Alphabet aufgebauten Sprachen, aber auch Griechisch, Hebräisch und Arabisch
Drei Bytes: Umfasst fernöstliche Sprachen wie Chinesisch, Japanisch, Koreanisch
Vier Bytes: Umfasst zum Beispiel mathematische Symbole und Emojis.
UTF-8 kann in der Zwischenzeit bis 145'000 Zeichen speichern (das sind ungefähr 159 Sprachen). Aber was ist Kodierung, die Zeichen werden binär abgebildet (also binär wie: "10000000"). Der Computer basiert ja auf "einsen" und "nullen" und speichert so auch Zeichen (Codepoints) als Unicode. Bei nicht Verwendung des <meta charset="UTF-8"> im <head> werden in der deutschen Sprache Umlaute fehlerhaft dargestellt.
Überschrift Beispiel
<!DOCTYPE html>
<html>
<head>
<title>Page</title>
<meta charset="UTF-8">
</head>
<body>
</body>
</html>