Étape 4: Maintenir la compatibilité avec l’ASCII.
Unicode maintient la compatibilité avec l’ASCII.
Les caractères ASCII sont encodés de 32 à 127.
Codes de 0 à 31 sont des codes de contrôle principalement utilisés pour la pagination : tabulation, retour chariot, fin de la chaîne, etc...
(Remarque : beaucoup de ces codes de contrôle sont obsolètes aujourd'huis.)
Ainsi, les caractères ASCII suffit de 7 des 8 bits d’un octet à coder : 00000000 à 01111111 en binaire.
Cela signifie que le 8ème bit d’un code ASCII est toujours définie sur 0. (rappel : n’oubliez pas que les morceaux est comptés de droite à gauche. Le 1er bit est, ainsi, à droite, et le dernier est à gauche).
Comme, dans la plupart des langages de programmation, le 8ème bit d’un octet est généralement utilisé pour définir le signe (positif ou négatif) d’une valeur signée, cela signifie également que signé octets contenant un code ASCII sera toujours positif (8e bit la valeur 0).
Fins de compatibilité, codage UTF-8 permettra d’éviter d’utiliser des valeurs positives, car une applications incompatibles interprétera les caractères Unicode codés sur 4 octets comme 4 différents ASCII des caractères étendus : et à cause du code de contrôle (de 0 à 31), cela peut conduire à des résultats inattendus.