Étape 2: Rappel facultatif sur Unicode :
Unicode est compatible avec l’ancienne norme ASCII (c'est-à-dire que les 128 premiers caractères d’Unicode ont les mêmes codes que ceux de l’ASCII) et contient tous les codes de tous les caractères possibles et les symboles de tous les alphabets, adjabs et logogrammes de toutes nations et cultures du monde. Et actuellement, il y a environ 100 000 caractères différents.
Cela signifie que nous avons besoin de plus de 1 octet pour stocker le code de la plupart d'entre eux.
Avec un octet (8 bits), nous pourrions Encoder seulement les 256 premiers caractères Unicode (qui sont compatible ASCII)
Avec deux octets (16 bits), nous pourrions encoder les 65 536 premiers caractères d’Unicode.
Avec quatre octets (32 bits), nous pourrions les coder tous et plus encore...
Ainsi, semble la plus universelle pour stocker du texte compatible Unicode dans les fichiers de l’ordinateur consisterait à utiliser 4 octets par caractère.
Cependant, les anciens fichiers de texte ASCII deviendrait illisibles (car ils utilisent seulement 1 octet par caractère). Et les convertir en 4 octets par caractères seraient perdre beaucoup d’espace (quatre fois plus)...
C’est pourquoi ils ont inventé diverses méthodes d’encodage pour coder du texte Unicode sans perdre trop d’espace et en gardant une compatibilité avec les anciens fichiers ASCII. Ces méthodes d’encodage sont nommés : UTF-7, UTF-8, UTF-16 et UTF-32.
.