Étape 1: Rappel facultatif sur les fichiers texte et jeux de caractères :
Les fichiers binaires de l’ordinateur (images, musique, exécutables, etc.) et fichiers texte (.txt) de l’ordinateur sont la même chose : ils sont tous les fichiers de l’ordinateur.
Un fichier informatique est la liste des octets.
Un octet est formé de 8 bits.
Un bit est un élément fondamental binaire (État 2). Elle peut être définie (contient 1) ou désactivé (contient 0).
En changeant les États des 8 bits d’un octet, on peut faire 256 combinaisons différentes.
Chaque combinaison forme un nombre binaire.
Il est possible de convertir des nombres binaires en nombres décimaux.
Ainsi, il est possible de compter en binaire :
00000000 (0)
00000001 (1)
00000010 (2)
00000011 (3)
00000100 (4)
00000101 (5)
...
11111100 (252)
11111101 (253)
11111110 (254)
11111111 (255)
Ainsi, chaque octet d’un fichier de l’ordinateur contient une valeur chiffre entre 00000000 et 11111111 en binaire (de 0 à 255 en décimal).
Nous pouvons ensuite utiliser octets pour stocker des nombres entiers de 0 à 255.
Si nous voulons conserver les dates historiques comme 1783 ou valeurs mathématiques comme 1.41421, nous sommes obligés de « coder » à l’aide de plusieurs octets.
Avec deux octets, il est possible de stocker des nombres entiers compris entre 0 et 65 535.
Avec 4 octets, il est possible d’encoder (avec une certaine approximation éventuelle) des nombres réels.
Il en va de même avec le texte : chaque caractère d’une chaîne est codée en une valeur comprise entre 0 et 255, ce qui donne, par conséquent, un maximum de 256 caractères différents.
Au début, comme les ordinateurs étaient principalement une technologie occidentale, 256 caractères possibles était plus que suffisant : 26 lettres minuscules, 26 majuscules, 10 numéros, quelques symboles de ponctuation...
Américains créé la norme ASCII (American Standard Code for Information Interchange).
Il a été largement utilisée (et adapté) en Europe aussi. Il a même été étendu pour contenir la plupart des caractères accentués largement utilisés en Europe.
Ainsi, chaque octet d’un fichier ASCII (ou texte brut) contiennent 1 caractère.
Cependant, pas tous les pays du monde entier utilisent l’alphabet Latin.
Par exemple, les Russes créé leurs propres normes, ce qui n’était pas compatible avec la norme ASCII. Greek créé leurs propres normes, ce qui n’était pas compatible avec la norme, etc. ASCII.
Depuis longtemps, sur internet, il était très difficile d’afficher plusieurs alphabet différent ensemble sur la même page, car chaque alphabet nécessaire un autre « encodage charset », et qu’un seul « charset encoding » par page n’a pas été facilement possible.
Sites internationaux comme Wikipedia auraient été très difficiles à faire.
Le truc plus courant pour afficher des formules mathématiques ou des caractères chinois sur une page en anglais, a été de les afficher sous forme d’images...
Rapidement, ils sont allés à la conclusion que 256 caractères ne suffisait pas, et que tous les possibles et différents caractères et symboles du monde devaient être regroupées en un ensemble unique et universel de caractères : Unicode.
.