L'emploi de Unicode dans le Web

Qu'est-ce que signifie Unicode ?

Unicode peut être "traduit" par universal code, donc code universelle qui permet l'emploi de tous les caractères des langues divers dans un seul document Web. Le Unicode est supporté par les divers systèmes d'exploitations installées dans les serveurs. Seulement les sites qui tournent sous JSP nécessitent une attention supplémentaire en ce qui concerne Unicode pour que vraiment tous les caractères du monde soient correctement affichés sur l'écran des internautes.

L'histoire bref de Unicode

Déjà les années 80 il devenait évident qui l'Internet avait besoin d'un set de caractères qui englobe toutes les caractères de toutes les langues du monde pour pouvoir fonctionner. 1988, finalement, plusieurs entreprises se joignent pour développer un tel système de codage qui se base sur le travail de Xerox. Mais seulement en octobre 1991 le Unicode Consortium, crée en janvier 1991, pouvait présenter la version 1.0 de l'Unicode Standard.
 
Comme il y avait déjà un système évolué de codage de caractères, développé par le ISO/IEC working group, il était nécessaire que les deux groupes travaillent ensemble pour pouvoir présenter un seul système de codage. Déjà 1991 se joignaient donc les sets de caractères ISO 10646 et Unicode.
 
Mais vu le nombre de langues du monde et des innombrables caractères que ces langues utilisent, le travaille sur Unicode est loin d'être fini et continue à se compléter. La version 4.0 de Unicode a été publié en 2003 et incluait déjà 96.447 caractères différents.
 
En 2007 la version 5.0, qui a été publié et est aujourd'hui largement implémenté dans les divers systèmes d'exploitation et permet l'utilisation de plus de 100.000 caractères dans une seule page HTML ou xhtml.

Quelle est le but de Unicode ?

Unicode a quatre buts en même temps qui concernent toutes les étapes entre le développement du hardware et la software et inclut ainsi également la programmation de pages Web.
 
Unicode est destinée à devenir le standard universel qui permet l'emploi simultanément de tous les caractères de polices sur l'écran et sur papier.
 
Unicode doit faciliter l'usabilité en évitant à créer de pages qui utilisent différents systèmes d'encodage et qui évite l'intervention dans hardware et software pour l'adapter à l'affichage de caractères spéciaux.
 
Unicode cible un encodage de caractères à 16 bits dont chaque caractère soit représenté par 16 bits et ainsi unique dans le set de caractères.
 
Unicode permet que chaque caractère soit présenté par un code unique et identifiable n'importe sous quelles conditions et dans quels endroits de la même manière.

Les trois systèmes Unicode

Unicode UTF-8 dispose d'un encodage qui se base sur 8 bits, ce qui permet à représenter les caractères des langues anglophones. Ce l'encodage la plus utilisé sur Internet et pour la transmission du mail.
 
Unicode UTF-16 utilise l'encodage par 16 bits et permet l'affichage correct de la majorité de caractères existants dans le monde. Caractères qui ne font pas partie de Unicode UTF-16 peuvent être utilisées par un groupent de deux codes ensembles.
 
Unicode UTF-32 qui utilises 32 bits par caractère, finalement, permet l'emploi de tous les caractères existants dans une seule suite de chiffres. Ce standard permet aussi à ajouter encore d'autres caractères qui ne sont pas encore définis par la version 5.1.0 de Unicode.

Les problèmes résolues par Unicode

Les premiers ordinateurs, donc aussi de serveurs, ne parlaient que l'américain en utilisant le set de caractères ASCII. Il n'était donc pas possible à utiliser les caractères accentués dans un mail ou une page Web. C'est pourquoi il 'ajoutaient assez vite les caractères spéciaux de la norme ISO. Le set ISO 8859-1, par exemple servait à afficher et à utiliser la majorité de langues européennes dont le Français.
 
La situation se compliquait toutefois si un texte avait besoin des caractères français et de caractères polonais en même temps. Dans ce cas il fallait utiliser deux sets de caractères.
 
Unicode a résolu ce problème de la manière que ce standard se base sur les anciens standards ASCII et ISO. Le caractère numéro 96 reste le même, n'importe s'il s'agit du ASCII ou de Unicode. Mais Unicode ne se limite pas aux 255 des standards d'origine ce qui permet une plus grande liberté en ce qui concerne la programmation des pages Web et la coexistence de nombreuses langues dans un seul document.

Unicode et le Unicode Consortium

Le Unicode Consortium est un organisme à but non lucratif avec le but à développer et promulguer le standard Unicode. Il y a plusieurs catégories de membres avec de divers privilèges. Le Unicode Consortium comptait en mars 2009 18 membres de plein droit dont Google, IBM, Microsoft, Sun et Yahoo. Chaque personne physique peut devenir membre du Unicode Consortium.

Unicode et l'optimisation pour le référencement

Tant qu'une page ne sort pas de sets de caractères ASCII ou ISO le Webmaster peut choisir entre l'indication du l'ancien standard et Unicode mais dès qu'il utilise plusieurs langues dans une seule page Web ou qu'il traduit ses pages dans d'autres langues il doit recourir au standard Unicode, déjà à cause de questions de la lisibilité et de l'utilisabilité.
 
L'information sur l'encodage des pages se trouve toujours dans le head du document et l'Unicode remplace simplement, par exemple, l'indication iso-8859-1.
 
Les liens suivants mènent vers des pages qui traitent certains aspects de Unicode :
Unicode
Qu'est ce qu'Unicode ?
Fonts and software resources for the Unicode Character Set
What is Unicode? And Why do I need to use Unicode?