Entité de caractère
Un article de Wikipédia, l'encyclopédie libre.
Cet article est une ébauche à compléter concernant l'informatique, vous pouvez partager vos connaissances en le modifiant. |
Une entité de caractère, ou référence de caractère, est un code SGML qui référence un caractère de la norme UCS. Elle permet d'afficher des caractères indépendamment du jeu du document.
On utilise généralement des entités dans les documents HTML et xHTML (car XML est basé sur SGML).
Sommaire |
[modifier] Références numériques
Afin de contourner les limitations des encodages, SGML est concu de telle manière qu'il est possible de représenter les caractères de l'intégralité d'Unicode à l'intérieur d'un document HTML en utilisant une référence de caractère numérique : une séquence de caractères qui épelle explicitement le numéro du point de code Unicode du caractère à représenter. Une référence numérique prend la forme
&#
N;
,
où N est soit un nombre décimal, soit un nombre hexadécimal, auquel cas il est préfixé par x
. Les caractères autorisés pour être référencés par un nombre sont tous les caractères universellement représentables dans chaque encodage approuvé pour une utilisation sur Internet.[réf. nécessaire]
Par exemple, un point de code Unicode comme 9835, qui correspond à une double croche, doit être précédé par &
et suivi de ;
, comme cela : ♫
, ce qui produit ceci : ♫.
Le support d'hexadécimaux dans ce contexte est plus récent ; par conséquent les navigateurs web plus anciens peuvent avoir des problèmes pour afficher les caractères référencés avec des nombres hexadécimaux – mais de toute façon, ils auront aussi des problèmes pour afficher des caractères Unicode dont le point de code est supérieur à 255. Pour assurer une meilleure compatibilité avec des navigateurs plus anciens, il commun de convertir les points de code hexadécimaux en valeurs décimales (par exemple ♫
au lieu de ♫
).
[modifier] Références nommées (entités de caractères)
En SGML, il existe un jeu standard de 252 entités de caractère nommées pour des caractères qui sont soit absents de certains encodages, soit sensibles au balisage dans certains contextes (par exemple les chevrons et esperluettes). Bien que n'importe quel caractère Unicode puisse être référencé par la valeur numérique de son point de code, certains auteurs de documents HTML préfèrent utiliser ces entités nommées à la pace, si possible, car elles sont plus intuitives, notamment pour les anglophones, et étaient mieux supportées sur les navigateurs plus anciens.
Une entité de caractère prend la forme
&
EntityName;
,
où EntityName est le nom de l'entité. Par exemple, –
se réfère à –
ou –
et représente U+2013, le tiret demi-cadratin – comme ceci.
[modifier] Voir aussi
[modifier] Liens internes
- Unicode
- Unicode et HTML
- Table des caractères Unicode
- Aide:Unicode, Aide:Caractères spéciaux
- Codage de caractères
- Page de code
[modifier] Liens externes
- Référence des entités SGML – World Wide Web Consortium
- Convertisseur de caractères et de codages Unicode – World Wide Web Consortium
- « Le minimum absolu que tout développeur doit savoir sur Unicode et les jeux de caractères »
- Liste exhaustive des caractères spéciaux et entités HTML.
- Références des entités « Latin-1 », « Caractères spéciaux » et « Mathématiques, symboles et grec » (fichiers
.ent
). - Codage valide des caractères Windows illégaux