Voilà un touitte de l'ANRT qui annonce qu'Unicode a été complété des caractÚres nécessaires à 4 autres graphies qui n'y étaient pas encore, pour atteindre le total (fort honorable) de 150 graphies.

L'occasion de vous faire un petit fil pour parler typographie (et jouer les vieux cons).

Parlons donc d'Unicode.

Unicode, c'est un projet de fou. Une espĂšce de dĂ©lire humaniste d'informaticiens typographes du 20e siĂšcle. Un peu comme l'EncyclopĂ©die, celle de Diderot et D’Alembert.

L'idée était d'avoir un schéma de codage des caractÚres qui permette de recouvrir tous les schémas connus auparavant, et idéalement, toutes les langues écrites de l'humanité.

Show thread

Les rÚgles qui ont été retenues sont, presque toujours, les plus exigeantes possibles, et accordant une place trÚs importante aux questions techniques. Le but n'était pas de faire un annuaire de tous les caractÚres dont personne ne se serve. Il fallait que ça puisse devenir un standard industriel, universel. Alors il fallait absolument prendre en compte les contraintes techniques, pour que les industriels suivent.

Show thread

C'est par exemple de là que vient la contrainte sur la bijection : pour tous les codages connus (genre, le big5, schéma de codage utilisé par l'industrie japonaise), il faut qu'on puisse convertir l'ancien schéma vers unicode, aller-retour, sans aucune perte.

Ça semble abstrait ? Si l'ancien schĂ©ma contient deux caractĂšres X1 et X2, alors, on doit retrouver ces deux caractĂšres Ă  deux positions diffĂ©rentes dans Unicode, mĂȘme si la logique disait que c'Ă©tait le mĂȘme.

Show thread

Par exemple, si dans un codage on avait "a latin minuscule" et "a latin minuscule italique", alors il fallait qu'Unicode prĂ©voit les deux. Ainsi, l'ancien fichier pouvait ĂȘtre transcodĂ© vers Unicode, puis de nouveau vers le schĂ©ma d'origine, et le fichier retrouvĂ© Ă©tait absolument intact, Ă  l'octet prĂšs.

Pourtant, Unicode, normalement, stocke des caractĂšres, par des glyphes.

Show thread

On retrouve donc, pour ce compromis technique important, quelques éléments un peu hérétiques dans Unicode. Des caractÚres qui n'ont rien à y faire, mais qui sont conservés, pour les vieux fichiers.

Il y avait aussi la volonté de représenter toutes les langues. Toutes. Vraiment. Y compris dans leurs formes rares.

Show thread

C'est une des raisons pour lesquelles Unicode continue à évoluer. Lentement, par rapport à ses débuts, mais ça continue. Parce qu'il y a des langues qui sont tellement mal représentées dans les outils modernes qu'il n'existe aucun outil informatique. Mais qui sont parlées, hein.

J'ai souvenir de cette langue rare, d'Inde, qui pouvait se typographier au plomb, Ă  la fin du 19e, et n'a pu ĂȘtre typographiĂ©e Ă  l'ordinateur qu'au dĂ©but du 21e siĂšcle.

Show thread

Et encore, uniquement parce que des doux dingues ont écrit le code nécessaire pour faire ça avec LaTeX. La langue en question est une langue minoritaire d'Inde. C'est-à-dire 50 millions de locuteurs. Mais voilà, ils ne sont pas occidentaux, et ne roulent pas en SUV. Pendant ~60 ans, ça a été une tannée pour voir leur langue écrite.

Voyez, dans ma tĂȘte, Unicode, c'est ça. Un projet humaniste, d'unification, pour que toutes les langues du monde accĂšdent au numĂ©rique.

Show thread

Du coup, si les grands noms de l'informatique pouvaient consacrer des efforts à ça, par exemple en produisant des polices de caractÚres cohérentes qui couvrent *tout* Unicode, qui permettent d'écrire, avec tous les supports numériques, dans toutes les langues du monde, ça me semblerait... vertueux.

Mais, en général, quand on parle d'Unicode, c'est pour discuter le look de la derniÚre émoji...

Show thread

Alors, sans vouloir manquer de respects aux amateurices d'émojis, franchement, savoir si avec une série de caractÚres combinants on peut représenter une émoji "Courgette aux curry qui fait du tambour avec un poireau bleu et un chapeau pointu", j'en comprend le cÎté amusant, mais c'est pas ça, le sens d'Unicode.

Et ça m'exaspÚre qu'on laisse toujours le cÎté fantastique de cet outil dans l'ombre, pour montrer son cÎté le plus complÚtement inutile.

Show thread

Alors, voilĂ , il y a dans Unicode les positions pour coder 4 nouvelles graphies, de langues rares, qui jusqu'Ă  prĂ©sent devaient ĂȘtre, soit Ă©crites dans des alphabets qui ne sont pas les leurs, soit inaccessibles aux ordinateurs, c'est-Ă -dire mortes.

Unicode, c'est l'arche de Noé pour que les langues de l'humanité ne s'éteignent pas à cause de ce satané ordinateur qui ne sait parler qu'anglais.

Show thread
Follow

@bayartb J'ai un problÚme justement avec la partie « emoji » de l'unicode.

C'est remarquablement bien adaptĂ© pour dĂ©crire le monde des Ă©tatsuniens (đŸ”« Ă©tant le meilleur exemple...), mĂȘme s'il manque des Ă©lĂ©ments Ă©vidents (qu'Apple ne voudrait pas voir, par exemple).

Cette vision positive me redonne espoir !

· Web · 2 · 1 · 0

@vk D'une certaine maniÚre, les émojis font partie des choses qui ont répandu l'usage d'Unicode, en ça, c'est plutÎt positif.

Tout comme la position hyper-privilégiée des étazuniens dans les graphies. Unicode est *fait* pour qu'il n'y ait pas besoin de traduire le code ascii, et pour qu'un fichier ascii soit directement un fichier Unicode en utf8. Parce que de toutes les industries du monde, celle des USA aurait été la plus lourde à bouger.

@vk On peut trouver que c'est naze que ce soient toujours les mĂȘmes qui soient privilĂ©giĂ©s. Mais c'est pour ça que je parle d'un choix intelligent dans l'acceptation des contraintes industrielles : c'est ce choix technique qui fait qu'Unicode a connu un sort meilleur qu'IPv6. Ça ne changeait rien pour les ricains, et ça ne changeait pas trop de choses pour les pays riches.

@bayartb @vk En mĂȘme temps l’unicode essaie aussi de garder au maximum les codepoints existants pour faciliter la conversion, ce qui fait qu’une partie de Latin-1(~Europe) et Shift-JIS(Japonnais) est lissible directement.

@lanodan @bayartb Ces points-code lĂ  ne me posent pas de problĂšme, tant qu'il y a du code pour les remettre dans l'ordre et les afficher correctement.

@vk @bayartb Sauf que Ă  faire ce code est une vĂ©ritable plaie, surtout quand l’encodage source est inconnu (ce qui arrive trĂšs souvent) et qu’il faut maintenir ce code, mettre Ă  jour les paquets, 


@lanodan @bayartb L'encodage, ça n'est pas le mĂȘme problĂšme. La plupart du temps, c'est de l'UTF-8 (et c'est tant mieux utf8everywhere.org/). Ça ne dĂ©finit pas les points-code.

@vk il me semblait qu'une Ă©norme quantitĂ© d'emoji venaient du Japon
 au dĂ©but dans l'Unicode il y avait des symboles et pictos basiques (â˜č â˜ș), et les emojis de Docomo ont Ă©tĂ© inclus par la suite. C'est d'ailleurs pour ça (m'a-t-on dit) que les trains, voitures, vĂ©los pointent vers la gauche, la direction d'Ă©criture du japonais.

@bayartb

@vk Arf mes "pictos basiques" ont Ă©tĂ© convertis en emoji, merci Mastodon 🙄

> In 2009, the first Unicode characters explicitly intended as emoji were added to Unicode 5.2 for interoperability with the ARIB (Association of Radio Industries and Businesses) set. A set of 722 characters was defined as the union of emoji characters used by Japanese mobile phone carriers: 114 of these characters were already in Unicode 5.2.

source : unicode.org/reports/tr51/index

@bayartb

Sign in to participate in the conversation
La Quadrature du Net - Mastodon - Media Fédéré

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!