L'américain ascii et les chinois qui marchent:
Je vous épargne l'histoire de l'ascii, créé par des américains, tout ce qu'il faut retenir c'est que :
Voici la table ascii :
$ python -c "print ''.join([chr(i) for i in xrange(0xff)])" | hexdump -C
00000000 00 01 02 03 04 05 06 07 08 09 0a 0b 0c 0d 0e 0f |................|
00000010 10 11 12 13 14 15 16 17 18 19 1a 1b 1c 1d 1e 1f |................|
00000020 20 21 22 23 24 25 26 27 28 29 2a 2b 2c 2d 2e 2f | !"#$%&'()*+,-./|
00000030 30 31 32 33 34 35 36 37 38 39 3a 3b 3c 3d 3e 3f |0123456789:;<=>?|
00000040 40 41 42 43 44 45 46 47 48 49 4a 4b 4c 4d 4e 4f |@ABCDEFGHIJKLMNO|
00000050 50 51 52 53 54 55 56 57 58 59 5a 5b 5c 5d 5e 5f |PQRSTUVWXYZ[\]^_|
00000060 60 61 62 63 64 65 66 67 68 69 6a 6b 6c 6d 6e 6f |`abcdefghijklmno|
00000070 70 71 72 73 74 75 76 77 78 79 7a 7b 7c 7d 7e 7f |pqrstuvwxyz{|}~.|
00000080 80 81 82 83 84 85 86 87 88 89 8a 8b 8c 8d 8e 8f |................|
00000090 90 91 92 93 94 95 96 97 98 99 9a 9b 9c 9d 9e 9f |................|
000000a0 a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 aa ab ac ad ae af |................|
000000b0 b0 b1 b2 b3 b4 b5 b6 b7 b8 b9 ba bb bc bd be bf |................|
000000c0 c0 c1 c2 c3 c4 c5 c6 c7 c8 c9 ca cb cc cd ce cf |................|
000000d0 d0 d1 d2 d3 d4 d5 d6 d7 d8 d9 da db dc dd de df |................|
000000e0 e0 e1 e2 e3 e4 e5 e6 e7 e8 e9 ea eb ec ed ee ef |................|
000000f0 f0 f1 f2 f3 f4 f5 f6 f7 f8 f9 fa fb fc fd fe 0a |................|
00000100
Comme vous pouvez le voir, les caractères affichables sont les 26 lettres latines, un peu de ponctuation et beaucoup de caractères non affichables, mais chacun avec un rôle particulier (par exemple 0x0a = 10
, nouvelle ligne)
Comme on pouvait s'y attendre, les chinois ont eu envie d'avoir leurs caractères à eux (comme les japonais, les coréens, les indiens, et tous les autres) (les inuits les ont eu, il y a même une section pour les hiéroglyphes, une pour les cartes à jouer, bref, c'est la fête), et on a inventé Unicode.
Sans rentrer dans des détails superfétatoires, on a eu besoin de beaucoup de caractères possibles, et on l'a fait.
Des gens ont créé une table immense avec plein de zones différentes pour tous les caractères du monde \o/
.
Cette table, c'est presque le gros bordel :
-
On y trouve des gens dans des positions bonnes ou mauvaises, c'est plutôt des rencontres : 𓁏
-
On y trouve des cent vingt-huitièmes de note : 𝅘𝅥𝅲
-
On y trouve ça : ᑃ U+1443 CANADIAN SYLLABICS WEST-CREE PWOO
-
On y trouve une pieuvre : 🐙
-
On y trouve des pièces du mahjong, ici, "hongzong, dragon rouge" 🀄
Bref
On trouve de tout dans unicode, mais tout ce qui compte c'est que l'on petu avoir deux octets d'information dans un caractère, soit 0x10000 (65535) possibilités.
Donc beaucoup plus que les 255 (ou 127, il y a une nuance, mais franchement on s'en fout), de l'ascii.
Un octet l'ascii, de deux octets l'utf-16 (la partie d'unicode qui contient 16 bits) mmh. Il doit y avoir un truc à faire, non ?
En effet, et on peut le voir vite fait avec la fonction unichr
de python2.7 :
On récupère les codes ascii d'une chaîne de caractères, au hasard, le premier truc près de mon clavier.
$ echo "nutella" | hexdump -C
00000000 6e 75 74 65 6c 6c 61 0a |nutella.|
00000008
On affiche les caractères UTF-16 correspondant aux lettres rassemblées deux par deux
$ python -c "print unichr(0x6e75) + unichr(0x7465) + unichr(0x6c6c) + unichr(0x610a)"
湵瑥汬愊
On affiche les codes récupérés des caractères unicodes :
$ python -c "print ' '.join([hex(ord(i)) for i in [unichr(0x6e75) , unichr(0x7465) , unichr(0x6c6c) , unichr(0x610a)] ])"
0x6e75 0x7465 0x6c6c 0x610a
On peut voir qu'en partant de 6e 75
on a bien retrouvé 6e75
, je vous passe les détails du script complet hein.
Twitter 🐦
Sur twitter, on n'a le droit qu'à 140 caractères.
Les chinois sont sur twitter aussi et ils font des twitts avec 140 mots complets là où nous n'en avons qu'une trentaine.
Nous allons donc leur emprunter leurs jeux de caractères pour avoir 280 mots complets.
(Si vous voulez plus de mots, remplacez les longs mots par leur kanji correspondant en chinois, avec un bon coup d'œuil, des gens pourront peut-être vous lire. Par exemple, remplacez 'complexité' par 繁. Cette méthode reste à discuter.)
C'est sur le web 🌍
Je l'ai refait en javascript, avec un coup de eval("'\u'+'45'+'50'")
dans un sens et dans l'autre, je vous ai mis le bouton pour twitter ici : u.brony.fr
Et pour le jour où mon site est down :
1
2
3
4
5
6
7
8
9
10
11
12
13
14 | #!/usr/bin/python2.7
# -*- coding: utf-8 -*-
import sys
if sys.argv[1] == "file":
# ./script.py file rawfile.dat
with open(sys.argv[2],'r') as ofi:
data = ofi.read()+chr(0x00)
ofi.close()
else:
# ./script.py coucou we make data porn
data = ' '.join(sys.argv[1:])+chr(0x00)
print ''.join([unichr(0x100*ord(data[i])+ord(data[i+1])) for i in xrange(0,len(data)-1,2)])
|
Voila !