Une disposition de clavier commune devrait se caractériser par un agencement des lettres qui convienne à toutes les langues. C’est-à-dire que les touches devraient être disposées de telle sorte que les lettres les plus courantes seraient facilement accessibles, afin de réduire l’effort de frappe.
Commençons donc par identifier les caractères les plus fréquents dans les différentes langues. Pour cela, nous analysons des textes trouvés sur Internet :
Le projet Gutemberg rassemble des textes littéraires qui sont accessibles en texte brut. Cela permet de les analyser automatiquement. Tout n’est cependant pas parfait. En effet, on ne trouve pas de textes dans toutes les langues, et la qualité des documents est parfois médiocre : certains textes sont dépourvus de diacritiques ; ils n’ont pas été retenus. De plus, chaque document contient un texte de licence en anglais, qu’il faut retirer pour éviter de fausse les statistiques.
La Déclaration universelle des droits de l’Homme est intéressante car c’est l’un des textes le plus traduit au monde. Cela permet de comparer les langues sur un texte de référence.
Pour l’alphabet latin, nous considérons les langues suivantes : albanais, anglais, allemand, basque, bosniaque, catalan, danois, espagnol, espéranto, estonien, finnois, français, croate, hongrois, islandais, italien, letton, lituanien, néerlandais, norvégien (en mélangeant les écritures bokmål et nynorsk), polonais, portugais, roumain, slovaque, slovène, suédois, tchèque, turc.
Pour l’alphabet cyrillique, nous considérons les langues suivantes : biélorusse, bulgare, macédonien, russe, serbe, ukrainien.
Le grec est la seule langue d’alphabet grec considérée.
Nous analysons ces textes afin d’identifier les caractères les plus fréquents pour chaque langue. En prenant d’autres textes, les résultats pourraient évidemment être différents, mais nous supposons que les documents utilisés sont suffisamment « normaux » pour que l’analyse soit pertinente.
Pour chaque langue, nous répartissons les caractères en trois groupes. Le groupe 1 correspond aux huit caractères les plus fréquents. Ce sont les caractères qu’il faudrait avoir sous les doigts dans la position de repos. Le groupe 2 rassemble les quatre caractères les plus fréquents suivants. Ce sont les caractères qui sont aussi facilement accessibles que ceux du groupe 1. Le groupe 3 est constitué des caractères spécifiques à la langue considérée. Les caractères qui sont communs aux différentes langues sans être très fréquents ne sont pas comptabilisés.
langue | groupe 1 | groupe 2 | groupe 3 |
---|---|---|---|
albanais | e t ë i a r s o | n h m l | ë ç |
anglais | e t a o i n h s | r d l u | |
allemand | e n i r s d t a | h u l g | ä ß ü ö |
bosniaque | a e i o n r j s | t l m k | č š ž ć đ |
catalan | a e s r l i n t | o u d m | é à ó í ò è ç ú ï ü á ć ô ñ |
danois | e n d a r t s i | o l g m | æ ø å é ć ö á |
espagnol | e a o s n r i l | d t u c | ó í é á ñ ú |
espéranto | a i e o n l s r | t k u d | ĝ ĉ ŝ ŭ ĵ ĥ |
estonien | a e i s t u l n | m k d o | ä õ ü ö č ć ž |
finnois | a i n t e s ä l | k o u m | ä ö ñ ü ê |
français | e s a t n r i l | u o d m | é è à ê ô ç â î û ù ï œ á ë ö ü |
croate | a e i o n j r s | t m l k | č š ž ć đ ö lj |
hongrois | e a n t l s m k | i z g o | é á ö ó ő ü í ú ű è à ä ć |
islandais | r a i n e l t s | u m ð g | ð á þ í ú ö ó æ ý é |
italien | e i a o l r n t | s d c p | à è ò ù ì é î ö á ô ç ó |
letton | a s i e t r m u | n o ā k | ē ī š ļ ū ņ ķ ž ģ č |
lituanien | i a s o e n r u | t m l k | ė š ų ž ū į ą č ę |
néerlandais | e n a t r d i o | s l g v | ë ï é ó ô ć á ö |
norvégien | e a t n r d i s | g l o k | ø æ å é ò ó ã à ç ć ö è â |
polonais | a e i o n z r s | t w y c | ł ę ą ż ś ó ń ź é č á ċ |
portugais | a e o s r i t d | n m c u | ã é ç á í ó ê õ â ô à ú è º ª ü ò ö |
roumain | a i e r n t u s | c l o d | ă ț â ș î ö ĕ č ć |
slovaque | o e a n i r t s | v m k l | á é ý ž č í ú š ľ ť ô ó ň ä ď ĺ |
slovène | a e o i n r s t | l d j k | č š ž ó é à á í ô è ú ê ü |
suédois | e a n t r s i l | d o m g | å ä ö é è ü à æ |
tchèque | e o a n l s t i | v m d k | í á ě ž ř č š é ý ů ť ú ň ď ó ū ć |
turc | a e n i r l k ı | d u y t | ı ü ş ğ ç ö i̇ â ā |
global | e a n i r t s o | l d u m |
langue | groupe 1 | groupe 2 | groupe 3 |
---|---|---|---|
biélorusse | а н і ы я р л е | с м т к | а н і ы я р л е с м т к о д з п ц в у г ў ч х э ь б й ш ю ф ж ё |
bulgare | а о и е т н с р | в л д к | м п з я ъ г ч у б ж й ц х щ ф ш m k ю |
macédonien | а о е и т н р с | в к л д | а о е и т н р с в к л д м п ј у з г ч б ш ц ф ж њ х ѓ ќ ϕ ѕ џ è ѝ |
russe | о е и а н т с р | в л м к | д п у я ы з ь г б й х ч ъ ж ю ш ц щ ѣ і ф э ё |
serbe | а е о и н с р т | у м д в | к ј л п з г ш б ч љ њ ц х ж ф џ ϕ |
ukrainien | о н а і е р т и | в с л м | д к п з у я г ь х б ч ю й є ф ж ш ї ц щ ґ |
global | о е а и н т с р | в л м д |
langue | groupe 1 | groupe 2 | groupe 3 |
---|---|---|---|
grec | α τ ο ν ε ι ρ ς | π κ σ υ | ά ί ό έ ή ύ ώ ϊ ϋ ΐ |
Une chose remarquable apparaît : les caractères les plus fréquents sont à peu près les mêmes dans toutes les langues y compris d’un alphabet à un autre. En effet, certaines lettres de chaque alphabet ont une lettre équivalente dans les autres alphabets. Si l’on compare les lettres les plus fréquentes dans les langues à alphabet latin aux lettres équivalents dans les autres alphabets, nous voyons que ces lettres équivalentes sont pour une grande partie elles-mêmes très fréquentes.
alphabet | groupe 1 | groupe 2 latin | groupe 2 cyrillique | groupe 2 grec | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
latin | e | a | n | i | r | t | s | o | l | d | u | m | v | l | m | d | p | k | s | u |
cyrillique | е | а | н | и | р | т | с | о | л | д | у | м | в | л | м | д | п | к | с | у |
grec | ε | α | ν | ι | ρ | τ | ς/σ | ο | λ | δ | υ | μ | β | λ | μ | δ | π | κ | σ | υ |
De façon générale, on constate qu'une grande partie des caractères les plus fréquents sont les mêmes d’une langue à une autre.