Частотность букв таджикского языка

Первые исследования по частотности букв в таджикском языке были предприняты в 2001 году[1] и связывались с определениями «наилучшей» раскладки букв на компьютерной клавиатуре и объёма репрезентативной выборки для получения достоверных статистических результатов. Ниже приведены результаты на основе статистической обработки произведений отдельных поэтов и писателей и сформирована общая картина частотности букв в классической и современной таджикской литературе.[2][3]

Статистика

Статистика частотности букв таджикского языка без учёта пробелов:

РангБукваУпотребленийЧастотностьИнформативность
1А19583616,54 %16.54
 
0,4290.429
 
2О1000388,45 %8.45
 
0,3010.301
 
3Р870847,35 %7.35
 
0,2770.277
 
4И869917,35 %7.35
 
0,2770.277
 
5Н810616,84 %6.84
 
0,2650.265
 
6Д801826,77 %6.77
 
0,2630.263
 
7У552824,67 %4.67
 
0,2060.206
 
8Б527174,45 %4.45
 
0,2000.2
 
9М496754,19 %4.19
 
0,1920.192
 
10Т423253,57 %3.57
 
0,1720.172
 
11С323922,74 %2.74
 
0,1420.142
 
12К321052,71 %2.71
 
0,1410.141
 
13Ш308612,61 %2.61
 
0,1370.137
 
14Ҳ301752,55 %2.55
 
0,1350.135
 
15З288352,43 %2.43
 
0,1310.131
 
16Е252842,13 %2.13
 
0,1180.118
 
17Г221901,87 %1.87
 
0,1080.108
 
18В187551,58 %1.58
 
0,0950.095
 
19Х182481,54 %1.54
 
0,0930.093
 
20Л146941,24 %1.24
 
0,0790.079
 
21Ӯ139671,18 %1.18
 
0,0760.076
 
22Ф129761,10 %1.1
 
0,0710.071
 
23П124251,05 %1.05
 
0,0690.069
 
24Ч100000,84 %0.84
 
0,0580.058
 
25Ҷ87480,74 %0.74
 
0,0520.052
 
26Й84470,71 %0.71
 
0,0510.051
 
27Ӣ78740,66 %0.66
 
0,0480.048
 
28Я68700,58 %0.58
 
0,0430.043
 
29Ё64540,54 %0.54
 
0,0410.041
 
30Қ46500,39 %0.39
 
0,0310.031
 
31Ғ27340,23 %0.23
 
0,0200.02
 
32Э15030,13 %0.13
 
0,0120.012
 
33Ъ14880,13 %0.13
 
0,0120.012
 
34Ж8670,07 %0.07
 
0,0080.008
 
35Ю5740,05 %0.05
 
0,0050.005
 
Сумма1184307100,00 %4,358


Статистика частотности букв таджикского языка с учётом пробела:

РангБукваУпотребленийЧастотностьИнформативность
1Пробел26598318,34 %18.34
 
0,4490.449
 
2А19583613,50 %13.5
 
0,3900.39
 
3О1000386,90 %6.9
 
0,2660.266
 
4Р870846,00 %6
 
0,2440.244
 
5И869916,00 %6
 
0,2430.243
 
6Н810615,59 %5.59
 
0,2330.233
 
7Д801825,53 %5.53
 
0,2310.231
 
8У552823,81 %3.81
 
0,1800.18
 
9Б527173,63 %3.63
 
0,1740.174
 
10М496753,43 %3.43
 
0,1670.167
 
11Т423252,92 %2.92
 
0,1490.149
 
12С323922,23 %2.23
 
0,1220.122
 
13К321052,21 %2.21
 
0,1220.122
 
14Ш308612,13 %2.13
 
0,1180.118
 
15Ҳ301752,08 %2.08
 
0,1160.116
 
16З288351,99 %1.99
 
0,1120.112
 
17Е252841,74 %1.74
 
0,1020.102
 
18Г221901,53 %1.53
 
0,0920.092
 
19В187551,29 %1.29
 
0,0810.081
 
20Х182481,26 %1.26
 
0,0790.079
 
21Л146941,01 %1.01
 
0,0670.067
 
22Ӯ139670,96 %0.96
 
0,0650.065
 
23Ф129760,89 %0.89
 
0,0610.061
 
24П124250,86 %0.86
 
0,0590.059
 
25Ч100000,69 %0.69
 
0,0500.05
 
26Ҷ87480,60 %0.6
 
0,0440.044
 
27Й84470,58 %0.58
 
0,0430.043
 
28Ӣ78740,54 %0.54
 
0,0410.041
 
29Я68700,47 %0.47
 
0,0370.037
 
30Ё64540,45 %0.45
 
0,0350.035
 
31Қ46500,32 %0.32
 
0,0270.027
 
32Ғ27340,19 %0.19
 
0,0170.017
 
33Э15030,10 %0.1
 
0,0100.01
 
34Ъ14880,10 %0.1
 
0,0100.01
 
35Ж8670,06 %0.06
 
0,0060.006
 
36Ю5740,04 %0.04
 
0,0040.004
 
Сумма1450290100,00 %4,246

Примечания

  1. Усманов З. Д., Солиев О. М. Проблема раскладки символов на компьютерной клавиатуре — Душанбе: Ирфон, 2010, 104 с.
  2. Усманов З. Д., Косимов А. А. Частотность букв таджикской литературы — Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112—115
  3. Косимов А. А. Басомади такроршавии ҳарфҳои адабиёти тоҷик — Маҷаллаи «Шафақ», Нашрияи Кумиҷроияи Ҳизби Халқии Демократии Тоҷикистон дар шаҳри Хуҷанд, 24.11.2015, № 21, с. 2.