- Частотность
-
Частотность — термин лексикостатистики, предназначенный для определения наиболее употребительных слов. Расчёт осуществляется по формуле:
где Freqx — частотность слова «x», Qx — количество словоупотреблений слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометами — употребительное, малоупотребительное и т. д.
Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) получила название аллитерации. Высокие показатели частотности гласных называются ассонансом. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.
Не следует путать термины частотность и частота.
Частотность букв русского алфавита
Статистика частотности букв русского алфавита (на материале НКРЯ):[1]
ранг буква употреблений 1 о 52295949 2 е 40392978 3 а 38081816 4 и 35075552 5 н 31900994 6 т 30084462 7 с 26058590 8 р 22595850 9 в 21582499 10 л 20678280 11 к 16599539 12 м 15252377 13 д 14173134 14 п 13349597 15 у 12452612 16 я 9528713 17 ы 9036813 18 ь 8263123 19 г 8031521 20 з 7811723 21 б 7579289 22 ч 6904749 23 й 5753983 24 х 4597146 25 ж 4476464 26 ш 3420179 27 ю 3044673 28 ц 2314208 29 щ 1719607 30 э 1573696 31 ф 1268926 32 ъ 175908 33 ё 63623 Обратите внимание на то, что частоты букв «е» и «ё» являются недостоверными, из-за факультативного написания буквы «ё» в текстах.
См. также
- Частотный словарь
- Списки частотных слов русского языка
- Анализ текста
- Математическая лингвистика
- Статистика запросов
Примечания
- ↑ О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики
Ссылки
Категория:- Корпусная лингвистика
Wikimedia Foundation. 2010.