Опыт изучения современного монгольского языка в количественном аспекте.


2013. №5, 46-57

Сергей Александрович Крылов
Институт востоковедения РАН; krylov-58@mail.ru

Аннотация:

Создан Генеральный корпус современного монгольского языка (ГКМЯ), содержащий 966 текстов общей длиной 1 155 583 слов. Разработан морфологический анализатор, грамматический словарь на 63 071 лексем, таблица морфологических омонимов. Процессор анализирует 95 % текстовых словоформ, соответствующих 76 % словоформам словника конкорданса к ГКМЯ.

Современный монгольский язык (СМЯ) описывается в квантитативном аспекте, в соответствии с структурно-вероятностной моделью (СВМ), содержащей частотные словари (ЧС) разных типов: словоформ, лексем, грамматем, корневых и аффиксальных морфем и алломорфем, флексионем, граммем.

СВМ количественно описывает поведение языковых единиц (ЯЕ) в письменных текстах: частоту употребления, дистрибуции и сочетаемости с другими ЯЕ. Возникает перспектива превращения обычной структурной модели СМЯ в его СВМ, основанную на статистическом анализе текстов (в СВМ ЯЕ описываются как обладающие своим «весом», языковые противопоставления и связи оказываются измеримыми).

Приведены «верхушки» некоторых ЧС: ЧС словоформ («верхние» 32 словоформы, превышающие 2091 ipm), ЧС лексем («верхние» 32 лексемы, превышающие 2627 ipm) и ЧС грамматем («верхние» 32 грамматемы, превышающие 3920 ipm).