Предсказания, большие данные и новые измерители: о возможностях технологий компьютерной лингвистики в теоретических лингвистических исследованиях
Анастасия Александровна Бонч-Осмоловская
Национальный исследовательский университет «Высшая школа экономики», Москва, 101000, Россия; abonch@gmail.com
Аннотация:
Статья посвящена обзору работ последних лет, в которых теоретическая исследовательская задача решается с помощью методов или инструментов, используемых в компьютерной лингвистике. В обзоре проводится подробный анализ того, как именно с помощью применения того или иного инструмента или метода можно получить новые знания о природе языка. В частности, выделяются два основных направления, развитие которых в рамках теоретических исследований представляется чрезвычайно перспективным. Это, с одной стороны, применение алгоритмов машинного обучения как предсказательной модели для описания многофакторных языковых явлений, с другой стороны, использование возможностей, открывающихся для типологических исследований и межъязыковых сравнений благодаря созданию множества «глубоко аннотированных» корпусов для разных языков, т. е. корпусов со сложной разметкой, например, синтаксической или референциальной. Уже сейчас объем имеющихся различных данных позволяет делать определенные выводы о свойствах тех или иных универсалий, которые были описаны раньше в теоретических типологических работах.