TurkLang  
Түркі тілдерін компьютерлік өңдеуге арналған халықаралық конференция
"TurkLang"

Резолюция

Резолюция научно-практического семинара “Унификация систем грамматической разметки в корпусах тюркских языков (семинар UniTurk)”

Создание электронных лингвистических корпусов выдвигает перед разработчиками широкий спектр проблем и задач, успешное решение которых требует соединения результатов лингвистических исследований и современных компьютерных методов анализа языковых данных. Возможности корпуса во многом определяет система аннотации (разметки).
В условиях глобализации и интеграции научных исследований особую значимость приобретают вопросы унификации в корпусах представления лингвистической информации, в частности, систем обозначения грамматических категорий; особенно это важно для групп родственных языков. Анализ сложившейся ситуации показывает, что в тюркской корпусной лингвистике, несмотря на генетическую и структурно-типологическую общность тюркских языков, пока не сформировалось общих принципов и подходов к лингвистической разметке текстов. В перспективе это приведет к значительным трудностям при проведении сравнительно-сопоставительных исследований, а также при разработке тюркских параллельных корпусов, многоязычных систем обработки текстов и решении других теоретических и прикладных задач.
Несмотря на то, что большая часть специалистов убеждена в необходимости пользоваться при письменной фиксации текстов системой тэгов, единого унифицированного формата представления лингвистической информации в корпусах не существует. Различия касаются как инвентаря грамматических категорий и метаязыка их описания, так и состава необходимых слоёв репрезентации. Одни и те же морфологические категории в разных исследованиях по тюркским языкам обозначаются по-разному. Разработчики корпусов используют системы обозначений, созданные для других, в первую очередь, индоевропейских языков, которые не всегда адекватно отражают специфические особенности тюркских языков, поэтому разработка системы разметки именно для этой группы языков является на сегодняшний день весьма актуальной.
Отсутствие единообразия при аннотировании корпусов связано как с объективными научно-содержательными проблемами (сложность системы естественного языка, неизоморфность грамматической структуры различных языков, различия в степени прозрачности морфонологических процессов и т. п.), так и с организационными (отсутствие единого координирующего центра или стандартов по разработке грамматической и семантической аннотации для корпусов и лингвистических баз данных и др.).
Участники научно-практического семинара “Унификация систем грамматической разметки в корпусах тюркских языков (семинар UniTurk)” констатируют, что одной из важнейших задач тюркского языкознания является выработка такого стандарта представления лингвистической информации, который бы позволил организовать существующие и создающиеся корпуса тюркских языков в единое информационное пространство для широкого круга пользователей — специалистов-тюркологов, типологов и неспециалистов.

Предлагается:

  1. поддержать работу инициативной группы по созданию варианта таблицы обозначений грамматических категорий для тюркских языков и принять ее за основу при разработке унифицированной системы грамматической разметки для корпусов;
  2. создать рабочую группу по выработке общих рекомендаций по представлению лингвистической информации в корпусах тюркских языков и стандартов корпусной грамматической разметки, определить координатором этой группы НИИ «Прикладная семиотика» АН РТ (отв. лицо Айрат Гатиатуллин, email:ayrat.gatiatullin@gmail.ru);
  3. разработать стандарты представления грамматической информации в корпусах;
  4. отображать ход и результаты обсуждения вопросов унификации систем грамматической разметки в корпусах тюркских языков на web-сайте (http://turklang.tatar/);
  5. проводить семинар UniTurk на регулярной основе (в том числе с применением средств видеосвязи);
  6. подготовить Казанское соглашение о сотрудничестве в области унификации тюркских языков.