СинТагРус (англ.SynTagRus, сокр. от англ.Syntactically Tagged Russian text corpus, «синтаксически аннотированный корпус русских текстов») — глубоко аннотированныйкорпус текстоврусского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН➤. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов➤.
СинТагРус распространяется по некоммерческой лицензии➤. Кроме того, корпус был также преобразован в различные форматы➤; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.
К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало[2]. Более того, даже существовавшие на тот момент неразмеченные корпусы (например, Уппсальский корпус русского языка) не были общедоступными[3].
По этим причинам с 1998 года[4] началась разработка первого аннотированного корпуса русского языка СинТагРус[2][5], ставшего впоследствии эталоном среди корпусов с синтаксической разметкой[6]. При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего[7][8]. В НКРЯ для СинТагРуса (как подкорпуса) используется также название «глубоко аннотированный корпус»[9].
Разработка СинТагРуса осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН[10].
СинТагРус постоянно развивается и по состоянию на 2023 год насчитывает около 107 тысяч предложений (более 1,5 миллионов словоупотреблений)[12], взятых из текстов следующих жанров[8][13][14]:
новостные ленты (тексты общественно-политического, культурного, экономического и научно-технического характера).
Типы и формат разметки
Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причём количество этих уровней потенциально не ограничено. Языком разметки корпуса является XML, а формат разметки совместим с формализмом TEI[англ.], за исключением некоторых дополнительно введённых элементов и атрибутов[2]. В основном разметка произвольного текста осуществляется в два шага[11]:
Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст».
Проверка и, в случае необходимости, корректирование разметки экспертом-лингвистом.
Далее будут перечислены имеющиеся в корпусе типы разметки.
Разбиение текста на предложения и лексические элементы
Каждый текст в СинТагРусе разбит на предложения. Каждое предложение является элементом с именем S, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер предложения в тексте. Аналогично каждое предложение разбито на лексические элементы с именем W, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер слова в данном предложении[11]. Знаки препинания оформляются в виде текста тега предложения (с сохранением их относительного расположения в исходном тексте) и не выражаются собственными тегами[15].
Морфологическая разметка
Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписывается часть речи и морфологические характеристики, то есть значения соответствующих морфологических категорий. Для соответствующей словоформы лемма является значением атрибута LEMMA, а часть речи и морфологические характеристики совместно являются значением атрибута FEAT[8][16].
Синтаксическая разметка предложений корпуса осуществляется в рамках грамматики зависимостей: синтаксической структурой является ориентированное дерево, узлами которого являются слова, а каждое ребро направлено от слова-хозяина к слову-слуге и соответствует некоторому синтаксическому отношению. Слово, соответствующее корню дерева, называется вершиной предложения и, в отличие от остальных слов предложения, синтаксически не зависит ни от какого другого. Синтаксические группы оформляются в виде поддеревьев исходного дерева: в каждом таком поддереве один из членов группы является её представителем во внешних связях и подчиняет остальные члены группы[18]. Всего в СинТагРусе различается около 70 типов синтаксических отношений[13].
Слово, реализующее первую семантическую валентность существительного, являющегося семантическим актантом слова-хозяина
Первое комплетивное
1-компл
Предикатное слово
Синтаксический актант слова-хозяина, за исключением первого. Так, первое комплетивное отношение относится ко второму актанту, второе — к третьему и т. д.
Наречие или вершина группы с предлогами в или на, указывающая на интенсивность
Распределительное
распред
Вершина именной группы, обозначающая некий параметр (цену, скорость, вес и т. п.)
Существительное в именительном падеже или вершина группы с предлогами в, на, за, указывающая на единицу измерения
Аддитивное
аддит
Числительное или вершина количественной группы
Числительное или вершина количественной группы
Обстоятельственные
Обстоятельственное
обст
Глагол или слово другой части речи, являющееся вершиной предложения
Обстоятельство
Длительное
длительн
Глагол
Обстоятельство длительности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности
Кратно-длительное
кратно-длительн
Глагол
Обстоятельство многократной длительности, выражаемое существительным в творительном падеже множественного числа
Дистанционное
дистанц
Глагол
Обстоятельство пространственной протяженности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности
Обстоятельственно-тавтологическое
обст-тавт
Глагол
Существительное в творительном падеже, дублирующее часть значения слова-хозяина
Субъектно-обстоятельственное
суб-обст
Глагол
Обстоятельство в творительном падеже, характеризующее одновременно субъект действия
Объектно-обстоятельственное
об-обст
Глагол
Обстоятельство в творительном падеже, характеризующее одновременно объект действия
Субъектно-копредикативное
суб-копр
Глагол
Вершина именной группы в именительном или творительном падеже, либо вершина предложной группы, выступающая в функции, близкой к функции именной части составного сказуемого, но по смыслу характеризующая подлежащее и (в случае именной группы) согласующаяся с ним по роду и числу
Объектно-копредикативное
об-копр
Глагол
Вершина именной группы в творительном или винительном падеже или вершина предложной группы, характеризующая дополнение. Если слово-слуга выражено именной группой, то оно согласуется с дополнением по роду и числу
Вершина придаточного предложения, включающего союзное слово что, отчего или почему
Разъяснительное
разъяснит
Произвольное слово
Слово, которое имеет зависимые и вместе с ними сообщает дополнительную информацию о слове-хозяине или группе слов, представленных словом-хозяином. Необходимо присутствие формального «маркера разъяснения», которым может быть знак препинания или выражение, вводящее дополнительную информацию
Примыкательное
примыкат
Слово, являющееся «хозяином» выражения, вершиной которого является слово-слуга
Вершина выражения, зависящего от слова-хозяина, расположенного справа от слова-хозяина и заключенного в скобки или ограниченного с обеих сторон тире
Уточнительное
уточн
Представитель (вершина) некоторого выражения
Представитель некоторого выражения. Это выражение семантически уточняет выражение, представителем которого являтся слово-хозяин, однако оба этих выражения имеют одинаковую синтаксическую функцию.
Зависимый член кратной конструкции. Оформлен либо так же, как и главный член, и отделен от него дефисом, тире, двоеточием или наклонной чертой, либо вводится предлогом «на» или «к»
Подчинительный союз или вершина предложения. Слово-хозяин «расшифровывается» словом-слугой
Пролептическое
пролепт
Семантически неполнозначное слово, занимающее полноценную позицию в предложении
Слово, вынесенное вовне
Вспомогательное
вспом
Части образующих синтаксическое и смысловое единство словосочетаний
Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова предложения: DOM, значением которого является ID слова-хозяина, и LINK, значением которого является имя соответствующего синтаксического отношения[16]. Вершина предложения имеет специальное значение _root атрибута DOM[19].
Лексико-семантическая разметка
Каждой словоформе, помимо леммы, приписывается атрибут KSNAME, значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счёт этого, с одной стороны, уточняется значение многозначных и омонимичных слов, а с другой стороны, устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов[10].
Лексико-функциональная разметка
В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций. Для разметки таких словосочетаний внутри предложения создаются дополнительные элементы отдельно от самих словоформ[13].
Микросинтаксическая разметка
Под микросинтаксическими единицами в СинТагРусе понимаются фразеологизмы с синтаксической спецификой[20]. В качестве примера можно привести составной предлогв силу. С одной стороны, он синтаксически близок к первообразным предлогам. Действительно, между элементами этого предлога нельзя вставить местоименное определение к существительному, как в других предложных конструкциях типа в виде, в случае и др. Кроме того, если этому предлогу в предложении подчиняется личное местоимение третьего лица, то к такому местоимению в большинстве случаев добавляется начальное н-, как и в случае первообразных предлогов. С другой стороны, первая часть некоторых парных союзов, а также частицали или же, может располагаться между предлогом в силу и зависящим от него существительным, что не дает возможности отнести этот предлог к первообразным[21].
Если в некотором предложении корпуса встречается микросинтаксическая единица, то добавляется новый атрибут предложения — MICROSYNT, значением которого являются имя соответствующей микросинтаксической единицы и её линейные границы[20].
Анафорическая разметка
Для встреченного в тексте анафорическогоместоимения указывается его антецедент[англ.], то есть выражение, к которому это местоимение отсылает. У предложения, в котором найдено анафорическое местоимение, имеется дополнительный атрибут COREF, значением которого является список пар местоимение — антецедент, соответствующий данному местоимению. Для каждого анафорического местоимения указывается его линейное положение в предложении, а для антецедента, помимо этого, дополнительно указывается, в каком предложении относительно рассматриваемого он находится (в пределах трёх предложений в обе стороны)[4].
Обработка эллиптических конструкций
В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM[2][22].
Использование корпуса
СинТагРус используется в различных областях. С одной стороны, на его основе проводятся чисто лингвистические исследования, как теоретические, так и практические (в частности, в области лексикографии). С другой стороны, корпус находит своё применение в задачах компьютерной лингвистики и обработки естественного языка как источник лингвистических данных, например, при создании синтаксических анализаторов. Эти задачи могут решаться с применением различных форматов разметки. В то же время объединение нескольких корпусов с разной разметкой в один делает последний более представительным. Эти обстоятельства приводят к задаче конвертации корпуса[4].
Предпринимались неоднократные попытки перевода СинТагРуса в другие форматы разметки: известны эксперименты по переводу корпуса в форматы HPSG[англ.] и PDT[13]. Кроме того, СинТагРус был успешно переведён в форматы CoNLL-U[англ.][22], PTB[23] и SD[24]. Однако преобразование, во-первых, во всех случаях касалось только морфологической и синтаксической разметок, а во-вторых, осуществлялось в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат CoNLL-U[англ.] (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией[22].
Доступ
СинТагРус бесплатно распространяется по некоммерческой лицензии[25]. Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе[13], так же как и версии в форматах CoNLL-U[англ.] (лицензия CC BY-NC-SA 4.0)[22] и PTB (доступен только конвертер)[23].
↑ 123Иншакова Е. С., Иомдин Л. Л., Митюшин Л. Г., Сизов В. Г., Фролова Т. И., Цинман Л. Л.СинТагРус сегодня (рус.) // Труды Института русского языка им. В. В. Виноградова. — М.: «Нестор-История», 2019. — Вып. 21. — С. 14—40. Архивировано 26 марта 2020 года.
↑Захаров В. П., Богданова С. Ю. Корпусная лингвистика (рус.). — 3-е изд., перераб. — СПб.: Издательство Санкт-Петербургского университета, 2020. — С. 47. — 234 с. — ISBN 978-5-288-05997-1.
↑ 123Богуславский И. М., Григорьев Н. В., Иомдин Л. Л., Крейдлин Л. Г., Фрид Н. Е., Чардин И. С.Разработка синтаксически размеченного корпуса русского языка (рус.) // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных». — СПб.: СПбГУ, 2002. — С. 40—50. Архивировано 31 июля 2019 года.
↑ 12Igor Boguslavsky, Ivan Chardin, Svetlana Grigorjeva, Nikolai Grigoriev, Leonid Iomdin, Lеonid Kreydlin, Nadezhda Frid.Development of a dependency treebank for Russian and its possible applications in NLP (англ.) // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III. — P. 852—856. Архивировано 10 августа 2017 года.
↑Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Санников В. З., Цинман Л. Л. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. — С. 32—40, 56—73. — 256 с.