Share to: share facebook share twitter share wa share telegram print page

СинТагРус

СинТагРус
Объем корпуса более 1,5 миллионов слов
Язык русский
Основные типы разметки морфологическая, синтаксическая, лексико-семантическая
Составители Лаборатория компьютерной лингвистики ИППИ РАН
Дата создания 1998 год
Доступ бесплатный
Лицензия проприетарная
Сайт proling.iitp.ru/ru/proje…

СинТагРус (англ. SynTagRus, сокр. от англ. Syntactically Tagged Russian text corpus, «синтаксически аннотированный корпус русских текстов») — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов.

СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП. Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией. Языком разметки является XML.

СинТагРус распространяется по некоммерческой лицензии. Кроме того, корпус был также преобразован в различные форматы; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.

История

Результатом появления в начале 1990-х годов корпусов с синтаксической разметкой стало развитие эмпирических методов в задачах обработки естественного языка. Причём использование таких корпусов нашло своё применение не только в контексте собственно синтаксического анализа, но и в ряде других задач, среди которых разрешение лексической многозначности, семантический анализ и др.[1]

К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало[2]. Более того, даже существовавшие на тот момент неразмеченные корпусы (например, Уппсальский корпус русского языка) не были общедоступными[3].

По этим причинам с 1998 года[4] началась разработка первого аннотированного корпуса русского языка СинТагРус[2][5], ставшего впоследствии эталоном среди корпусов с синтаксической разметкой[6]. При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего[7][8]. В НКРЯ для СинТагРуса (как подкорпуса) используется также название «глубоко аннотированный корпус»[9].

Разработка СинТагРуса осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН[10].

Состав корпуса

Исходным материалом для СинТагРуса послужил Уппсальский корпус русского языка: было взято около 10 000 предложений из текстов художественных произведений. Впоследствии в корпус были добавлены короткие (до 30 предложений) тексты, взятые с сайтов популярных новостных изданий (yandex.ru, rbc.ru, polit.ru, lenta.ru, strana.ru, news.ru)[2][11].

СинТагРус постоянно развивается и по состоянию на 2023 год насчитывает около 107 тысяч предложений (более 1,5 миллионов словоупотреблений)[12], взятых из текстов следующих жанров[8][13][14]:

Типы и формат разметки

Разметка в СинТагРусе на примере предложения «Сначала его поили чаем, непременно в присутствии пациентки.»

Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причём количество этих уровней потенциально не ограничено. Языком разметки корпуса является XML, а формат разметки совместим с формализмом TEI[англ.], за исключением некоторых дополнительно введённых элементов и атрибутов[2]. В основном разметка произвольного текста осуществляется в два шага[11]:

  1. Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст».
  2. Проверка и, в случае необходимости, корректирование разметки экспертом-лингвистом.

Далее будут перечислены имеющиеся в корпусе типы разметки.

Разбиение текста на предложения и лексические элементы

Каждый текст в СинТагРусе разбит на предложения. Каждое предложение является элементом с именем S, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер предложения в тексте. Аналогично каждое предложение разбито на лексические элементы с именем W, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер слова в данном предложении[11]. Знаки препинания оформляются в виде текста тега предложения (с сохранением их относительного расположения в исходном тексте) и не выражаются собственными тегами[15].

Морфологическая разметка

Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписывается часть речи и морфологические характеристики, то есть значения соответствующих морфологических категорий. Для соответствующей словоформы лемма является значением атрибута LEMMA, а часть речи и морфологические характеристики совместно являются значением атрибута FEAT[8][16].

Синтаксическая разметка

Графическое представление разметки в СинТагРусе на примере предложения «Сначала его поили чаем, непременно в присутствии пациентки.», созданное с помощью средств лингвистического процессора ЭТАП и иллюстрирующее древовидную структуру синтаксической разметки

Синтаксическая разметка предложений корпуса осуществляется в рамках грамматики зависимостей: синтаксической структурой является ориентированное дерево, узлами которого являются слова, а каждое ребро направлено от слова-хозяина к слову-слуге и соответствует некоторому синтаксическому отношению. Слово, соответствующее корню дерева, называется вершиной предложения и, в отличие от остальных слов предложения, синтаксически не зависит ни от какого другого. Синтаксические группы оформляются в виде поддеревьев исходного дерева: в каждом таком поддереве один из членов группы является её представителем во внешних связях и подчиняет остальные члены группы[18]. Всего в СинТагРусе различается около 70 типов синтаксических отношений[13].

Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова предложения: DOM, значением которого является ID слова-хозяина, и LINK, значением которого является имя соответствующего синтаксического отношения[16]. Вершина предложения имеет специальное значение _root атрибута DOM[19].

Лексико-семантическая разметка

Каждой словоформе, помимо леммы, приписывается атрибут KSNAME, значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счёт этого, с одной стороны, уточняется значение многозначных и омонимичных слов, а с другой стороны, устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов[10].

Лексико-функциональная разметка

В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций. Для разметки таких словосочетаний внутри предложения создаются дополнительные элементы отдельно от самих словоформ[13].

Микросинтаксическая разметка

Под микросинтаксическими единицами в СинТагРусе понимаются фразеологизмы с синтаксической спецификой[20]. В качестве примера можно привести составной предлог в силу. С одной стороны, он синтаксически близок к первообразным предлогам. Действительно, между элементами этого предлога нельзя вставить местоименное определение к существительному, как в других предложных конструкциях типа в виде, в случае и др. Кроме того, если этому предлогу в предложении подчиняется личное местоимение третьего лица, то к такому местоимению в большинстве случаев добавляется начальное н-, как и в случае первообразных предлогов. С другой стороны, первая часть некоторых парных союзов, а также частица ли или же, может располагаться между предлогом в силу и зависящим от него существительным, что не дает возможности отнести этот предлог к первообразным[21].

Если в некотором предложении корпуса встречается микросинтаксическая единица, то добавляется новый атрибут предложения — MICROSYNT, значением которого являются имя соответствующей микросинтаксической единицы и её линейные границы[20].

Анафорическая разметка

Для встреченного в тексте анафорического местоимения указывается его антецедент[англ.], то есть выражение, к которому это местоимение отсылает. У предложения, в котором найдено анафорическое местоимение, имеется дополнительный атрибут COREF, значением которого является список пар местоимение — антецедент, соответствующий данному местоимению. Для каждого анафорического местоимения указывается его линейное положение в предложении, а для антецедента, помимо этого, дополнительно указывается, в каком предложении относительно рассматриваемого он находится (в пределах трёх предложений в обе стороны)[4].

Обработка эллиптических конструкций

В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM[2][22].

Использование корпуса

СинТагРус используется в различных областях. С одной стороны, на его основе проводятся чисто лингвистические исследования, как теоретические, так и практические (в частности, в области лексикографии). С другой стороны, корпус находит своё применение в задачах компьютерной лингвистики и обработки естественного языка как источник лингвистических данных, например, при создании синтаксических анализаторов. Эти задачи могут решаться с применением различных форматов разметки. В то же время объединение нескольких корпусов с разной разметкой в один делает последний более представительным. Эти обстоятельства приводят к задаче конвертации корпуса[4].

Предпринимались неоднократные попытки перевода СинТагРуса в другие форматы разметки: известны эксперименты по переводу корпуса в форматы HPSG[англ.] и PDT[13]. Кроме того, СинТагРус был успешно переведён в форматы CoNLL-U[англ.][22], PTB[23] и SD[24]. Однако преобразование, во-первых, во всех случаях касалось только морфологической и синтаксической разметок, а во-вторых, осуществлялось в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат CoNLL-U[англ.] (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией[22].

Доступ

СинТагРус бесплатно распространяется по некоммерческой лицензии[25]. Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе[13], так же как и версии в форматах CoNLL-U[англ.] (лицензия CC BY-NC-SA 4.0)[22] и PTB (доступен только конвертер)[23].

Примечания

  1. Eric Brill, Raymond J. Mooney. An Overview of Empirical Natural Language Processing (англ.) // AI Magazine. — AAAI, 1997. — Vol. 18, no. 4. — P. 13—24.
  2. 1 2 3 4 5 Богуславский И. М., Григорьев Н. В., Григорьева С. А., Крейдлин Л. Г., Фрид Н. Е. Аннотированный корпус русских текстов: концепция, инструменты разметки, типы информации // Труды Международного семинара по компьютерной лингвистике и её приложениям «Диалог-2000». — Протвино, 2000. Архивировано 31 июля 2019 года.
  3. Резникова Т. И., Копотев М. В. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 31—61. Архивировано 31 июля 2019 года.
  4. 1 2 3 Иншакова Е. С., Иомдин Л. Л., Митюшин Л. Г., Сизов В. Г., Фролова Т. И., Цинман Л. Л. СинТагРус сегодня // Труды Института русского языка им. В. В. Виноградова. — М.: «Нестор-История», 2019. — Вып. 21. — С. 14—40. Архивировано 26 марта 2020 года.
  5. Москвина А. Д., Орлова Д., Паничева П. В., Митрофанова О. А. Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK // Труды объединённой научной конференции «Интернет и современное общество». — 2016. — С. 44—54. Архивировано 10 октября 2019 года.
  6. Кибрик А. Е., Федорова О. В., Татевосов С. Г., Лютикова Е. А., Кибрик А. А., Кобозева И. М., Фаликман М. В., Ченки А., Секерина И., Николаева Ю. В., Даниэль М. А., Бергельсон М. Б., Алпатов В. М., Беляев О. И., Толдова С. Ю., Бонч-Осмоловская А. А., Подлесская В. И., Кривнова О. Ф. Корпусная лингвистика // Введение в науку о языке / под ред. О. В. Федоровой и С. Г. Татевосова. — М.: Буки Веди, 2019. — С. 420. — 672 с. — ISBN 978-5-4465-2188-3.
  7. Сичинава Д. В. Национальный корпус русского языка: очерк предыстории // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 21—30. Архивировано 31 июля 2019 года.
  8. 1 2 3 Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л., Иомдин Л. Л., Санников А. В., Санников В. З., Сизов В. Г., Цинман Л. Л. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 193—214. Архивировано 31 июля 2019 года.
  9. Захаров В. П., Богданова С. Ю. Корпусная лингвистика. — 3-е изд., перераб. — СПб.: Издательство Санкт-Петербургского университета, 2020. — С. 47. — 234 с. — ISBN 978-5-288-05997-1.
  10. 1 2 Апресян Ю. Д., Иомдин Л. Л., Санников А. В., Сизов В. Г. Семантическая разметка в глубоко аннотированном корпусе русского языка // Труды Международной конференции «Корпусная лингвистика-2004». — СПб.: СПбГУ, 2004. — С. 41—54. Архивировано 31 июля 2019 года.
  11. 1 2 3 Богуславский И. М., Григорьев Н. В., Иомдин Л. Л., Крейдлин Л. Г., Фрид Н. Е., Чардин И. С. Разработка синтаксически размеченного корпуса русского языка // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных». — СПб.: СПбГУ, 2002. — С. 40—50. Архивировано 31 июля 2019 года.
  12. Корпусная лингвистика. Лаборатория компьютерной лингвистики ИППИ РАН (4 мая 2023). Дата обращения: 5 мая 2023. Архивировано 22 февраля 2020 года.
  13. 1 2 3 4 5 Дяченко П. В., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Подлесская О. Ю., Сизов В. Г., Фролова Т. И., Цинман Л. Л. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус) // Сборник «Национальный корпус русского языка: 10 лет проекту». — М.: Труды Института русского языка им. В. В. Виноградова, 2015. — Вып. 6. — С. 272—299. Архивировано 31 июля 2019 года.
  14. Boguslavsky I., Iomdin L., Sizov V., Tsinman L., Petrochenkov V. Rule-based dependency parser refined by empirical and corpus statistics (англ.) // Proceedings of the International Conference on Dependency Linguistics. — 2011. — P. 318—327. Архивировано 31 июля 2019 года.
  15. Droganova K., Lyashevskaya O., Zeman D. Data conversion and consistency of monolingual corpora: Russian UD treebanks (англ.) // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). — Oslo University, Norway: Linköping University Electronic Press, 2018. — P. 52—65. Архивировано 19 марта 2020 года.
  16. 1 2 Igor Boguslavsky, Ivan Chardin, Svetlana Grigorjeva, Nikolai Grigoriev, Leonid Iomdin, Lеonid Kreydlin, Nadezhda Frid. Development of a dependency treebank for Russian and its possible applications in NLP (англ.) // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III. — P. 852—856. Архивировано 10 августа 2017 года.
  17. 1 2 Синтаксически размеченный корпус русского языка: информация для пользователей. Национальный корпус русского языка. Дата обращения: 29 марта 2020. Архивировано 25 марта 2020 года.
  18. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Санников В. З., Цинман Л. Л. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. — С. 32—40, 56—73. — 256 с.
  19. Leonid Iomdin, Victor Sizov. Structure Editor: a Powerful Environment for Tagged Corpora (англ.) // Research Infrastructure for Digital Lexicography. — Ljubljana: Jožef Stefan Institute, 2009. — P. 1—12.
  20. 1 2 Иомдин Л. Л. Микросинтаксическая разметка в корпусе русских текстов // Труды международной научной конференции «Корпусная лингвистика — 2017». — СПб.: СПбГУ, 2017. — С. 188—194. Архивировано 20 ноября 2021 года.
  21. Иомдин Л. Л. В глубинах микросинтаксиса: один лексический класс синтаксических фразем // Компьютерная лингвистика и интел-лектуальные технологии. — М.: РГГУ, 2008. — С. 178—184. Архивировано 29 августа 2019 года.
  22. 1 2 3 4 Droganova K., Zeman D. Conversion of SynTagRus (the Russian dependency treebank) to Universal Dependencies (англ.) // Technical report. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016. Архивировано 8 июня 2021 года.
  23. 1 2 Luu A., Malamud S. A., Xue N. Converting SynTagRus dependency treebank into Penn treebank style (англ.) // Proceedings of the 10th Linguistic Annotation Workshop held in conjunction with ACL 2016 (LAW-X 2016). — 2016. — P. 16—21. Архивировано 27 февраля 2019 года.
  24. Lipenkova J., Souček M. Converting Russian dependency treebank to Stanford typed dependencies representation (англ.) // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. — 2014. — Vol. 2. — P. 143—147. Архивировано 8 июня 2018 года.
  25. Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. — М.: Издательский дом ЯСК, 2016. — С. 193. — 520 с.

Ссылки

Kembali kehalaman sebelumnya