LIVAC Synchronous Corpus — це незвичайний мовний корпус, який динамічно підтримується з 1995 року. На відміну від інших чинних корпусів, LIVAC застосував суворий і регулярний, а також «Windows» підхід до обробки та фільтрації масових медіа-текстів із репрезентативних китайських мовних спільнот, таких як Гонконг, Макао, Тайбей, Сінгапур, Шанхай, Пекін, а також Гуанчжоу і Шеньчжень.[1] Таким чином, зміст у більшості випадків навмисно повторюється, представлений текстовими зразками, взятими з редакційних статей, місцевих та міжнародних новин, а також новин фінансів, спорту та розваг.[2] До 2020 року наразі було відфільтровано 3 мільярди символів текстів новин, з яких 700 мільйонів символів було оброблено та проаналізовано. Завдяки ретельному аналізу на основі обчислювальної лінгвістичної методології LIVAC водночас накопичив велику кількість точних і значущих статистичних даних про китайську мову та їх мовні спільноти в Пан-китайському регіоні, і результати показують значні та важливі варіації.[3][4]
Підхід «Windows» є найбільш репрезентативною особливістю LIVAC і дає змогу кількісно проаналізувати Пан-китайські медіатексти відповідно до різних атрибутів, таких як місце розташування, час і предметні домени. Таким чином, стали можливими різні типи порівняльних досліджень і застосувань в інформаційних технологіях, а також розробка часто пов'язаних інноваційних застосувань.[5][6] Крім того, LIVAC дозволив брати до уваги поздовжні зміни, сприяючи ключовому слову в контексті (KWIC) та всебічному вивченню цільових слів та їхніх основних понять, а також мовних структур за останні 20 років, на основі змінних, таких як регіон, тривалість і зміст. Результати розлогого та накопичуваного аналізу даних, що міститься в LIVAC, дозволили створити текстові бази даних власних імен, топонімів, назв організацій, нових слів, а також щотижневі та річні списки медіа-діячів. Пов'язані програми включали створення баз даних дієслів і прикметників, формулювання індексів настроїв і пов'язаний з ними аналіз думок, щоб виміряти та порівняти популярність світових медіа-діячів у китайських ЗМІ (LIVAC Annual Pan-Chinese Celebrity Rosters, пізніше перейменований як Пан-китайські списки медіаособистостей)[7][8][9][10] та створення щомісячних нових лексиконів слів (LIVAC Annual Pan-Chinese New Word Rosters).[11][12][13][14] На цій основі став можливим аналіз появи, поширення та трансформації нових слів, видання словників неологізмів.[15][16]
Нещодавно зосереджено на відносному балансі між двоскладовими словами та висхідними трискладовими словами в китайській мові,[17] а також на порівняльному вивченні легких дієслів у трьох китайських мовних спільнотах.[18]
Обробка корпусних даних
Доступ до медіатекстів, ручне введення тощо.
Уніфікація тексту, включаючи перетворення спрощених ієрогліфів у традиційні китайські ієрогліфи, що зберігаються як версії Big5 та Unicode
Автоматична сегментація слів
Автоматичне вирівнювання паралельних текстів
Перевірка вручну, позначення частини мови
Вилучення слів і додавання до регіональних підкорпусів
Поєднання регіональних підкорпусів для оновлення корпусу LIVAC та головної лексичної бази даних
Маркування для зберігання даних
Використовувані категорії включають загальні терміни та власні назви, такі як: загальні імена, прізвища, напівназви; географічні, організації та комерційні структури тощо; час, прийменники, місце розташування тощо; стек-слова; запозичення; відмінкове слово; числівники тощо.
Побудова баз даних власних імен, топонімів, конкретних термінів тощо.
Створіть списки: «списки нових слів», «знаменитості або медіа-персони», «списки назв місць», складні слова та відповідні слова
Позначення інших частин мови для підбази даних, таких як загальні іменники, числівники, класифікатори числівників, різні типи дієслів, а також прикметники, займенники, прислівники, прийменники, сполучники, частки, що позначають настрій, звукоподражання, вставні слова тощо.
Додатки
Складання Пан-китайських або місцевих словників
Дослідження інформаційних технологій, як-от інтелектуальне введення тексту китайською мовою для мобільних телефонів, автоматичне перетворення мови в текст, аналіз думок
Порівняльні дослідження мовного та культурного розвитку панкитайських регіонів
Дослідження щодо викладання та вивчення мови, а також перетворення мови в текст
Індивідуальний сервіс з лінгвістичних досліджень та лексичного пошуку для міжнародних корпорацій та державних установ