Share to: share facebook share twitter share wa share telegram print page

Электронный словарь

Электронный словарьпрограммное обеспечение, которое позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).

Внутренне устроен как база данных со словарными статьями.

Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке. Машиночитаемые словари являются разновидностью электронных словарей.

Машиночитаемые словари

Создание машиночитаемых словарей

В проекте Leipzig Corpora Collection[1] (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет[2]. LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека, поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов[3]. Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения[3].

Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán[4], собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен[5]. В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря[6].

Использование машиночитаемых словарей

В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний. Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы[7].

Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий[8].

Трудности извлечения информации из словарей:

Число уникальных русских слов в академических словарях (вертикальная полоса) и число уникальных слов по всем 12 словарям (круговая диаграмма), 2015[9]
  • Преобразование из исходного формата требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами[10]. Трудность в том, что неоднозначности и противоречия в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало[10].
  • Противоречия и несогласованность в словарях приводят к построению очень разных семантических сетей по разным словарям[11]. Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует[12]. Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы WSD, которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать[12].
  • Необходима частичная ручная проверка для построения качественных баз знаний по словарям[13].
  • Необходима интеграция множества источников данных. В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна[13]. С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей[9]. На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей[9].

Формат машиночитаемых словарей

Фрагмент страницы в русско-ненецком словаре. Словарные статьи краткие, но включают большой объём разнородных данных: толкование, перевод, словообразование, ударение, грамматические и диалектные пометы

Для использования машиночитаемых словарей их необходимо преобразовать в удобный для работы формат. Формат должен быть достаточно общим для совместимости между разными словарями, для создания единого ПО и повторного использования словарей[13]. Примером является формат, выработанный сообществом TEI[13].

С выбором формата словаря тесно связана задача выбора подходящей модели для представления данных машиночитаемого словаря. Если посмотреть любую словарную статью, то можно увидеть, что организация лексикографических данных намного сложнее, чем данные в задаче «товары-поставщик» или организация «базы данных сотрудников». Классические (реляционные) базы данных не являются идеальным решением для лексических баз данных[14].

В работах[15][16], посвящённых исследованиям в области проектирования баз данных, предложена альтернативная модель для лексической базы данных на основе свойств. Особенности этой модели: (1) поддержка вложения значений, (2) есть механизм наследования для исключения избыточной информации.

Популярные электронные словари

Словари

Программы

Программы, сайты и др.

См. также

Примечания

  1. Leipzig Corpora Collection. Дата обращения: 5 мая 2019. Архивировано 30 мая 2016 года.
  2. Goldhahn et al., 2012, с. 760.
  3. 1 2 Goldhahn et al., 2012, с. 762.
  4. An Crúbadán — Corpus Building for Minority Languages. Дата обращения: 5 мая 2019. Архивировано 23 апреля 2019 года.
  5. Scannell, 2007.
  6. Scannell, 2007, с. 9.
  7. Ide, Véronis, 1994, с. 137—138.
  8. Ide, Véronis, 1994, с. 138.
  9. 1 2 3 Kiselev et al., 2015.
  10. 1 2 Ide, Véronis, 1994, с. 139.
  11. Ide, Véronis, 1994, с. 141.
  12. 1 2 Ide, Véronis, 1994, с. 140.
  13. 1 2 3 4 Ide, Véronis, 1994, с. 143.
  14. Ide, Véronis, 1994, с. 144.
  15. Ide, N., Le Maitre, J., & Véronis, J. (1994). Outline of a model for lexical databases Архивная копия от 9 августа 2017 на Wayback Machine. In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.
  16. Véronis, J., & Ide, N. (1992, August). A feature-based model for lexical databases Архивная копия от 14 июля 2019 на Wayback Machine. In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.

Литература


Read other articles:

Erich Mende Wakil Kanselir Jerman(Jerman Barat)Masa jabatan17 Oktober 1963 – 28 Oktober 1966KanselirLudwig Erhard PendahuluLudwig ErhardPenggantiHans-Christoph SeebohmMenteri Urusan Seluruh Jerman FederalMasa jabatan17 Oktober 1963 – 28 Oktober 1966KanselirLudwig Erhard PendahuluRainer BarzelPenggantiJohann Baptist Gradl Informasi pribadiLahir(1916-10-28)28 Oktober 1916Groß Strehlitz, Provinsi Silesia, Kekaisaran JermanMeninggal6 Mei 1998(1998-05-06) (umur 81)Bonn, Je…

Curved path of an object around a point This article is about orbits in celestial mechanics, due to gravity. For other uses, see Orbit (disambiguation). An animation showing a low eccentricity orbit (near-circle, in red), and a high eccentricity orbit (ellipse, in purple) In celestial mechanics, an orbit (also known as orbital revolution) is the curved trajectory of an object[1] such as the trajectory of a planet around a star, or of a natural satellite around a planet, or of an artifici…

Inovallée adalah taman teknologi yang terletak di antara kota-kota Prancis di Grenoble. Dibuat pada tahun 1972 dengan akronim ZIRST[1][2], ia menjadi Inovallée pada tahun 2005 dan terutama menampung perusahaan di bidang teknologi informasi dan komunikasi. Pada tahun 2014, ada lebih dari 362 perusahaan dan 11.174 orang yang bekerja di taman.[3] Inovallée juga mendapat manfaat dari kedekatannya dengan Université Grenoble-Alpes, Grenoble Institute of Technology, dan Poly…

DellingerPenemuanDitemukan olehA. LoweSitus penemuanHaleakalaTanggal penemuan9 Agustus 2002PenamaanPenamaan MPC78392Penamaan alternatif2002 PM165Ciri-ciri orbitEpos 14 Mei 2008Aphelion2.8000377Perihelion2.5812233Eksentrisitas0.0406623Periode orbit1612.0537197Anomali rata-rata335.95779Inklinasi2.32199Bujur node menaik343.74290Argumen perihelion122.08309Ciri-ciri fisikMagnitudo mutlak (H)16.1 78392 Dellinger (2002 PM165) adalah sebuah asteroid yang terletak di sabuk u…

Ini adalah nama Korea; marganya adalah Jang. Jang Young-namLahir25 November 1973 (umur 50)Seoul, Korea SelatanPendidikanInstitut Kesenian Seoul - TeaterPekerjaanAktrisTahun aktif1995-sekarangAgenBH Entertainment (2016-sekarang)Suami/istritidak diketahui namanya ​ ​(m. 2011)​[1]Anak1 Nama KoreaHangul장영남 Alih AksaraJang Yeong-namMcCune–ReischauerChang Yŏngnam Jang Young-nam (lahir 25 November 1973) adalah seorang aktris asal Korea Selat…

Chronologies Données clés 1858 1859 1860  1861  1862 1863 1864Décennies :1830 1840 1850  1860  1870 1880 1890Siècles :XVIIe XVIIIe  XIXe  XXe XXIeMillénaires :-Ier Ier  IIe  IIIe Chronologies géographiques Afrique Afrique du Sud, Algérie, Angola, Bénin, Botswana, Burkina Faso, Burundi, Cameroun, Cap-Vert, République centrafricaine, Comores, République du Congo, République démocratique du Congo, Côte d'Ivoire, Djibouti, Égypte, …

Water temperature changes resulting in degraded water quality Part of a series onPollutionThe Brayton Point Power Station in Massachusetts discharged heated water to Mount Hope Bay until 2011.[1] The plant was shut down in June 2017.[2] Air Air quality index Atmospheric dispersion modeling Chlorofluorocarbon Combustion Exhaust gas Haze Global dimming Global distillation Indoor air quality Ozone depletion Particulates Persistent organic pollutant Smog Soot Volatile organic compoun…

Massachusetts politician James Arena-DeRosaMember of the Massachusetts House of Representativesfrom the 8th Middlesex districtIncumbentAssumed office January 18, 2023Preceded byCarolyn Dykema Personal detailsPolitical partyDemocraticResidencePepperell, MassachusettsAlma materHarvard College (BA) James Arena-DeRosa is an American politician who is the member of the Massachusetts House of Representatives from the 8th Middlesex district.[1] He was elected in the November 202…

Синелобый амазон Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеНадкласс:ЧетвероногиеКлада:АмниотыКлада:ЗавропсидыКласс:Птиц…

Programa 1 Radio Republik IndonesiaNama sebelumnyaRRI Nusantara IJenisJaringan radioMerekPro 1 RRI (alternatif)SloganKanal Informasi & InspirasiNegaraIndonesiaBahasaBahasa Indonesia (dominan)KetersediaanRegionalPemilikLPP Radio Republik IndonesiaAnggota jaringanLihat #FrekuensiFormatBerita, Golden oldies, Classic country dan NostalgiaStasiun kembarRRI Programa 2RRI Programa 3RRI Programa 4Voice of IndonesiaSitus webrri.co.id RRI Programa 1 JakartaKotaJakartaWilayah siarJabodetabek dan s…

Bagian dari seri Biologi mengenai Evolusi Pengenalan Mekanisme dan Proses Adaptasi Hanyutan genetika Aliran gen Mutasi Seleksi alam Spesiasi Riset dan sejarah Bukti Sejarah evolusi kehidupan Sejarah Sintesis modern Efek sosial Teori dan fakta Keberatan / Kontroversi Bidang Kladistika Genetika ekologi Perkembangan evolusioner Evolusi manusia Evolusi molekuler Filogenetika Genetika populasi Portal Biologi ·lbs Dalam biologi evolusioner, perlombaan senjata evolusioner adalah persaingan evolusioner…

1991 single by Kylie Minogue For other uses, see What Do I Have to Do? (disambiguation). What Do I Have to DoSingle by Kylie Minoguefrom the album Rhythm of Love Released21 January 1991StudioLondon, EnglandGenreDance-pop[1]electropop[2]house[2]Length3:48LabelPWLMushroomSongwriter(s)Mike StockMatt AitkenPete WatermanProducer(s)Stock Aitken WatermanKylie Minogue singles chronology Step Back in Time (1990) What Do I Have to Do (1991) Shocked (1991) Music videoWhat Do I Have …

Association football club in Northern Cyprus Football clubÇetinkayaFull nameÇetinkaya Türk Spor KulübüFounded3 January 1930; 94 years ago (3 January 1930)GroundNicosia Atatürk Stadium,North NicosiaCapacity28,000ChairmanSüleyman Yemen [1]Head CoachDerviş Kolcu [2]LeagueSüper Lig2017–18Süper Lig, 3rd[3] Home colours Away colours Çetinkaya Türk Spor Kulübü, also known as Kırmızı Şimşekler (lit. 'Red Thunders'), is a Turkish Cypriot spo…

Гей-клуб на популярном для ЛГБТ курорте в Пуэрто-Вальярта Проведение свадебной церемонии на острове Гей-туризм, также ЛГБТ-туризм — отрасль туризма, специализирующаяся на путешествиях и отдыхе геев, лесбиянок, бисексуалов и трансгендерных людей (ЛГБТ). Предполагает пу…

Uday Saddam Hussein jaluldin (18 Juli 1964 – 22 Juli 2003), (Bahasa Arab:عُدي صدّام حُسين) adalah anak pertama Saddam Hussein dan isterinya, Sajida Talfah. Uday HusseinUday Hussein Tahun 1997 Komandan Fedayen SaddamMasa jabatan1995 – 12 Desember 1996PresidenSaddam HusseinPendahuluTidak adaPenggantiQusay Hussein Informasi pribadiLahir18 Juni 1964Bagdad, IrakMeninggal22 Juli 2003 (umur 39)Mosul, IrakMakamTikrit, IrakPartai politikPartai Sosialis Arab Ba'th …

  「俄亥俄」重定向至此。关于其他用法,请见「俄亥俄 (消歧义)」。 俄亥俄州 美國联邦州State of Ohio 州旗州徽綽號:七葉果之州地图中高亮部分为俄亥俄州坐标:38°27'N-41°58'N, 80°32'W-84°49'W国家 美國加入聯邦1803年3月1日,在1953年8月7日追溯頒定(第17个加入联邦)首府哥倫布(及最大城市)政府 • 州长(英语:List of Governors of {{{Name}}}]]) • …

Ця стаття потребує додаткових посилань на джерела для поліпшення її перевірності. Будь ласка, допоможіть удосконалити цю статтю, додавши посилання на надійні (авторитетні) джерела. Зверніться на сторінку обговорення за поясненнями та допоможіть виправити недоліки. Матер…

2006 British film by Jereny Brock This article is about the film. For driver training, see Driver's education. Driving LessonsOriginal posterDirected byJeremy BrockWritten byJeremy BrockProduced byJulia ChasmanStarring Julie Walters Rupert Grint Laura Linney CinematographyDavid KatznelsonEdited byTrevor WaiteMusic byClive Carroll John RenbournProductioncompaniesContentFilm Rubber Tree Plant UK Film CouncilDistributed byPalisades TartanRelease date 8 September 2006 (2006-09-08) Run…

Local cuisine of the Basque region The traditional pintxos Basque cuisine refers to the cuisine of the Basque Country and includes meats and fish grilled over hot coals, marmitako and lamb stews, cod, Tolosa bean dishes, paprikas from Lekeitio, pintxos (Basque tapas), Idiazabal sheep's cheese, txakoli (sparkling white wine), and Basque cider. A basquaise is a type of dish prepared in the style of Basque cuisine that often includes tomatoes and sweet or hot red peppers. Overview Basques have also…

1776–89 book by English historian Edward Gibbon This article is about the book. For the historical events, see Fall of the Western Roman Empire and Byzantine Empire. For the board war game, see Decline and Fall of the Roman Empire (game). The History of the Decline and Fall of the Roman Empire Title page from John Quincy Adams's copy of the third edition (1777)AuthorEdward GibbonLanguageEnglishSubjectHistory of the Roman Empire and Fall of the Western Roman EmpirePublisherStrahan & Cadell,…

Kembali kehalaman sebelumnya