Share to: share facebook share twitter share wa share telegram print page

Terjemahan mesin statistik

Terjemahan mesin statistik (SMT) adalah pendekatan terjemahan mesin, yang menggantikan pendekatan berbasis aturan sebelumnya karena pendekatan ini membutuhkan deskripsi eksplisit dari setiap aturan linguistik, yang memakan banyak biaya, dan sering kali tidak dapat digeneralisasi ke bahasa lain. Sejak tahun 2003, pendekatan statistik itu sendiri secara bertahap digantikan oleh pendekatan pembelajaran mendalam berbasis jaringan saraf.

Gagasan pertama penerjemahan mesin statistik diperkenalkan oleh Warren Weaver pada tahun 1949,[1] termasuk ide-ide untuk menerapkan teori informasi Claude Shannon. Penerjemahan mesin statistik diperkenalkan kembali pada akhir tahun 1980-an dan awal tahun 1990-an oleh para peneliti di IBM Pusat Penelitian Thomas J. Watson.[2][3][4]

Basis

Ide di balik penerjemahan mesin statistik berasal dari teori informasi. Sebuah dokumen diterjemahkan menurut sebaran probabilitas bahwa string dalam bahasa target (misalnya, bahasa Inggris) adalah terjemahan dari sebuah string dalam bahasa sumber (misalnya, Prancis).

Masalah pemodelan sebaran probabilitas telah didekati dengan beberapa cara. Salah satu pendekatan yang cocok untuk implementasi komputer adalah dengan menerapkan Teorema Bayes, yaitu , di mana model terjemahannya adalah probabilitas bahwa string sumber adalah terjemahan dari string target, dan model bahasa adalah probabilitas untuk melihat string bahasa target tersebut. Dekomposisi ini menarik karena membagi masalah menjadi dua submasalah. Menemukan terjemahan terbaik dilakukan dengan mengambil salah satu yang memberikan probabilitas tertinggi:

.

Untuk implementasi yang ketat, kita harus melakukan pencarian yang menyeluruh dengan menelusuri semua string dalam bahasa asli. Melakukan pencarian secara efisien adalah pekerjaan decoder terjemahan mesin yang menggunakan string asing, heuristik, dan metode lain untuk membatasi ruang pencarian dan pada saat yang sama menjaga kualitas yang dapat diterima. Pertukaran antara kualitas dan penggunaan waktu ini juga dapat ditemukan dalam pengenalan suara.

Karena sistem penerjemahan tidak dapat menyimpan semua string asli dan terjemahannya, sebuah dokumen biasanya diterjemahkan kalimat demi kalimat, tetapi ini pun tidak cukup. Model bahasa biasanya didekati dengan model n-gram yang dihaluskan, dan pendekatan serupa telah diterapkan pada model penerjemahan, tetapi ada kerumitan tambahan karena panjang kalimat dan urutan kata yang berbeda dalam bahasa.

Model penerjemahan statistik pada awalnya berbasis kata (Model 1-5 dari IBM Model Markov Tersembunyi dari Stephan Vogel[5] dan Model 6 dari Franz-Joseph Och[6]), tetapi kemajuan yang signifikan dibuat dengan diperkenalkannya model berbasis frase.[7] Pekerjaan selanjutnya menggabungkan sintaksis atau struktur kuasi-sintaksis.[8]

Kelemahan

  • Pembuatan korpus bisa jadi mahal.
  • Kesalahan spesifik sulit diprediksi dan diperbaiki.
  • Hasil mungkin memiliki kefasihan dangkal yang menutupi masalah terjemahan.[9]
  • Terjemahan mesin statistik biasanya bekerja kurang baik untuk pasangan bahasa dengan urutan kata yang sangat berbeda.
  • Manfaat yang diperoleh untuk terjemahan antara bahasa-bahasa Eropa Barat tidak dapat mewakili hasil untuk pasangan bahasa lain, karena korpus pelatihan yang lebih kecil dan perbedaan tata bahasa yang lebih besar.

Terjemahan berbasis frasa

Dalam terjemahan berbasis frasa, tujuannya adalah untuk mengurangi batasan penerjemahan berbasis kata dengan menerjemahkan seluruh rangkaian kata, yang panjangnya mungkin berbeda. Urutan kata disebut blok atau frasa, namun, biasanya bukan frasa linguistik, tetapi frasa yang ditemukan menggunakan metode statistik dari korpora. Telah terbukti bahwa membatasi frasa pada frasa linguistik (kelompok kata yang termotivasi secara sintaksis, lihat kategori sintaksis) menurunkan kualitas terjemahan.[10]

Frasa yang dipilih selanjutnya dipetakan satu-ke-satu berdasarkan tabel terjemahan frasa, dan dapat disusun ulang. Tabel ini dapat dipelajari berdasarkan penjajaran kata, atau langsung dari korpus paralel. Model kedua dilatih menggunakan algoritma ekspektasi-maksimisasi, mirip dengan Model IBM berbasis kata..[11]

Terjemahan berbasis sintaks

Penerjemahan berbasis sintaksis didasarkan pada gagasan untuk menerjemahkan unit sintaksis, bukan kata tunggal atau rangkaian kata (seperti pada MT berbasis frasa), yaitu pohon urai (parsial) dari kalimat/ucapan.[12] Hingga tahun 1990-an, dengan munculnya pengurai stokastik yang kuat, mitra statistik dari ide lama penerjemahan berbasis sintaksis tidak berkembang. Contoh dari pendekatan ini termasuk DOP berbasis MT dan kemudian tata bahasa bebas konteks sinkron.

Terjemahan berbasis frasa hierarkis

Penerjemahan berbasis frasa hirarkis menggabungkan pendekatan berbasis frasa dan berbasis sintaksis dalam penerjemahan. Sistem ini menggunakan aturan tata bahasa bebas konteks sinkron, tetapi tata bahasa dapat dibangun dengan perluasan metode untuk penerjemahan berbasis frasa tanpa mengacu pada konstituen sintaksis yang termotivasi secara linguistik. Ide ini pertama kali diperkenalkan dalam sistem Hiero Chiang (2005).[8]

Tantangan dengan terjemahan mesin statistik

Masalah yang tidak dapat diselesaikan oleh penerjemahan mesin statistik antara lain:

Penyelarasan kalimat

Dalam korpora paralel, kalimat tunggal dalam satu bahasa dapat ditemukan diterjemahkan ke dalam beberapa kalimat dalam bahasa lain dan begitu sebaliknya.[12] Kalimat yang panjang dapat dipecah, kalimat yang pendek dapat digabungkan. Bahkan ada beberapa bahasa yang menggunakan sistem penulisan tanpa indikasi yang jelas tentang akhir kalimat (misalnya, bahasa Thailand). Penyelarasan kalimat dapat dilakukan melalui algoritma penyelarasan Gale-Church. Melalui ini dan model matematika lainnya, pencarian dan pengambilan yang efisien dari perataan kalimat dengan nilai tertinggi dapat dilakukan.

Penyelarasan kata

Penyelarasan kalimat biasanya disediakan oleh korpus atau diperoleh dengan algoritma penjajaran Gale-Church. Namun, untuk mempelajari model penerjemahan, kita perlu mengetahui kata-kata mana yang sejajar dalam pasangan kalimat sumber-target. IBM-Models atau pendekatan HMM adalah upaya untuk memecahkan tantangan ini.

Kata-kata fungsi yang tidak memiliki padanan yang jelas dalam bahasa target merupakan tantangan lain bagi model statistik. Misalnya, saat menerjemahkan dari bahasa Inggris ke bahasa Jerman, kalimat "John does not live here," kata "does" tidak memiliki keselarasan yang jelas dalam kalimat yang diterjemahkan "John wohnt hier nicht." Melalui penalaran logis, hal ini dapat diselaraskan dengan kata-kata "wohnt" (seperti dalam bahasa Inggris, ini berisi informasi tata bahasa untuk kata "live") atau "nicht" (karena hanya muncul dalam kalimat karena dinegasikan) atau mungkin tidak selaras. [11]

Anomali statistik

Contoh dari anomali tersebut adalah "I took the train to Berlin" salah diterjemahkan menjadi "I took the train to Paris" karena banyaknya statistik "train to Paris" dalam set pelatihan.

Idiom

Tergantung pada korpus yang digunakan, idiom tidak dapat diterjemahkan secara "idiomatis". Misalnya, dengan menggunakan Hansard Kanada sebagai korpus dua bahasa, "hear" hampir selalu diterjemahkan menjadi "Bravo!" karena di Parlemen "Hear, Hear!" menjadi "Bravo!". [13]

Masalah ini terkait dengan penyelarasan kata, karena dalam konteks yang sangat spesifik, ekspresi idiomatik disejajarkan dengan kata-kata yang menghasilkan ekspresi idiomatik dengan makna yang sama dalam bahasa target. Namun, hal ini tidak mungkin terjadi, karena penyelarasan biasanya tidak berfungsi dalam konteks lain. Oleh karena itu, idiom hanya dapat disejajarkan dengan frasa, karena idiom tidak dapat diuraikan lebih lanjut tanpa kehilangan maknanya. Masalah ini khusus untuk penerjemahan berbasis kata.[11]

Susunan kata yang berbeda

Urutan kata dalam bahasa berbeda-beda. Beberapa klasifikasi dapat dilakukan dengan menyebutkan urutan khas subjek (S), kata kerja (V), dan objek (O) dalam sebuah kalimat dan seseorang dapat berbicara, misalnya, tentang bahasa SVO atau VSO. Ada juga perbedaan tambahan dalam urutan kata, misalnya, di mana pengubah untuk kata benda berada, atau di mana kata-kata yang sama digunakan sebagai pertanyaan atau pernyataan.

Dalam pengenalan ucapan, sinyal ucapan dan representasi tekstual yang sesuai dapat dipetakan satu sama lain dalam blok-blok secara berurutan. Hal ini tidak selalu terjadi pada teks yang sama dalam dua bahasa. Untuk SMT, penerjemah mesin hanya dapat mengelola urutan kata yang kecil, dan urutan kata harus dipikirkan oleh perancang program. Upaya untuk mencari solusi telah mencakup model pengurutan ulang, di mana distribusi perubahan lokasi untuk setiap item terjemahan ditebak dari dua teks yang disejajarkan. Perubahan lokasi yang berbeda dapat diurutkan dengan bantuan model bahasa dan yang terbaik dapat dipilih.

Kata-kata di luar kosakata (OOV)

Sistem SMT biasanya menyimpan bentuk kata yang berbeda sebagai simbol yang terpisah tanpa hubungan satu sama lain dan bentuk kata atau frasa yang tidak ada dalam data pelatihan tidak dapat diterjemahkan. Hal ini mungkin disebabkan oleh kurangnya data pelatihan, perubahan dalam domain manusia di mana sistem digunakan, atau perbedaan dalam morfologi.

Catatan dan referensi

  1. ^ W. Weaver (1955). Translation (1949). In: Machine Translation of Languages, MIT Press, Cambridge, MA.
  2. ^ P. Brown; John Cocke; S. Della Pietra; V. Della Pietra; Frederick Jelinek; Robert L. Mercer; P. Roossin (1988). "A statistical approach to language translation". Coling'88. Association for Computational Linguistics. 1: 71–76. Diakses tanggal 22 March 2015. 
  3. ^ P. Brown; John Cocke; S. Della Pietra; V. Della Pietra; Frederick Jelinek; John D. Lafferty; Robert L. Mercer; P. Roossin (1990). "A statistical approach to machine translation". Computational Linguistics. MIT Press. 16 (2): 79–85. Diakses tanggal 22 March 2015. 
  4. ^ P. Brown; S. Della Pietra; V. Della Pietra; R. Mercer (1993). "The mathematics of statistical machine translation: parameter estimation". Computational Linguistics. MIT Press. 19 (2): 263–311. Diakses tanggal 22 March 2015. 
  5. ^ S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in Statistical Translation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.
  6. ^ Och, Franz Josef; Ney, Hermann (2003). "A Systematic Comparison of Various Statistical Alignment Models". Computational Linguistics. 29: 19–51. doi:10.1162/089120103321337421alt=Dapat diakses gratis. 
  7. ^ P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation. Dalam Konferensi Bersama Lanjutan tentang Teknologi Bahasa Manusia dan Pertemuan Tahunan Asosiasi Linguistik Komputasi (HLT/NAACL) Cabang Amerika Utara.
  8. ^ a b D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. Dalam Pertemuan Tahunan Lanjutan ke-43 Asosiasi Linguistik Komputasi (ACL'05).
  9. ^ Zhou, Sharon (July 25, 2018). "Has AI surpassed humans at translation? Not even close!". Skynet Today. Diakses tanggal 2 August 2018. 
  10. ^ Philipp Koehn, Franz Josef Och, Daniel Marcu: Statistical Phrase-Based Translation (2003)
  11. ^ a b c Koehn, Philipp (2010). Statistical Machine Translation. Cambridge University Press. ISBN 978-0-521-87415-1. 
  12. ^ a b Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 August 2016). Syntax-based Statistical Machine Translation. Morgan & Claypool Publishers. ISBN 978-1-62705-502-4. 
  13. ^ W. J. Hutchins and H. Somers. (1992). An Introduction to Machine Translation, 18.3:322. ISBN 978-0-12-362830-5

Pranala luar

Read other articles:

The Descendants First editionAuthorKaui Hart HemmingsCountryUnited StatesLanguageEnglishGenreFictionPublisherRandom HousePublication dateMay 15, 2007Media typePrintPages304 (First Edition)ISBN1-4000-6633-6 The Descendants is a novel written by Kaui Hart Hemmings. The 2011 American film The Descendants, directed by Alexander Payne, with the adapted screenplay by Payne, Nat Faxon, and Jim Rash,[1] is based on this novel.[2] Plot summary Matthew King was once considered one of …

Budi PekertiNama lainInggrisAndragogy SutradaraWregas BhanutejaProduser Adi Ekatama Ridla An-Nuur Willawati Nurita Anandia W. SkenarioWregas BhanutejaCeritaWregas BhanutejaPemeran Sha Ine Febriyanti Dwi Sasono Angga Yunanda Prilly Latuconsina Omara Esteghlal Ari Lesmana Penata musikYennu AriendraSinematograferGunnar NimpunoPenyuntingAhmad YuniardiPerusahaanproduksi Rekata Studio Kaninga Pictures Tanggal rilis 9 September 2023 (2023-09-09) (TIFF) 25 Oktober 2023 (2023-10…

Candace NelsonLahir8 Mei 1974 (umur 49)PekerjaanPastry chefDikenal atasPendiri toko kue mangkok pertama di dunia (Sprinkles Cupcakes)Juri Cupcake Wars Candace Nelson (lahir 8 Mei 1974[1]) adalah seorang pastry chef dan juri pada serial televisi Cupcake Wars. Dia dikenal dengan memulai demam kue mangkok secara nasional di Amerika Serikat[2] dengan membuka tokonya, Sprinkles Cupcakes, pada tahun 2005. Kehidupan awal Nelson dibesarkan di Indonesia.[2] Pembuatan penganan…

Осетины в Турции (осет. Турчы ирæттæ / Турки дигорæнттæ, тур. Türkiye Osetleri) — национальное меньшинство, в основном представленное потомками выходцев из Северной Осетии второй половины XIX века. Несмотря на то, что осетины в большинстве своём христиане, на севере Осетии име…

An-225 Mriya An-225 Mriya pada tahun 2012. Jenis Pesawat angkut Negara asal Uni Soviet (RSS Ukraina) Kelompok desain Antonov Pembangun Pabrik Produksi Serial Antonov Penerbangan perdana 21 Desember 1988 Status Hancur Pengguna utama Antonov Airlines Dibuat 1985 Jumlah 2 diproduksi, 1 selesai dibuat Dikembangkan dari Antonov An-124 Dikembangkan menjadi Antonov AKS Antonov An-225 Mriya (Ukraina: Антонов Ан-225 Мрія; arti harfiah: 'mimpi' atau 'inspirasi'; kode NATO: Cossack) a…

  لمعانٍ أخرى، طالع بلينفيو (توضيح). بلينفيو     الإحداثيات 40°46′48″N 73°28′46″W / 40.78°N 73.4794°W / 40.78; -73.4794   [1] تقسيم إداري  البلد الولايات المتحدة[2]  التقسيم الأعلى أويستر باي  خصائص جغرافية  المساحة 14.852404 كيلومتر مربع14.875219 كيلومتر مربع (1 أ…

Cyclingat the Games of the VIII OlympiadVenuesParis and surrounding areaVélodrome de VincennesDate23 –27 July 1924Competitors139 from 24 nations← 19201928 → The cycling competition at the 1924 Summer Olympics in Paris consisted of two road cycling events and four track cycling events, all for men only.[1] The 50 km track event was held for the last time at these Games, having only been introduced in 1920. Medal summary Road cycling Games Gold …

William Holman HuntSelf-portrait, 1867, Galleria degli Uffizi, FlorenceLahir(1827-04-02)2 April 1827Cheapside, LondonMeninggal7 September 1910(1910-09-07) (umur 83)Kensington, LondonKebangsaanInggrisPekerjaanPelukisTanda tangan William Holman Hunt OM (2 April 1827 – 7 September 1910) adalah seorang pelukis Inggris, dan salah satu pendiri Persaudaraan Pra-Raphael. Galeri Ilustrasi puisi My Beautiful Lady karya Thomas Woolner (1850) A Converted British Family Sheltering a Christian Missiona…

Pour les articles homonymes, voir Planeta. Cet article est une ébauche concernant la culture russe. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. RTR PlanetaCaractéristiquesCréation 1er juillet 2002Propriétaire VGTRKLangue RussePays RussieStatut Généraliste internationale publiqueSiège social MoscouSite web rtr-planeta.comDiffusionAnalogique  NonNumérique  NonSatellite Hotbird Thor 3 Express AM44…

Questa voce sull'argomento calciatori italiani è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Walter Berlini Nazionalità  Italia Altezza 172 cm Peso 70 kg Calcio Ruolo Centrocampista Termine carriera 1988 Carriera Squadre di club1 1973-1978 Rimini120 (3)1978-1979 Mantova28 (2)1979-1982 Padova94 (3)1982-1983 Prato31 (1)1983-1986 Livorno67 (1)1986-1988 Rimini50 (0) 1 I du…

This is a list of traditional windmills in the American state of Massachusetts. Map all coordinates using OpenStreetMap Download coordinates as: KML GPX (all coordinates) GPX (primary coordinates) GPX (secondary coordinates) Check out the locations in linked map all coordinates using OpenSourcMap: Mills Known building dates are in bold text. Non-bold text denotes first known date. Iron windpumps are outside the scope of this list unless listed on the National Register of Historic Places. Locatio…

Creazione della Terra secondo la descrizione della Genesi. Molte tradizioni religiose fissano una data della creazione del mondo ad una data ben precisa, desunta dalla propria mitologia o dai propri libri sacri. Anche nelle tradizioni in cui l'universo è considerato eterno, ma ciclico, come l'induismo o la religione dei Maya, c'è una data d'inizio, che è quella iniziale del ciclo attuale. Indice 1 Ebraismo e cristianesimo 2 Maya 3 Induismo 4 Buddhismo e New Age 5 Tabella riassuntiva 6 Note 7 …

Baseball training events held in Beijing, China Wukesong Baseball Field in Beijing Trevor Hoffman, second all-time Major League Baseball saves leader behind Mariano Rivera, pitches in Game 1 Cheerleaders during the game The Major League Baseball China Series, or MLB China Series, were two 2008 spring training games between the San Diego Padres and Los Angeles Dodgers played in the People's Republic of China. It marked the first time Major League Baseball teams played in China, part of an effort …

Questa voce sugli argomenti geografia di Cuba e geografia della Florida è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Stretti della FloridaStretti della FloridaParte diMar dei Caraibi Stato Stati Uniti Coordinate23°56′03″N 80°55′33″W / 23.934167°N 80.925833°W23.934167; -80.925833Coordinate: 23°56′03″N 80°55′33″W / 23.934167°N 80.925833°W23.934167; -80.925833 Stretti della Florida Modifica dati…

San Antonio FC 2024 soccer seasonSan Antonio FC2024 seasonOwnerSpurs Sports & EntertainmentHead coachAlen MarcinaStadiumToyota FieldUSLCWestern Conference: 5th Overall: 9thU.S. Open CupRound of 32Copa TejasTBDCopa Tejas Shield2ndTop goalscorerLeague: Juan Agudelo Kevon LambertCarter ManleyLucas Silva (2 goals)All: Juan AgudeloKevon LambertCarter ManleyLucas Silva (2 goals)Highest home attendance7,546 vs Monterey Bay FC(March 30)[1]Lowest home attendance6,138 vs Colorado Springs Switc…

Jure Bilić7th Speaker of the Croatian ParliamentIn office1978 – May 1982PresidentJakov BlaževićPrime MinisterPetar FlekovićPreceded byIvo PerišinSucceeded byJovo GrčićPresident of the League of Communists of CroatiaIn officeMay 1982 – July 1983PresidentMarijan CvetkovićMilutin BaltićPrime MinisterAnte MarkovićPreceded byMilka PlanincSucceeded byJosip Vrhovec Personal detailsBorn(1922-09-12)12 September 1922Makarska, Kingdom of Serbs, Croats and SlovenesDied27 Janu…

2020年夏季奥林匹克运动会波兰代表團波兰国旗IOC編碼POLNOC波蘭奧林匹克委員會網站olimpijski.pl(英文)(波兰文)2020年夏季奥林匹克运动会(東京)2021年7月23日至8月8日(受2019冠状病毒病疫情影响推迟,但仍保留原定名称)運動員206參賽項目24个大项旗手开幕式:帕维尔·科热尼奥夫斯基(游泳)和马娅·沃什乔夫斯卡(自行车)[1]闭幕式:卡罗利娜·纳亚(皮划艇)[2…

artikel ini perlu dirapikan agar memenuhi standar Wikipedia. Tidak ada alasan yang diberikan. Silakan kembangkan artikel ini semampu Anda. Merapikan artikel dapat dilakukan dengan wikifikasi atau membagi artikel ke paragraf-paragraf. Jika sudah dirapikan, silakan hapus templat ini. (Pelajari cara dan kapan saatnya untuk menghapus pesan templat ini) Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahka…

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (يوليو 2019) الحدثكأس الكؤوس الأوروبية 1963–64 سبورتينغ لشبونة نادي بودابست 1 0 التاريخ15 مايو 1964  الملعبملعب بوزيلستادي…

August Hermann Francke August Hermann Francke (1663 -1727) adalah teolog Jerman dan guru besar Universitas Halle selama 30 tahun.[1] Selama Francke di sana, universitas ini menjadi pusat dan lumbung Pietisme.[1][2] Ribuan pendeta dan penginjil dengan semangat pietisme (memfokuskan diri pada karya-karya sosial seperti panti asuhan, perawatan orang miskin, pendidikan sekolah-sekolah umum maupun keagamaan) merupakan lulusan universitas ini.[1] Francke adalah murid da…

Kembali kehalaman sebelumnya