Машинний переклад (МП) — технології автоматизованого перекладу текстів (письмових та усних) з однієї природної мови на іншу за допомогою комп'ютера; напрямок наукових досліджень, пов'язаний з побудовою систем автоматизованого перекладу.
На базовому рівні, робота комп'ютерних програм для перекладу полягає у заміні слів чи словосполучень з однієї мови на слова чи словосполучення з іншої. Однак тоді виникає проблема, що така заміна не може забезпечити якісний переклад тексту, адже потрібне визначення та розпізнання слів та цілих фраз з мови оригіналу. Це спонукає активну наукову діяльність у галузі комп'ютерної лінгвістики. Наразі, для вирішення неоднозначностей при перекладі, використовуються багатомовні онтологічні ресурси, такі як WordNet та UWN.
Машинний переклад — одна з підгруп комп’ютерної лінгвістики, яка досліджує використання програмного забезпечення для перекладу тексту з однієї мови на іншу.
На початковому рівні МТ виконує звичайну заміну слів з однієї мови на слова з іншої мови, але, зазвичай, переклад здійснений таким чином не є дуже якісним, адже для того щоб, повністю передати сенс речення, та знайти найспорідненіший аналог в «цільовій» (target language) — потрібній перекладачу мові, часто потрібно здійснювати переклад цілої фрази.
Вирішення цієї проблеми з статистичними (statistical) та нейронними (neural) системами перекладу є швидко зростаючою галуззю, яка веде до покращення перекладу, усунення різниці в лінгвістичній типології, перекладу ідіом та виділенню аномалій.
Сучасне програмне забезпечення для машинного перекладу має функцію зміни налаштувань за доменом (domain) — галуззю або професійною діяльністю (напр. метеорологічні звіти). Обмежуючи сферу допустимих замін/заміщень ми маємо змогу отримати кращий результат перекладу.
Цей метод є особливо ефективним в сферах де використовується формальна чи шаблонна мова. Це означає, що машинний переклад, наприклад, урядових та юридичних документів є більш якісним, ніж переклад розмовних чи будь-яких менш стандартизованих текстів.
Підвищення якості кінцевого продукту може також бути досягнуто шляхом людського втручання: наприклад деякі системи зможуть надати більш точний переклад, якщо користувач заздалегідь позначить які слова в тексті є власними іменами.
За допомогою цих методів, МТ проявив себе як знаряддя, що дійсно допомагає перекладачам, а іноді, у дуже рідкісних випадках і сам може слугувати високоякісним перекладачем, здійснюючи переклад, який не потребує корекції. З моменту виникнення машинного перекладу (кінець 50-х років XX ст.) і до сьогодення науковці сперечаються щодо його прогресу та потенціалу.
Починаючи з 1950-х років ряд дослідників поставили під сумнів той факт, що автоматично здійснений переклад може бути високої якості.
Деякі критики стверджують що існують перешкоди, що унеможливлюють повну комп’ютеризацію процесу перекладу.
Замість «машинний» іноді вживається слово автоматичний, що не впливає на сенс. Проте термін автоматизований переклад має зовсім інше значення — в такому випадку програма просто допомагає людині перекладати тексти.
Автоматизований переклад передбачає такі форми взаємодії:
Частково автоматизований переклад: наприклад, використання перекладачем-людиною комп'ютерних словників.
Системи з поділом праці: комп'ютер навчений перекладати тільки фрази чітко заданої структури (але робить це так, що виправляти за ним не потрібно), а все, що не вклалося в схему, залишає людині.
В англомовній термінології також розрізняються терміни англ.machine translation, MT (повністю автоматичний переклад) і англ.machine-aided або англ.machine-assisted translation (MAT) (автоматизований); якщо ж треба позначити й те, й інше, пишуть — M(A)T.
Існують два принципово різних підходи до побудови алгоритмів машинного перекладу: заснований на правилах (rule-based) і статистичний, або заснований на статистиці (statistical-based). Перший підхід є традиційним і використовується більшістю розробників систем машинного перекладу (ПРОМТ у Росії, SYSTRAN у Франції, Linguatec у Німеччині тощо).
МП на основі правил (Rule-based MT)
МП на основі правил (Rule-based MT — RBMT, «Класичний підхід» МП) — система машинного перекладу, сформована на базі лінгвістичної інформації з одномовних (unilingual), двомовних (bilingual) чи багатомовних (multilingual) словників та граматичних правил вихідної мови та цільової мови.
Система охоплює основні семантичні, морфологічні та синтаксичні закономірності кожної мови. Відповідно, для того щоб здійснити переклад, система повинна зробити попередній морфологічний, синтаксичний та семантичний аналіз тексту, і тільки після цього вона генерує речення. Найбільший мінус RB-перекладу полягає в тому, що для здійснення програмою коректного перекладу, її база даних повинна містити усі орфографічні варіації та помилкові форми введення слів, а для всіх випадків неоднозначності повинні бути написані правила лексичного відбору.
Сама по собі, адаптація до нових доменів є не таким вже і складним процесом, оскільки основи граматики для всіх доменів однакові, а налаштування сфер користувацької діяльності обмежується лише корекцією лексичного відбору.
Отож, така система машинного перекладу є першим, класичним методом його здійснення. Вона дозволяє отримати більш якісний результат, аніж статистичний метод, але синтезує переклад повільніше.
Статистичний машинний переклад — це різновид машинного перекладу тексту, заснований на порівнянні великих обсягів мовних пар. Мовні пари — тексти, що містять речення однією мовою і відповідні речення іншою, можуть бути як варіантами написання двох речень людиною — носієм двох мов, так і набором речень та їх перекладів, виконаних людиною. Таким чином статистичний машинний переклад володіє властивістю «самонавчання». Чим більше в розпорядженні програми є мовних пар і чим точніше вони відповідають один одному, тим кращий результат статистичного машинного перекладу.
Під поняттям «статистичного машинного перекладу» мається на увазі загальний підхід до вирішення проблеми перекладу, який заснований на пошуку найімовірнішого перекладу речення з використанням даних, отриманих з двомовної сукупності текстів. Прикладом двомовної сукупності текстів можна назвати парламентські звіти, які являють собою протоколи дебатів у парламенті. Двомовні парламентські звіти видаються в Канаді, Гонконгу та інших країнах; офіційні документи Європейського економічного співтовариства видаються 11 мовами; а Організація Об'єднаних Націй публікує документи на декількох мовах. Як виявилося, ці матеріали є безцінними ресурсами для статистичного машинного перекладу.
Дана система базується на статистичному вирахуванні імовірності збігів. Задля виконання перекладу програма повинна мати доступ до сотень мільйонів документів, які заздалегідь були перекладені людьми. Такі документи слугують для системи шаблонами, на основі яких вона і здійснює переклад. Чим більше документів, тим вища ймовірність більш якісного перекладу.
На початку свого існування, з 2006 року, Google Translate базувався саме на статистичному методі машинного перекладу, і здійснений ним переклад був дуже низької якості, і вважався одним з найгірших варіантів перекладу, який може здійснити онлайн-перекладач. Сьогодні Google використовує «нейронний» метод МП і складає серйозну конкуренцію комерційним підприємствам, продукція яких не є безкоштовною.
«Нейронний» МП (Neural MT)
Даний підхід заснований на методі глибокого засвоєння інформації (deep learning).
Поглиблене навчання/Поглиблене засвоєння інформації (Deep learning)
(також відоме як глибоке структурне навчання або ієрархічне навчання) є частиною більш широкої групи методів машинного навчання, що базуються на інтерпретації результатів навчання, на відміну від алгоритмів конкретних завдань. Навчання може бути як керованим, так і некерованим.
Машинне навчання (Machine learning) — комп’ютерна наука, яка дає комп’ютерам можливість засвоювати інформацію без попереднього запрограмування на цю дію.
В останні роки «нейронний» МП відзначився стрімким розвитком своїх технологій, навіть компанія Google оголосила, що її перекладацькі сервіси на даний момент в переважній більшості використовують цей метод перекладу, аніж їх попередній статистичний метод.
Інші компанії включно з KantanMT, Omniscien Technologies та SDL також оголосили про подальше використання технології «нейронного» МП в 2017 році.
Останнім часом все більшої популярності набирає гібридний МП (Hybrid machine translation [HMT]).
ГМП використовує сильні сторони обох систем машинного перекладу, в результаті користувач отримує якісний переклад, який забезпечує RBMT та високу швидкість, яку надає статистичний метод.
Кілька компаній, які займаються МП, наприклад Omniscien Technologies (колишня Asia Online), LinguaSys, SYSTRAN, PROMT та інші, стверджують, що використовують саме гібридний вид МП.
Види гібридного МП різняться між собою:
Статистична корекція після виконання перекладу системою RBMT:
Спочатку переклади здійснюються системою RBMT, а після цього, з метою виправлення помилок або ж внесення власних корективів застосовується система статистичного МП.
Статистичний метод, що керується правилами:
Правила використовують для попередньої обробки даних, задля здійснення кращого управління статистичним механізмом. Правила також використовують для обробки даних після здійснення статистичного перекладу для виконання такої функції як нормалізація.
Цей метод перекладу має багато переваг: він є більш потужним, гнучким (тобто здійснює якісний переклад в багатьох сферах діяльності). Система також контролює процес обробки контенту як при здійсненні завчасного перекладу, (наприклад, розподілу вмісту та термінів що не перекладаються) так і після здійснення перекладу (корегування та виправлення).
Нещодавно, з появою нейронного МП, з’явилася нова версія гібридного МП, яка поєднує в собі переваги 3 видів машинного перекладу: RB, статистичного та нейронного. Такий підхід дозволяє користуватися перевагами NMT та SMT які в процесі перекладу контролюються правилами RBMT. Єдиним недоліком цієї системи перекладу є невід‘ємна складність такої роботи, яка робить його нагідним лише для специфічних випадків використання. Одним з прихильників такого методу для складних випадків — Omniscien Technologies.
Машинний переклад в Україні
За даними 2013 року, українського виробництва є одна система машинного перекладу — Trident Software.
Компанія Трайдент Софтвер була заснована в 1998 році. Відтоді було розроблено декілька лінійок продуктів — Language Master, L-Master 98 і Pragma. Останньою розробкою є Pragma 6.x для англійської, латиської, німецької, польської, російської, української, французької та казахської мов. Перекладач має 56 напрямів перекладу і підтримує близько 50 тематик. Розробники стверджують:
«Користувачами нашого програмного забезпечення є державні органи влади та урядові установи України, банківські структури, великі індустріальні і фінансові компанії, усі загальноосвітні школи України, а також малий бізнес і приватні особи як в Україні, так і по всьому світу».
На території України подальший прогрес у цій галузі навряд чи можна назвати перспективним.
Сучасні українські розробники мають великий потенціал, але більшість із них працюють на великі закордонні компанії. Більшість із них, якщо і стають розробниками незалежних програм із перекладу, то реєструють свої компанії за кордоном, тож їх неправильно називати українськими. Отже, в сфері машинного перекладу більшість пересічних громадян користуються сайтами та програмами іноземного виробництва.
Лідером серед систем МП є Google (Перекладач Google). Його безкоштовна система на базі «нейронного» МП (Нейронний машинний переклад Google) здатна здійснювати більш-менш якісний переклад зі 103 мов та надає доступ до аудіосупроводу (щоправда, він доступний не для всіх мов).