Verbmobil: фіаско чи крок вперед?
Коли починався Verbmobil — один з наймасштабніших проектів з машинного перекладу — багато хто був налаштований напрочуд оптимістично. Хоча, ходили також чутки, що керівники проекту відверто сказали інституціям, які фінансували проект, що, мовляв, надзвичайних результатів очікувати не варто. На що ті відповіли:"Байдуже, працюйте"...
Займатися машинним перекладом, а чи навіть говорити або писати про нього — справа невдячна. Поки одні посміхаються при згадці “системы Окон”, інші намагаються бодай на 1 відсоток покращити якість перекладу. Системи машинного перекладу справді складно розробляти — вони включають аналіз плюс генерацію тексту з врахуванням особливостей кожної з мов. Лінгвістичний аналіз є багаторівневим (від морфологічного рівня й до рівня дискурсу), т. зв. глибинним, а це означає, що найменша помилка на одному з рівнів аналізу може бути критичною для здійснення наступного. Помилки мають здатність “множитися” з рівня на рівень, і в результаті якість аналізу є такою, що про бажаний кінцевий результат — машинний переклад ніхто й не згадує. Втім, можна обійтися без “лінгвістичної інформації” та застосовувати лише статистичні методи. Це було зроблено на початку 60-х і результати не були втішними. До статистичних методів повернулися років за 30 — і тут багато дослідників були здивовані. IBM оприлюднило результати в межах проекту Candide (мови англійська-французька), які свідчили, що половина перекладених фраз була або абсолютно правильною (точний відповідник), або передає той же ж зміст, але іншими словами.
Verbmobil почався у 1993 і закінчився у 2000 році, об’єднавши при цьому 22 університети та 7 підприємств. З-поміж університетів більшість була німецьких, два —американських, одна група з Японії. Зацікавленими підприємствами виявилися Siemens, Philips, IBM та інші. Мови перекладу — англійська, німецька та японська. Причому, переклад не текстів, а мовлення, себто спершу слід було оцифрувати діалоги (а даними були невеликі діалоги з резервування готелів тощо), розпізнати слова та речення. Труднощі розпізнавання слів полягають у мугиканнях, хмиканнях, й що цікаво, виявилося, у розмовах люди часом повторювали одне й теж слово кілька разів підряд, або й взагалі говорили неграмотно. Для розпізнавання речень слід було враховувати інтонацію, що виконував просодичний модуль, який розпізнавав ймовірні фрази з точністю 93%.
Якщо в минулому багато проектів з машинного перекладу або базувалися на правилах, або використовували виключно статистичні методи, то у Verbmobil було вирішено застосувати гібридний підхід. Згенерувавши можливий переклад з застосуванням багаторівневого лінгвістичного аналізу та переклад з застосуванням статистичних методів, обирається найкращий. Важливим є не тільки підхід (деякі попередні системи перекладу використовували схожу ідею), а й оцінка результатів. За оцінками перекладачів, з 25000 перекладених прикладів 74,2% були перекладені правильно, як написано у звіті “завдяки поєднанню глибинного лінгвістичного аналізу зі статистичними методами”. Або, іншими словами, статистичні методи є простими у застосуванні, хоча переклад не завжди є влучним, а використання семантики вимагає багато часу, але продукує якісніший переклад. Але є учасники проекту, що стверджують — його “витягнули” саме статистичні методи. Тому особливо цікавим було б побачити детальні результати окремо по кожній з підсистем: тій, що використовувала лінгвістичний аналіз, і тій, котра використовувала статистичні методи. Цікаво, тому що вперше був виконаний глибинний аналіз для трьох мов — від розпізнавання слів та речень, і до семантики дискурсу, були використані сучасні формалізми, зокрема, в області синтаксису HPSG, дискурсу — теорія представлення дискурсу DRT. І, певна річ, важливим було б оцінити, наскільки здійснення й впровадження глибинного лінгвістичного аналізу покращують якість машинного перекладу.
Кінцевої мети — функціонуючої системи перекладу — досягти не вдалося. Щоправда, це не означає, що взагалі не було жодних презентацій — так, на виставці CeBIT у 1995 році було представлено демонстраційну версію Verbmobil, яка розпізнавала 1292 слова з області “домовленості та зустрічі” німецькомовних діалогів та на виході синтезувала англійський переклад; на CeBIT 1997 року — прототип Verbmobil 1.0, що розпізнавав діалоги на японській та ґенерував переклад на аглійську+уточнення німецькомовних діалогів (запити на кшталт:”Чи йшлося Вам про...?” тощо). Та й загалом, вважається, що цілі проекту були досягнуті — дослідження були виконані для трьох мов, в трьох областях з лексиконами понад 10000 словоформ. Була спроектована та реалізована двостороння система перекладу мовлення-мовлення (engl. speech-to-speech translation system), рівень розпізнавання слів при цьому становив більш, ніж 75%, якість перекладу біля 80% усіх прикладів, час опрацювання — в чотири рази більший, аніж тривалість вхідного сигналу.
Можна сперечатися про результати, отримані по закінченню проекту. Залишилися дані, котрі використовуються у розмаїтих дослідженнях й досі. Зосталися приємні враження учасників, адже в проекті брали участь усі університети, де хоча б одна людина займалася схожою тематикою, а це, як твердять учасники — неймовірний досвід. І ще — залишилася підозра, що статистика непереможна. Принаймні наразі. Або, як каже одна з вербмобілок — “Не думаю, що ми робимо щось кардинально не те. Мабуть, ми дивимося не під тим кутом”..
Recent comments
13 years 11 weeks ago
13 years 13 weeks ago
13 years 47 weeks ago
14 years 2 weeks ago
14 years 40 weeks ago
15 years 11 weeks ago
15 years 17 weeks ago
15 years 22 weeks ago
15 years 25 weeks ago
15 years 39 weeks ago