Verbmobil: фіаско чи крок вперед?

Submitted by Sophijka on Sat, 06/11/2004 - 22:43

Коли починався Verbmobil — один з наймасштабніших проектів з машинного перекладу — багато хто був налаштований напрочуд оптимістично. Хоча, ходили також чутки, що керівники проекту відверто сказали інституціям, які фінансували проект, що, мовляв, надзвичайних результатів очікувати не варто. На що ті відповіли:"Байдуже, працюйте"...

Займатися машинним перекладом, а чи навіть говорити або писати про нього — справа невдячна. Поки одні посміхаються при згадці “системы Окон”, інші намагаються бодай на 1 відсоток покращити якість перекладу. Системи машинного перекладу справді складно розробляти — вони включають аналіз плюс генерацію тексту з врахуванням особливостей кожної з мов. Лінгвістичний аналіз є багаторівневим (від морфологічного рівня й до рівня дискурсу), т. зв. глибинним, а це означає, що найменша помилка на одному з рівнів аналізу може бути критичною для здійснення наступного. Помилки мають здатність “множитися” з рівня на рівень, і в результаті якість аналізу є такою, що про бажаний кінцевий результат — машинний переклад ніхто й не згадує. Втім, можна обійтися без “лінгвістичної інформації” та застосовувати лише статистичні методи. Це було зроблено на початку 60-х і результати не були втішними. До статистичних методів повернулися років за 30 — і тут багато дослідників були здивовані. IBM оприлюднило результати в межах проекту Candide (мови англійська-французька), які свідчили, що половина перекладених фраз була або абсолютно правильною (точний відповідник), або передає той же ж зміст, але іншими словами.

Verbmobil почався у 1993 і закінчився у 2000 році, об’єднавши при цьому 22 університети та 7 підприємств. З-поміж університетів більшість була німецьких, два —американських, одна група з Японії. Зацікавленими підприємствами виявилися Siemens, Philips, IBM та інші. Мови перекладу — англійська, німецька та японська. Причому, переклад не текстів, а мовлення, себто спершу слід було оцифрувати діалоги (а даними були невеликі діалоги з резервування готелів тощо), розпізнати слова та речення. Труднощі розпізнавання слів полягають у мугиканнях, хмиканнях, й що цікаво, виявилося, у розмовах люди часом повторювали одне й теж слово кілька разів підряд, або й взагалі говорили неграмотно. Для розпізнавання речень слід було враховувати інтонацію, що виконував просодичний модуль, який розпізнавав ймовірні фрази з точністю 93%.

Якщо в минулому багато проектів з машинного перекладу або базувалися на правилах, або використовували виключно статистичні методи, то у Verbmobil було вирішено застосувати гібридний підхід. Згенерувавши можливий переклад з застосуванням багаторівневого лінгвістичного аналізу та переклад з застосуванням статистичних методів, обирається найкращий. Важливим є не тільки підхід (деякі попередні системи перекладу використовували схожу ідею), а й оцінка результатів. За оцінками перекладачів, з 25000 перекладених прикладів 74,2% були перекладені правильно, як написано у звіті “завдяки поєднанню глибинного лінгвістичного аналізу зі статистичними методами”. Або, іншими словами, статистичні методи є простими у застосуванні, хоча переклад не завжди є влучним, а використання семантики вимагає багато часу, але продукує якісніший переклад. Але є учасники проекту, що стверджують — його “витягнули” саме статистичні методи. Тому особливо цікавим було б побачити детальні результати окремо по кожній з підсистем: тій, що використовувала лінгвістичний аналіз, і тій, котра використовувала статистичні методи. Цікаво, тому що вперше був виконаний глибинний аналіз для трьох мов — від розпізнавання слів та речень, і до семантики дискурсу, були використані сучасні формалізми, зокрема, в області синтаксису HPSG, дискурсу — теорія представлення дискурсу DRT. І, певна річ, важливим було б оцінити, наскільки здійснення й впровадження глибинного лінгвістичного аналізу покращують якість машинного перекладу.

Кінцевої мети — функціонуючої системи перекладу — досягти не вдалося. Щоправда, це не означає, що взагалі не було жодних презентацій — так, на виставці CeBIT у 1995 році було представлено демонстраційну версію Verbmobil, яка розпізнавала 1292 слова з області “домовленості та зустрічі” німецькомовних діалогів та на виході синтезувала англійський переклад; на CeBIT 1997 року — прототип Verbmobil 1.0, що розпізнавав діалоги на японській та ґенерував переклад на аглійську+уточнення німецькомовних діалогів (запити на кшталт:”Чи йшлося Вам про...?” тощо). Та й загалом, вважається, що цілі проекту були досягнуті — дослідження були виконані для трьох мов, в трьох областях з лексиконами понад 10000 словоформ. Була спроектована та реалізована двостороння система перекладу мовлення-мовлення (engl. speech-to-speech translation system), рівень розпізнавання слів при цьому становив більш, ніж 75%, якість перекладу біля 80% усіх прикладів, час опрацювання — в чотири рази більший, аніж тривалість вхідного сигналу.

Можна сперечатися про результати, отримані по закінченню проекту. Залишилися дані, котрі використовуються у розмаїтих дослідженнях й досі. Зосталися приємні враження учасників, адже в проекті брали участь усі університети, де хоча б одна людина займалася схожою тематикою, а це, як твердять учасники — неймовірний досвід. І ще — залишилася підозра, що статистика непереможна. Принаймні наразі. Або, як каже одна з вербмобілок — “Не думаю, що ми робимо щось кардинально не те. Мабуть, ми дивимося не під тим кутом”..

Sophijka's blog

Журнал "Інформаційні технології. Аналітичні матеріали"

Тематика

Розділи

Партнер

Recent comments

Verbmobil: фіаско чи крок вперед?

Реєстрація

Останні дописи

Новини у форматі RSS