Verbmobil: фіаско чи крок вперед?

Коли починався Verbmobil — один з наймасштабніших проектів з машинного перекладу — багато хто був налаштований напрочуд оптимістично. Хоча, ходили також чутки, що керівники проекту відверто сказали інституціям, які фінансували проект, що, мовляв, надзвичайних результатів очікувати не варто. На що ті відповіли:"Байдуже, працюйте"...

Займатися машинним перекладом, а чи навіть говорити або писати про нього — справа невдячна. Поки одні посміхаються при згадці “системы Окон”, інші намагаються бодай на 1 відсоток покращити якість перекладу. Системи машинного перекладу справді складно розробляти — вони включають аналіз плюс генерацію тексту з врахуванням особливостей кожної з мов. Лінгвістичний аналіз є багаторівневим (від морфологічного рівня й до рівня дискурсу), т. зв. глибинним, а це означає, що найменша помилка на одному з рівнів аналізу може бути критичною для здійснення наступного. Помилки мають здатність “множитися” з рівня на рівень, і в результаті якість аналізу є такою, що про бажаний кінцевий результат — машинний переклад ніхто й не згадує. Втім, можна обійтися без “лінгвістичної інформації” та застосовувати лише статистичні методи. Це було зроблено на початку 60-х і результати не були втішними. До статистичних методів повернулися років за 30 — і тут багато дослідників були здивовані. IBM оприлюднило результати в межах проекту Candide (мови англійська-французька), які свідчили, що половина перекладених фраз була або абсолютно правильною (точний відповідник), або передає той же ж зміст, але іншими словами.

Verbmobil почався у 1993 і закінчився у 2000 році, об’єднавши при цьому 22 університети та 7 підприємств. З-поміж університетів більшість була німецьких, два —американських, одна група з Японії. Зацікавленими підприємствами виявилися Siemens, Philips, IBM та інші. Мови перекладу — англійська, німецька та японська. Причому, переклад не текстів, а мовлення, себто спершу слід було оцифрувати діалоги (а даними були невеликі діалоги з резервування готелів тощо), розпізнати слова та речення. Труднощі розпізнавання слів полягають у мугиканнях, хмиканнях, й що цікаво, виявилося, у розмовах люди часом повторювали одне й теж слово кілька разів підряд, або й взагалі говорили неграмотно. Для розпізнавання речень слід було враховувати інтонацію, що виконував просодичний модуль, який розпізнавав ймовірні фрази з точністю 93%.

Якщо в минулому багато проектів з машинного перекладу або базувалися на правилах, або використовували виключно статистичні методи, то у Verbmobil було вирішено застосувати гібридний підхід. Згенерувавши можливий переклад з застосуванням багаторівневого лінгвістичного аналізу та переклад з застосуванням статистичних методів, обирається найкращий. Важливим є не тільки підхід (деякі попередні системи перекладу використовували схожу ідею), а й оцінка результатів. За оцінками перекладачів, з 25000 перекладених прикладів 74,2% були перекладені правильно, як написано у звіті “завдяки поєднанню глибинного лінгвістичного аналізу зі статистичними методами”. Або, іншими словами, статистичні методи є простими у застосуванні, хоча переклад не завжди є влучним, а використання семантики вимагає багато часу, але продукує якісніший переклад. Але є учасники проекту, що стверджують — його “витягнули” саме статистичні методи. Тому особливо цікавим було б побачити детальні результати окремо по кожній з підсистем: тій, що використовувала лінгвістичний аналіз, і тій, котра використовувала статистичні методи. Цікаво, тому що вперше був виконаний глибинний аналіз для трьох мов — від розпізнавання слів та речень, і до семантики дискурсу, були використані сучасні формалізми, зокрема, в області синтаксису HPSG, дискурсу — теорія представлення дискурсу DRT. І, певна річ, важливим було б оцінити, наскільки здійснення й впровадження глибинного лінгвістичного аналізу покращують якість машинного перекладу.

Кінцевої мети — функціонуючої системи перекладу — досягти не вдалося. Щоправда, це не означає, що взагалі не було жодних презентацій — так, на виставці CeBIT у 1995 році було представлено демонстраційну версію Verbmobil, яка розпізнавала 1292 слова з області “домовленості та зустрічі” німецькомовних діалогів та на виході синтезувала англійський переклад; на CeBIT 1997 року — прототип Verbmobil 1.0, що розпізнавав діалоги на японській та ґенерував переклад на аглійську+уточнення німецькомовних діалогів (запити на кшталт:”Чи йшлося Вам про...?” тощо). Та й загалом, вважається, що цілі проекту були досягнуті — дослідження були виконані для трьох мов, в трьох областях з лексиконами понад 10000 словоформ. Була спроектована та реалізована двостороння система перекладу мовлення-мовлення (engl. speech-to-speech translation system), рівень розпізнавання слів при цьому становив більш, ніж 75%, якість перекладу біля 80% усіх прикладів, час опрацювання — в чотири рази більший, аніж тривалість вхідного сигналу.

Можна сперечатися про результати, отримані по закінченню проекту. Залишилися дані, котрі використовуються у розмаїтих дослідженнях й досі. Зосталися приємні враження учасників, адже в проекті брали участь усі університети, де хоча б одна людина займалася схожою тематикою, а це, як твердять учасники — неймовірний досвід. І ще — залишилася підозра, що статистика непереможна. Принаймні наразі. Або, як каже одна з вербмобілок — “Не думаю, що ми робимо щось кардинально не те. Мабуть, ми дивимося не під тим кутом”..

Post new comment

Ця інформація зберігається приватно і не буде оприлюднена.
  • Allowed HTML tags: <h1> <h2> <h3> <h4> <h5> <h6> <address> <em> <strong> <code> <del> <cite> <acronym> <blockquote> <q> <sub> <p> <br> <pre> <ul> <ol> <li> <dl> <dt> <dd> <a> <b> <u> <i> <table> <tr> <td> <th> <div> <sup><hr> <img>
  • Glossary terms will be automatically marked with links to their descriptions.
  • Lines and paragraphs break automatically.

More information about formatting options

CAPTCHA
This question is for testing whether you are a human visitor and to prevent automated spam submissions.
  .d8888b.   888                 888     8888888b.   888    d8P             888       888 
d88P Y88b 888 888 888 "Y88b 888 d8P 888 o 888
Y88b. d88P 888 888 888 888 888 d8P 888 d8b 888
"Y88888" 88888b. 88888b. 888888 888 888 888d88K 8888b. 888 d888b 888
.d8P""Y8b. 888 "88b 888 "88b 888 888 888 8888888b "88b 888d88888b888
888 888 888 888 888 888 888 888 888 888 Y88b .d888888 88888P Y88888
Y88b d88P 888 888 888 d88P Y88b. 888 .d88P 888 Y88b 888 888 8888P Y8888
"Y8888P" 888 888 88888P" "Y888 8888888P" 888 Y88b "Y888888 888P Y888
888
888
888
Enter the code depicted in ASCII art style.

© Інформаційні технології. Аналітика , Рідна Мережа