Классический перевод Машинный перевод

Машинный перевод (МП) — преобразование текста (как письменного, так и устного) с одного естественного языка в эквивалентный по содержанию текст на другом естественном языке при помощи компьютерной программы, а также результат такого действия.

Какие бы смешанные чувства ни вызывал у нас машинный перевод с момента его зарождения и массового внедрения (особенно «эффектно» смотрятся этикетки товаров китайского производства с мультипереводом), его использование — неизбежная тенденция, реальность, с которой рано или поздно придется столкнуться каждому переводчику.

Следует различать машинный (Machine Translation, MT) и автоматизированный (machine-aided, machine-assisted translation — MAT) перевод. Если первый предполагает выполнение непосредственно перевода текста машиной, где человеку отводится лишь функция пред-, интер- или пост-редактирования, то во втором случае компьютерная программа помогает человеку перевести текст. Переводчик в этом случае может использовать в своей работе компьютерные словари определённой тематики, а также прибегать к помощи технологии TM (Translation Memory), работающей по принципу накопления базы данных: в процессе перевода сохраняется исходный фрагмент текста (это может быть отраслевой термин, устоявшееся словосочетание и даже целое предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному фрагмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Но именно переводчик принимает решение, что делать с фрагментом текста: редактировать, отклонить или принять предлагаемый перевод. При этом результат принятого решения сохраняется системой автоматически.

Краткая история машинного перевода

Первые механические системы перевода были запатентованы в СССР и Франции (независимо друг от друга) в 1933 г., т.е. еще до появления компьютеров в привычном для нас понимании. Устройства эти нельзя было назвать успешными, но военные конфликты в начале XX века подстегнули разработки в области развития электронно-вычислительных машин (ЭВМ), ориентированных прежде всего на расшифровку перехваченных от противника сообщений, а также для расчёта баллистических таблиц стрельбы.

Идея использовать именно компьютер для выполнения перевода была впервые высказана 4 марта 1947 г. специалистом по криптографии Уорреном Уивером (Warren Weaver, во время Второй мировой войны он как раз работал шифровальщиком), по праву считающимся одним из пионеров машинного перевода. В своём письме Норберту Винеру (Norbert Wiener — математик, основоположник кибернетики и теории искусственного интеллекта, который в том году заканчивал главный труд своей жизни — книгу «Кибернетика, или управление и связь в животном и машине») Уивер впервые поставил задачу машинного перевода, сравнив её с задачей дешифровки сообщений. Чуть позже, в 1949 г., Уивер составил меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода.

«I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text».

«Когда я вижу текст на русском языке, я говорю себе, что на самом деле он написан по-английски и зашифрован при помощи странных знаков. И мне надо его просто расшифровать».

— Уоррен Уивер, из письма Норберта Виннеру, 1949 г.

В 1952 г. в Массачусетском технологическом институте (MIT) состоялась первая конференция, посвященная машинному переводу. Организовал её другой пионер и штатный исследователь проблем машинного перевода MIT, израильский философ, математик и лингвист Йегошуа Бар-Хиллел. Примечательно, что позже, в 1960 г., он выразит своё сомнение в том, что выполнение высококачественного автоматического перевода естественного языка — вообще достижимая цель. Вместо математических методов, лежащих в основе дешифровки, на конференции обсуждались в основном способы описания правил и словарей для естественных языков (прежде всего английского). Такой подход позже будет назван RBMT (Rule-based Machine Translation — машинный перевод на основе правил).

7 января 1954 г. американцами была продемонстрирована первая в мире действующая программа машинного перевода — IBM Mark II Automatic Language Translator (запускалась на мейнфрейме IBM 701), разработанная совместно фирмой IBM и Джорджтаунским университетом. На глазах у изумлённой публики зрителей машина смогла перевести 49 (по другим данным — 60) заранее отобранных предложений с русского на английский язык, используя словарь всего из 250 слов и грамматику, состоящую из 6 синтаксических правил. Несмотря на несовершенство использовавшейся системы (примеры для перевода были тщательно подобраны и протестированы, чтобы исключить любую неоднозначность), это событие, названное в честь университета «Джорджтаунским экспериментом», получило довольно широкий резонанс в мире: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и в СССР. Леон Достерт (Léon Dostert — филолог, переводчик президента Дуайта Эйзенхауэра, один из создателей модели синхронного перевода) заявил тогда: «В течение трёх-пяти лет проблема машинного перевода будет решена».

В 1964 г. по инициативе правительства США была создана комиссия ALPAC (Automatic Language Processing Advisory Committee — консультативная комиссия по автоматической обработке языка). А уже в 1966 г. ALPAC публикует свой знаменитый отчёт, в котором называет машинный перевод дорогим, неточным и бесперспективным. Это приводит к прекращению государственного финансирования. Доклад существенно затормозил развитие машинного перевода в целом. Так сказать, первый гвоздь в крышку гроба был успешно вколочен.

В 1968 г. компания Systran начинает разрабатывать для ВВС США систему машинного перевода SYSTRAN (SYStem TRANslation). В условиях холодной войны первой языковой парой становится русско-английская, а уже в 1973 г. специально для совместного проекта США и СССР «Союз-Аполлон» Sytran создал англо-русскую пару. К началу зарождения глобальной сети Интернет система SYSTRAN приобрела чрезвычайную популярность: её использовали в NASA, Еврокомиссии, Yahoo! и Google (вплоть до 2003 года).

В 1990 г. на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROject of Machine Translation, иногда также расшифровывается как PROgrammer’s Machine Translation). На фоне успеха в 1991 г. в Санкт-Петербурге бывшими сотрудниками лаборатории инженерной лингвистики ЛГПИ им. А. И. Герцена основана компания «Промт» (ЗАО «ПРОект МТ»). Уже через год фирма выиграла тендер NASA на поставку систем машинного перевода с английского языка на русский. Первоначально в основе перевода PROMT лежала технология на основе правил (RBMT). Этот подход был усовершенствован за счет использования семантических сетей и получил название Аналитический машинный перевод PROMT. Со временем в программе стали применяться и другие технологии, например, статистический машинный перевод (SMT).

В 1992 г. выпущена система автоматизированного перевода Trados немецкой фирмы Trados GmbH, позже приобрётенной британской SDL International, вследствие чего программа стала называться SDL Trados Studio. На сегодняшний день это один из мировых лидеров в классе систем Translation Memory.

6 марта 1998 года компания PROMT запускает первый российский сервис бесплатного онлайн-перевода Translate.ru. Качество перевода онлайн-переводчиков часто становилось предметом шуток, но, несмотря на большое количество смешных переводов, общий смысл текста, переведённого с помощью алгоритмов машинного перевода, почти всегда понятен.

В начале 1990-х годов фирма IBM проводит исследования, положившие начало статистическому машинному переводу (SMT), основываясь на концепциях «word alignment models» (всего их было пять: IBM Model 1–5). Это позволяет отказаться от запоминания машиной лингвистических правил и переключиться на анализ статистических закономерностей в корпусах параллельных текстов на разных языках.

В 2004 г. компания Google решается отказаться от Systran и создать свой, принципиально новый переводчик на основе статистики без использования грамматики и словарей (все действующие на то время коммерческие системы перевода основывались на правилах). Для создания такой системы требуется довольно большой параллельный корпус текстов. Машина анализирует, какие сопоставленные фрагменты текста (униграмма, биграммы, триграммы) встречаются чаще всего вместе в исходном тексте и в переводе, и строит для нового предложения наиболее вероятное предложение-перевод. Этот подход назвали SMT (Statistical Machine Translation) — статистический машинный перевод. В 2006 г. Google-переводчик на основе статистики наконец-то был представлен широкой публике.

В 2009 г. компания Яндекс объявляет о запуске автоматического перевода найденных зарубежных сайтов на русский язык с применением технологии PROMT. В поиске поддерживается перевод с пяти языков — английского, немецкого, испанского, итальянского и французского.

В 2016 г. компания Google запустила переводчик на основе нейронных сетей (GNMT — Google Neural Machine Translation), который сразу показал значительное улучшение качества переведённых текстов. Перевод осуществлялся между девятью языками, русский влился в эту когорту годом спустя.

В сентябре 2021 г. Яндекс добавил автоматический перевод любых англоязычных видео в YouTube и других сервисах в «Яндекс.Браузере». Процесс перевода занимает несколько минут: пользователям доступно два голоса — женский (помощника «Алиса») и мужской. Перевод роликов происходит в несколько этапов: распознавание речи, превращение её в текст и разбивка на предложения с помощью нейросетей. Затем алгоритмы определяют пол говорящего, переводят предложения на русский язык и синтезируют голос, после чего совмещают перевод с видеорядом.

Проблемы машинного перевода

Ошибки машинного перевода в основном обусловлены тем, что компьютер не может думать образами и не имеет возможности оперировать реалиями разных культур и эпох так, как это способен делать человеческих мозг.

Метод статистического перевода подвержен аномалиям, т.е. выдаче неожиданных результатов, обусловленных несбалансированностью обучающих наборов данных. Также он обычно хуже работает для языковых пар со значительно различающимся порядком слов. Это отчасти объясняется тем, что промежуточным языком перевода всегда выступает английский — если нужно перевести, скажем, с арабского на французский, то создаются две языковые пары, применяемые к тексту последовательно: арабский/английский и английский/французский.

Каждая технология машинного перевода лучше работает при определенных условиях, например, нейронный перевод плохо справляется с короткими фразами, в то время как статистический перевод вполне успешно решает эту задачу. Именно поэтому многие современные системы перевода используют гибридные технологии перевода: PROMT Neural, представленный в 2019 г., объединяет нейросетевой подход (NMT) и подход на основе правил (RBMT), а алгоритм анализирует текст и решает, какая технология лучше подходит для перевода того или иного фрагмента текста. Схожим образом поступает и Яндекс.Переводчик, но вместо RBMT он использует статистический подход (SMT) и разработанный Яндексом алгоритм машинного обучения CatBoost для принятия окончательного решения выбора лучшего перевода.

Достоинства и недостатки машинного перевода

Одним из главных преимуществ машинного перевода является его скорость выполнения: в промышленном масштабе даже профессиональный переводчик уступит машине в производительности труда. Ещё одним преимуществом можно назвать универсальность направления перевода, т.е. максимальный охват языковых пар. И если раньше неоспоримым преимуществом профессионального переводчика была возможность полноценно задействовать свой накопленный опыт в конкретной предметной области и, опираясь на контекст, решить, как поступить при переводе текста в неопределенной ситуации, то теперь и машины постепенно научились выполнять перевод не «в лоб» по строго заданным правилам, а исходя из ряда факторов и контекста, накапливая раз за разом примеры правильных переводов в своей базе данных.

Основной недостаток машинного перевода, неотступно преследующий эту технологию с самого её зарождения — это низкое качество, особенно в художественной сфере. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом ключе (различные описания и руководства) и официально-деловом стиле.

Вопрос о том, какие типы документов подходят для машинного перевода, а какие в принципе никогда не будут предназначены для него, остается насущным: ситуация меняется чуть ли не каждый день. На текущий момент вряд ли стоит доверять машине тексты, где неточность перевода может поставить под угрозу здоровье людей, функционирование сложных устройств или подставить под удар крупную сделку с заказчиком — с экономической точки зрения всё это будет неоправданно рискованным. С другой стороны, уже известны примеры, когда составление типовых юридических документов отдаётся на откуп искусственному интеллекту (в качестве примера можно привести тот же Сбербанк). Тем не менее, проблема целесообразности применения технологий искусственного интеллекта, в частности нейронного машинного перевода, явно шире и заключается, прежде всего, в делегировании полномочий и разграничении ответственности в результате совместной деятельности человека и машины.

Не представляется возможным эффективно использовать операциональный язык до конца в качестве орудия перевода в сфере языков дискурсивных — мыслительных. Либо машины будут действовать «понимающе», либо по-настоящему эффективных машин-переводчиков не будет вовсе.

— Станислав Лем, «Сумма технологий» (1963 г.)