Сейчас для того, чтобы прочитать страницу на иностранном языке, который не знаешь, не нужно обращаться в бюро переводчиков — давно уже работают онлайновые сервисы автоперевода. Конечно, переводят они не ахти как, но смысл текста чаще всего становится понятен. Какими средствами мы пользуемся сейчас? Наверняка многие ответят: Google Translate. Но теперь у него появилась альтернатива.
Это «Яндекс Перевод» — сервис Яндекса, который пока находится в стадии открытого бета-тестирования. Пока что доступен перевод текстов с трёх языков: английского, украинского и русского. В принципе, так же как и разработка Google, он базируется на изучении параллельных текстов, приведённых на нескольких языках, но делает это несколько по-другому, при подборе ориентируясь больше не на перевод отдельных слов, а на перевод определённых смысловых блоков. Вот как в Яндексе объясняют, что же собой представляет система:
«В системе машинного перевода Яндекса три основные части: модель перевода, модель языка и декодер.
Модель перевода — это таблица, в которой для всех известных системе слов и фраз на одном языке перечислены все возможные их переводы на другой язык и указана вероятность этих переводов (для каждой пары языков есть своя таблица). Модель перевода создаётся в три этапа: сначала подбираются параллельные документы, потом в них — пары предложений, а затем уже пары слов или словосочетаний.
Непосредственно переводом занимается декодер. Для каждого предложения исходного текста он подбирает все варианты перевода, сочетая между собой фразы из модели перевода, и сортирует их по убыванию вероятности. Например, пользователь захотел перевести фразу «to be or not to be». Допустим, из всех вариантов в модели перевода максимальная вероятность получилась у сочетания «быть или не бывает», сочетание «быть или не быть» оказалось с небольшим отрывом на втором месте и так далее. Все получившиеся варианты сочетаний декодер оценивает с помощью модели языка».
Давайте посмотрим на нескольких примерах, каким образом поведёт себя Google Translate и «Яндекс Перевод» — «скормим» ему три текста из разных категорий.
Художественный текст — выдержка из первой главы «Робинзона Крузо»:
I was born in the year 1632, in the city of York, of a good family, though not of that country, my father being a foreigner of Bremen, who settled first at Hull. He got a good estate by merchandise, and leaving off his trade, lived afterwards at York, from whence he had married my mother, whose relations were named Robinson, a very good family in that country, and from whom I was called Robinson Kreutznaer; but, by the usual corruption of words in England, we are now called — nay we call ourselves and write our name — Crusoe; and so my companions always called me.
Вариант Google Translate:
Я родился в год 1632 году в городе Йорк, из хорошей семьи, хотя и не из этой страны, мой отец был иностранцем, Бремен, которые поселились сначала в Халл. Он получил хорошее имение на товар, и высадка его торговли, жили потом в Йорке, откуда он женился на моей матери, чьи отношения были названы Робинсон, очень хорошая семья в этой стране, и от которых я был призван Робинсон Kreutznaer; Но, по обычной коррупции слов в Англии, мы теперь называется — нет, мы называем себя и писать наше имя — Крузо, и поэтому мои товарищи всегда называл меня.
Вариант «Яндекс Перевода»:
Я родился в 1632 году, в городе йорк, из хорошей семьи, хотя и не в этой стране, мой отец, будучи иностранцем бремена, которые поселились сначала в Корпус. Он получил хороший недвижимости на товар, и отказ от его торговли, жил потом в Нью-йорк, откуда он женился на моей матери, чьи отношения были по имени Робинсон, очень хорошая семья в этой стране, и от которых я был вызван Робинсон Kreutznaer; но, на обычной коррупции слов в англии, мы сейчас называют — нет, мы называем себя и написать наше имя — » Робинзону крузо», так и мои товарищи всегда называл меня.
Достаточно единообразно, но можно заметить различия — и, как это ни странно, не в пользу Яндекса. Если Google пишет географические названия с большой буквы, то Яндекс почему-то забывает. К тому же зачем-то переименовывает Йорк в Нью-Йорк, да и вообще предложения строит в основном более коряво.
Новость на CNN.com
A white cloud of smoke or steam rising above Japan’s Fukushima Daiichi nuclear plant on Wednesday may have been caused by a breach in the containment vessel in one of its reactors, government officials said.
Chief Cabinet Secretary Yukio Edano said a breach in the No. 3 reactor’s containment vessel — the steel and concrete shell that insulates radioactive material inside — may have brought about the smoke.
Вариант Google Translate:
белое облако дыма или пара, поднимающиеся над Фукусима Японии Daiichi атомной среду может быть вызвано нарушением в сдерживании судна в одном из своих реакторов, государственные чиновники.
Главный секретарь кабинета министров Японии Юкио Edano сказал нарушения в контайнмент № 3 реактора — сталь и бетон оболочку, которая изолирует радиоактивных материалов внутри — могла стать причиной дыма.
Вариант «Яндекс Перевода»:
Белое облако дыма или пара, возвышаясь над Японии Фукусима Daiichi аэс, в среду, возможно, было вызвано брешь в защитной оболочки реактора в одном из своих реакторов, правительственные чиновники.
Главный Секретарь Кабинета Юкио Edano сказал брешь в№ 3 реактора сдерживание судна- сталь и бетон, shell, которая изолирует радиоактивных материалов внутри, возможно, привели к дыма.
На этом, наверно, пока стоит закончить и сказать, что если вы пользовались Google Translate — пользуйтесь им и дальше. Хотя, учитывая, что «Яндекс Перевод» только запустили, возможно он не только догонит, но и перегонит своего конкурента (по крайней мере в вопросе перевода на русский язык), однако сейчас особых преимуществ у него нет.