Posted by in Интервью |

Franz Josef Och — руководитель команды машинного перевода в компании Google и это именно тот человек, который стал “ударной силой” развития технологии Google Translate. Только не нужно сразу говорить, что мол переводчик от Google — это фигня фигней. Не забывайте, Google Translate используется на многих сайтах в качестве моментального перевода на ваш родной язык, и поверьте мне — это намного лучше, чем ничего. Разобраться с корявым русским переводом все же легче, чем с китайскими иероглифами, или вы поспорите с этим? Ну а теперь давайте почитаем интервью с данной личностью.

Как часто вы добавляете новые языки в словарь Google Translate?

Начиная с 2007 года процесс добавления новых языков стал привычным делом для моей команды. С запуском новых языков мы также обращаем внимание и на качество. Последние два с половиной года мы достигли рамки 52 разных языков и я думаю,  мы сделали довольно неплохой шаг вперед в улучшении технологии машинного перевода.

Последний язык, который мы добавили был Haitian Creole. Честно скажу, мне самому довольно необычно осознавать, что мы можем использовать технологии машинного перевода для таких маленьких языков. Если бы вы спросили меня три года назад, когда появятся Haitian Creole, или Yiddish, я бы наверняка ответил, что в далеком далеком будущем, либо вообще никогда. Но сейчас, благодаря интернету и возможности достать практическую любую информацию с помощью разных алгоритмов, мы можем создавать системы машинного перевода и для маленьких языков и заставляем их работать довольно хорошо.

Как это вообще возможно, сделать систему для языка Yiddish, ведь в нем нет особого текста, чтобы забить базу в инструмент перевода?

Во первых, Yiddish очень похож на немецкий язык и имеет сходство с некоторыми словами Hebrew и польского языков. Для этих языков у нас есть огромная база текстов. Что мы делаем, так это изучаем особенности языков, которые у нас есть, а потом составляем базу для Yiddish.

Как компания Google сумела предвидеть (на таких ранних этапах), что перевод веба будет очень востребованным?

Интервью с создателем Google TranslateЯзыковый барьер — действительно большая проблема для процесса коммуникации. Это особенно выражено в регионах, где практически нереально найти достаточное количество информации на своем родном языке, в то время, когда на другом — есть практически все. Такой язык как Арабский, где только 1% информации в интернете предоставляется на арабском, создает преграду для населения узнать больше. Наша идея довольно проста — с помощью технологий разрушить ограничения в интернете, но вот сможем ли мы это сделать? Каждый имеет право пользоваться информацией в интернете.

Когда я стал работать в Google, Я позвонил Larry и высказал свою идею по поводу перевода сети. Я аргументировал свои домыслы тем, что кому как не поисковой системе это нужно больше всего. Чем больше людей сможет понимать язык информации, тем больше будет пользователей и самой поисковой системы. Он сказал, что это одна из самых главных миссий компании.

Идеальным будет следующая модель: если человека интересует какой-то вопрос и он вводит его на своем родном языке, результат выдачи должен быть многогранным. То есть, если не было найдено подходящего ответа например в русском Google, то мы должны направить на решение задачи в переводе с английского языка. Надеюсь, я не запутал вас.

Как близко вы приближаетесь к достижению такой цели?

Ну это сложный вопрос. В некоторой степени, мы уже сделали некий прогресс, ведь сейчас подходящее время для исследования науки машинного перевода. Судя по статистике, все больше и больше людей используют машинный перевод в интернете и это помогает им открывать совершенно новые просторы. Но с другой стороны, мы знаем, что у нас еще есть много проблем и задач в будущем. На данный момент мы работаем над качеством перевода машинных программ.

Таким образом, моя работа довольно таки долгосрочная. На протяжении многих лет будет что изменять и над чем работать. Хочется отметить, что для некоторых языков (испанский и португальский) качество машинного перевода достигло солидного уровня. Но вот с маленькими языками еще нужно работать и работать. Это будет “бесконечный” процесс улучшения.

Когда вы тестируете переводчик, вам нужно иметь так званные параллельные тексты, где есть как минимум два языка. Где вы достаете все эти формы?

Когда мы только начинали создавать нужную базу, мы брали стандартные формы, которые любезно предоставлял Linguistic Data Consortium — институт лингвистических исследований. Потом мы поняли, что есть такая потрясающая организация как Лига Наций, где каждый документ переведен на 6 языков. Перевод документов на таком уровне осуществляется  очень профессиональном людьми, поэтому мы почерпнули много полезного из предоставляемых переводов.

Но с другой стороны, это и эффект “веба”. Все документы, которые есть в интернете в той или иной степени, являются переводом друг друга.  Безусловно, качество перевода в некоторых случаях оставляет желать лучшего, но это и есть интересная задача для нас. Мы стараемся устранить самые дефектные переводы и оставить только самые адекватные.

Наши алгоритмы, практически все мои — это именно то, что делает перевод лучше.

Это некий тип аналогий, который используется пауком Google для считывания веб страниц?

Очень похоже на то. У нас есть два типа поисковых пауков: один отвечает за индексацию страниц в интернете, другой за наличие текстов, которые включают перевод. Задача второго — это попытаться найти тексты, которые были переведены на другой язык и найти соответственный адекватный перевод слов.

Вы используете информацию из книг Google как источник хорошего перевода?

Безусловно, книги являются хорошим источником полезной информации для машинного перевода. Классические произведения были переведены на несколько языков мира и перевод этот уж очень высокого качества. Но в каждом языке есть своя специфика, поэтому использовать все — будет просто  неправильно. Мы подстраиваемся под каждый язык индивидуально. Отвечая на ваш вопрос — да, мы используем книги.

Версия для Андроида программы Google Translate позволяет пользователю проговорить слово, а потом автоматически переводит его. Как работает эта система?

Способ, которым мы распознаем речь, очень похож на принцип работы простого электронного переводчика. В основе обеих методов лежит ну просто громадный объем информации. Для машинного перевода нам нужно иметь перевод, для распознавания речи — специальные сигналы, которые есть в базе и сформированы по принципу транскрипции. Чем больше у нас есть транскрипции слов, тем лучше будет качество распознавания.

Это практически шаг в перед, в мир перевода в реальном времени, а-ля универсальный переводчик «Star Trek’s»?

У нас есть все необходимое оборудование и ресурсы, чтобы повысить уровень распознавания речи и машинного перевода  до новых, невиданных ранее, рубежей. Все это дело времени, друзья, дело времени…

*Перевод статьи с Los Angeles Times, специально для lingvotutor.Ru