Статистический машинный перевод: дайте точку опоры!

Летом 1999 года на стене одной лаборатории в одном американском университете висело изображение древнего пергамента с японскими иероглифами. Под японской надписью значилась интригующая фраза на менее экзотичном английском…

Фраза эта гласила: «Для большинства людей это выглядит как тайный код. Тайные коды в большинстве случаев взламывают».

Этот рекламный плакат, висевший на стене в лаборатории статистического машинного перевода в Университете Джона Хопкинса (Johns Hopkins University), предсказывал скорое появления новой совокупности по «кличке» Decoder.

Тогда, во второй половине 90-ых годов двадцатого века, этим не занимался фактически никто. на данный момент доктор наук Кевин Найт (Kevin Knight), тогда возглавлявший изучения в Университете Джона Хопкинса, говорит, что надпись под пергаментом была пророческой.

Статистический способ автоматизированного перевода обогнал некогда превалировавшую, классическую разработку, которая только частично возможно назвать автоматической. В базе её лежат многоязычные словари, переводчики и которые программисты собирают вручную, и на базе которых потом «учат» программу, какое слово что свидетельствует — с учётом синтаксиса.

Подобные «словарные» разработки употребляются в совокупностях наподобие BabelFish и Translate.ru.

Потому, что их банки данных — фактически, словари, — были и являются поныне весьма массивными, раньше они были более действенными, нежели «статистические» переводчики.

Скриншот автоматического переводчика Translate.ru.

А новая разработка статистического машинного перевода разрешает создавать совокупности, каковые будут «щёлкать» тексты на самых различных языках.

Основное — это наличие «параллельных данных».

База для данной технологии была заложена ещё в конце 1980-х начале 1990-х годов — сотрудниками корпорации IBM. Как раз тогда в умные головы экспертов корпорации пришла весьма несложная идея: в случае если компьютеру «скормить» текст на английском, и его выполненный вручную перевод на другой язык, то машина, применяя статистический способ, «выучит» второй язык.

New York Times приводит следующий пример. Сравниваются две простые фразы на арабском (написано латиницей) — «rajl kabir» и «rajl tawil».

В случае если машина «знает», что первая фраза свидетельствует «большой человек», а вторая — «большой человек», то очевидная статистика разрешит машине осознать, что «rajl» свидетельствует «человек».

Подобные простые фразы носят название «N-граммы», и они считаются базисными элементами совокупностей машинного перевода.

Не смотря на то, что принцип думается несложным до примитивизма, у него имеется последовательность собственных «но». Во-первых, для полноценного «знания» второго языка требуется громадный массив данных — одним текстом не обойдёшься.

Во-вторых, для действенной работы таких совокупностей требовались компьютерные мощности, в начале 1990-х ещё недоступные. То же касается и ПО.

А на данный момент разные группы исследователей занимаются усовершенствованиями строения, возведённого на фундаменте методики IBM.

Таковой портрет выложил Кевин Найт на собственной домашней странице.

Статистический машинный перевод: дайте точку опоры!

К примеру, во всё том же Джоне Хопкинсе врач Дэвид Яровски (David Yarowski) и его команда занимаются разработкой совокупности, которая управлялась бы с текстами на таких языках, как узбекский, бенгальский, непальский а также клингоский — язык, на котором говорит раса клингонов, существ из сериала Star Trek.

Для «разработки» этого языка кроме того создан целый университет, умудрившийся перевести на данный язык Гамлета и «Библию».

Разработка всё та же: в случае если автоматическому переводчику дать «на съедение» тексты на двух языках, дальше он уже сможет переводить тексты самостоятельно в обе стороны.

Врач Яровкски считает, что в итоге ему и его сотрудникам удастся создать совокупность, которая будет управляться сходу с сотней языков. И не смотря на то, что грамматические структуры китайского и арабского, к примеру, языков еле поддаются статистическому анализу, согласно точки зрения Яровски, неприятность эта решаема, необходимо только время.

Подобным образом трудится разработка, созданная сотрудниками Южно-калифорнийского университета (University of Southern California), в частности, Францем Йозефом Охом (Franz Josef Och).

Доктор наук Дэвид Яровски (фото с сайта Jhu.edu).

Перефразируя Архимеда, Ох говорит: «Дайте мне достаточное количество параллельных данных, и через пара часов у вас будет двусторонняя совокупность перевода».

Совокупность Оха всецело игнорирует грамматические правила, и словари ей также не необходимы — а необходимо, как уже сообщено, много данных, к каким прилагаются статистические модели.

Нужно заявить, что в своё время так была расшифрована надпись на Розетском камне — базальтовой плите, отысканной армией Франции в Египте во второй половине 90-ых годов XVIII века. На данной плите находилась запись на трёх языках, одним из которых был греческий.

За счет того, что в греческой надписи упоминались имена «Клеопатра» и «Птолемей», удалось расшифровать иероглифическую египетскую надпись, и в итоге — фактически целый язык.

Дело Франсуа Шампольона, которому и в собственности пальма первенства в расшифровке надписи Розетского камня, живёт, процветает и автоматизируется.

12 — Введение в обработку естественного языка


Вы прочитали статью, но не прочитали журнал…

Читайте также: