Тысячеязычный поиск картинок объединяет смыслы в матрицу

Вписывая в поисковике картин Гугл слово «ключ» мы со вздохом начинаем пролистывать тысячи и тысячи изображений, каковые показывают нам всё что угодно, но лишь не мелкий родничок среди зелёной травы. Значение для того чтобы слова как «ключ» кроме того человек может осознать лишь по контексту.

Что же с данной проблемой делать машине? Думается, учёные нашли ответ.

Нам-то, русским, само собой разумеется, легче. В отечественном великом и могучем имеется хотя бы слово «родник», а вот в британском имеется лишь один перевод слова «ключ» — «spring» (а это слово кроме этого обозначает и время года, и железную спираль).

Вот и собрались программисты да лингвисты в центре имени Тьюринга (Turing Center), что в университете Вашингтона (University of Washington), и создали ПО для межъязыкового поиска картин, которое внедрили его во Глобальную паутину.

Новый многоязычный поисковик PanImages, сравнительно не так давно представленный на 11-м саммите машинного перевода (Machine Translation Summit XI) в Дании, разрешит людям искать картины в сети посредством более чем тысячи языков (действительно, в базе на данный момент порядка двух с половиной миллионов слов из более чем 300 языков, но это – не окончательный вариант совокупности).

Тысячеязычный поиск картинок объединяет смыслы в матрицу

PanImages додаёт новые слова в матрицу, которая разрешает перевести любое слово между двумя любыми языками в базе (иллюстрация University of Washington).

Такие поисковые машины, как Гугл, ищут картины по собранному слову, выявляя его в автографах к рисунку и окружающем тексте, а ещё — в заглавии файла. Но так как пользователь вписывает слово на своём родном языке, результаты поиска очень ограничены.

А ведь картины это не текстовые документы, каковые пользователь не в состоянии осознать из-за незнания языка.

PanImages (греческий префикс «пан» свидетельствует неспециализированный, общий) машинально переводит слово в строчке поиска и сортирует результаты в группы по языкам, ранжируя по количеству отысканных картин. После этого пользователь выбирает необходимый ему язык и просматривает отысканные при помощи Гугл картины и фото из сетевой базы Flickr (окно браузера делится на две части).

Такое вот фото холодильника (всего одно) представит вам Гугл, если вы в строчке поиска впишите «холодильник» по-зулусски («ifriji») (фото с сайта wikimedia.org).

PanImages призван прежде всего оказать помощь тем людям, каковые говорят на языках, мало представленных в сети, но он кроме этого облегчит поиск нужных картин и тем людям, каковые желают отыскать как раз то, что они ищут.

Так, при простого поиска британец не отыщет картины, помеченные тегами в китайских иероглифах, а датчанин – с британскими автографами.

«Гугл (один из лучших мировых сервисов поиска сейчас) предоставит вам не более десятка картин, если вы введёте слово, скажем, на зулусском языке. Одновременно с этим PanImages сгенерирует более 472 тысяч вариантов картин», — говорит Орен Этциони (Oren Etzioni), конструирования и профессор информатики вычислительной техники Вашингтонского университета, что кроме этого командует центром Тьюринга и управляет команду, трудящуюся над PanImages.

«Интернет делается всё более дешёвым, и не только в индустриальных государствах. В Сети появляются люди, каковые говорят не только на британском, французском и китайском языках», — додаёт Этциони.

Но и пользователи, говорящие на «главных» языках, извлекут пользу из нового продукта. Так как многие слова имеют пара значений и, как следствие, плодятся результаты поиска.

А PanImages предоставит вам таковой вот перечень, из которого вы выберете, на какой язык вы желаете перевести слово «холодильник» для поиска картины и перечень этих самых кадров и картинок (иллюстрация с сайта panimages.org).

Как мы уже говорили, к примеру, вы ищете картины, соответствующие британскому слову «spring». Простой поисковик предоставит вашему вниманию и идиллические картины зеленеющих лугов, и железные пружины, и бьющий из-под почвы ключ.

В случае если же вам необходимы изображения лишь железной пружины, то, воспользовавшись PanImages, вы имеете возможность выбрать более правильное французское значение этого слова «ressort».

Благодаря Орену Этциони нам сейчас не угрожают трудности перевода (фото University of Washington).

В другом случае, вписывая в строчок поисковика «rectangular bar», вам необходимо будет выбрать русское «брусок», дабы не терять время на фотографии напивающихся у барной стойки друзей.

Совершённые тесты малораспространённых языков продемонстрировали, что PanImages выдаёт в среднем в 57 раза больше результатов, чем обычный поиск по картинам в Гугл. К тому же применение правильных (на родном языке) формулировок разрешает расширить количество отвечающих запросу картин на первых 15 страницах на 75%.

«Мозги» PanImages создавались на базе 350 онлайн-словарей и нескольких сетевых многоязычных вики-словарей (Wiktionary), каковые пишутся добровольцами. Особое ПО называющиеся TransGraph сканирует их для PanImages и посредством собственного метода рассчитывает и контролирует, как совершенно верно то либо иное слово соответствует заданному (по смыслу).

После этого TransGraph собирает полученные результаты в матрицу, которая даёт возможность пользователю ресурса переводить слова в немыслимых, казалось бы, комбинациях, к примеру, с гуджарати на литовский. Подробности работы совокупности изложены тут (PDF-документ, 600 килобайт).

Фрагмент TransGraph для двух значений британского слова «spring».

Линии с цифрами 1 и 3 объединяют слова со значением «весна», линии 2 и 4 — со значением «пружина» (иллюстрация с сайта washington.edu).

База данных (и матрица, соответственно) всегда пополняется как авторами, так и пользователями. Они смогут додавать как новые слова, так и их перевод на другие языки (все дополнения проверяются).

«Отличительной изюминкой этого невиданного лексического ресурса есть перевод слов на самые различные мировые языки. Отечественной целью есть внесение в базу данных всех языков, каковые занимательны людям», — говорит Этциони.

Да, эту совокупность возможно в роли универсального словаря.

В общем, в случае если у вас нет неприятностей с поиском картин, и вы имеете возможность подобрать подходящую комбинацию слов полностью на любом языке, то PanImages вам не пригодится. Но таких полиглотов, как вы — мало (поздравляем!), так что авторы «Общих картин» сохраняют надежду, что их ресурс однако будет пользуется спросом, а для кого-то станет одним из самых нужных.

CamFind — Поиск по фотографии. Обзор AndroidInsider.ru


Вы прочитали статью, но не прочитали журнал…

Читайте также: