New york times запустила масштабный краудсорсинг-проект по рекламе
New York Times запустила краудсорсинг-проект для распознавания и оцифровки рекламы из ветхих выпусков газеты. Проект, называющиеся Madison, требует у пользователей просмотреть архивы ветхих газет и указать, есть ли определенный участок на полосе рекламой, что на нем рекламируется, и расшифровать текст.
Краудсорсинг-платформа New York Times демонстрирует пользователю выделенный участок газетной полосы и дает ему маленькие задания. В частности, пользователя смогут попросить указать, сколько рекламных объявлений выделено, выявить текст и т.д.
Чтобы увлечь пользователей, у процесса имеется игровые элементы: к примеру, в зависимости от того какое количество объявлений окажет помощь выявить пользователь, ему присуждаются титулы. В случае если изначально он всего лишь «читатель», то скоро делается «искателем».
Любой пользователь интернета, когда-либо пользовавшийся разработкой Captcha, дабы доказать, что он не бот, делал задания, подобные предлагаемым Madison. Captcha, возможно, самый популярный краудсорсинг-проект для распознавания печатного текста.
Слова в Captcha забраны из ветхих книг, изданий и других печатных изданий, каковые были оцифрованы, но тексты в которых сложно выявить при помощи компьютера.
«Madison приглашает людей определить о серьёзной части отечественной культурной истории», — говорит арт-директор лаборатории New York Times по развитию и исследованиям Алексис Ллойд.
«До тех пор пока Madison включает лишь рекламные объявления из всех номеров New York Times 60-х годов, но скоро проект будет расширен. Собрав информацию о рекламе 60-х, проект перейдет к печатной рекламе другого десятилетия», — говорит Ллойд.
60-е были выбраны частично из-за интереса пользователей к сериалу «Безумцы», главные храбрецы которого трудятся в рекламном агентстве именно в это время времени.
Madison близок к второму проекту New York Times — TimesMachine, полному электронному архиву ветхих выпусков газеты с 1851 по 1980 год. Изначально в том месте возможно было лишь просматривать страницы, но этим летом проект обновился и пользователи взяли возможность осуществлять поиск по главным словам и по изображениям.
Ранее личный проект по оцифровке ветхих газет был и у корпорации Гугл. News Archive был официально запущен в 2008 году, но сканирование изданий производилось задолго до этого, начиная с 2006 года.
В ходе проекта было оцифровано около 3,5 млн выпусков более чем 2 тыс. газет, включая The Вашингтон Пост, The New York Times и The London Advertiser.
Война правок
В связи со сложной политической обстановкой около онлайн-энциклопедии Wikipedia развернулась настоящая информационная война. «Газета.Ru»…
Архивы ветхих изданий и по сей день дешёвы на сайте News Archive, но компания прекратила прием файлов и микрофильмов для принятие участия в проекте. на данный момент компания развивает интерфейс проекта чтобы пользователям было эргономичнее и приятнее пользоваться архивом.
В Российской Федерации имеется и личные масштабные проекты по оцифровке текстов, а также краудсорсинговые, как «Целый Толстой в один клик»: три тысячи участников этого проекта вычитали вычитали 46 820 страниц 90-томника произведений писателя. Существуют и аналоги TimesMachine — так, полный цифровой архив газеты «Известия» за 1917–2010 годы дешёв всем читателям Русском национальной библиотеки на ее сайте.
Кроме этого онлайн дешёвы электронные предположения всех номеров газеты «Правда», выходящей с 1912 года.
Однако многие большие другие издания и российские газеты не спешат оцифровывать собственные ветхие выпуски, не обращая внимания на то что ПО для оцифровки документов и распознавания текстов быстро начинается, а сам процесс делается все несложнее. Быть может, обстоятельство в том, что редакции русских изданий частично потеряли собственные архивы.
«За последние пара лет разработке в области оцифровки громадного количества документов значительно улучшились: повысилось уровень качества анализа изображений, качество и скорость их обработки, программы допускают меньше неточностей, соответственно, людям не требуется тратить большое количество времени на диагностику текстов,
— поведал «Газете.Ru» генеральный директор компании ABBYY Российская Федерация Юрий Корюкин. — Все чаще и чаще сами разработки мигрируют в «тучи», а для доступа к ним употребляются мобильные устройства. К примеру, в качестве сканера возможно применять камеру сотового телефона, по окончании чего само изображение возможно послано в «облако» для предстоящей обработки, к примеру распознавания.»
Краудсорсинг есть одним из броских трендов работы с громадными количествами информации, отмечает Корюкин. «Сейчас появляются безумно занимательные краудсорсинговые проекты. Кроме технической реализации они завлекают внимание людей к проблеме оцифровки документов, среди них и публично значимых», — констатирует он.