Цифруй, читатель

New York Times запустила масштабный краудсорсинг-проект по рекламе

Юнна Коцар
Газета New York Times запустила масштабный краудсорсинг-проект Madison. Газета предлагает пользователям просмотреть старые рекламные объявления и расшифровать их.

New York Times запустила краудсорсинг-проект для оцифровки и распознавания рекламы из старых выпусков газеты. Проект, под названием Madison, просит у пользователей просмотреть архивы старых газет и указать, является ли определенный участок на полосе рекламой, что на нем рекламируется, а также расшифровать текст.

Краудсорсинг-платформа New York Times демонстрирует пользователю выделенный участок газетной полосы и дает ему небольшие задания. В частности, пользователя могут попросить указать, сколько рекламных объявлений выделено, распознать текст и т.д. Для того чтобы увлечь пользователей, у процесса есть игровые элементы: например, в зависимости от того сколько объявлений поможет распознать пользователь, ему присуждаются титулы. Если изначально он всего лишь «читатель», то вскоре становится «искателем».

Каждый пользователь интернета, когда-либо пользовавшийся технологией Captcha, чтобы доказать, что он не бот, выполнял задания, подобные предлагаемым Madison. Captcha, наверное, самый популярный краудсорсинг-проект для распознавания печатного текста. Слова в Captcha взяты из старых книг, журналов и других печатных изданий, которые были оцифрованы, но тексты в которых сложно распознать при помощи компьютера.

«Madison приглашает людей узнать о важной части нашей культурной истории», — говорит креативный директор лаборатории New York Times по исследованиям и развитию Алексис Ллойд.

«Пока Madison включает только рекламные объявления из всех номеров New York Times 60-х годов, однако вскоре проект будет расширен. Собрав данные о рекламе 60-х, проект перейдет к печатной рекламе другого десятилетия», — говорит Ллойд. 60-е были выбраны отчасти из-за интереса пользователей к сериалу «Безумцы», главные герои которого работают в рекламном агентстве как раз в этот период времени.

Madison близок к другому проекту New York Times — TimesMachine, полному электронному архиву старых выпусков газеты с 1851 по 1980 год. Изначально там можно было только просматривать страницы, однако этим летом проект обновился и пользователи получили возможность осуществлять поиск по ключевым словам и по изображениям.

Ранее собственный проект по оцифровке старых газет был и у корпорации Google. News Archive был официально запущен в 2008 году, однако сканирование изданий производилось задолго до этого, начиная с 2006 года. В рамках проекта было оцифровано около 3,5 млн выпусков более чем 2 тыс. газет, включая The Washington Post, The New York Times и The London Advertiser.

Архивы старых изданий и сейчас доступны на сайте News Archive, но компания прекратила прием микрофильмов и файлов для участия в проекте. Сейчас компания продолжает развивать интерфейс проекта для того, чтобы пользователям было удобнее и приятнее пользоваться архивом.

В России есть и собственные масштабные проекты по оцифровке текстов, в том числе краудсорсинговые, как «Весь Толстой в один клик»: три тысячи участников этого проекта вычитали вычитали 46 820 страниц 90-томника сочинений писателя. Существуют и аналоги TimesMachine — так, полный цифровой архив газеты «Известия» за 1917–2010 годы доступен всем читателям Российской государственной библиотеки на ее официальном сайте. Также онлайн доступны электронные версии всех номеров газеты «Правда», выходящей с 1912 года.

Тем не менее многие крупные российские газеты и другие издания не торопятся оцифровывать свои старые выпуски, несмотря на то что ПО для распознавания текстов и оцифровки документов стремительно развивается, а сам процесс становится все проще. Возможно, причина в том, что редакции российских изданий частично утратили свои архивы.

«За последние несколько лет технологии в области оцифровки большого объема документов существенно улучшились: повысилось качество анализа изображений, скорость и качество их обработки, программы допускают все меньше ошибок, а значит, людям не нужно тратить много времени на проверку текстов,

— рассказал «Газете.Ru» гендиректор компании ABBYY Россия Юрий Корюкин. — Все чаще и чаще сами технологии мигрируют в «облака», а для доступа к ним используются мобильные устройства. Например, в качестве сканера можно использовать камеру мобильного телефона, после чего само изображение может быть отправлено в «облако» для дальнейшей обработки, например распознавания.»

Краудсорсинг является одним из ярких трендов работы с большими объемами информации, отмечает Корюкин. «В последнее время появляются безумно интересные краудсорсинговые проекты. Помимо технической реализации они привлекают внимание людей к проблеме оцифровки документов, в том числе и общественно значимых», — констатирует он.