Тем, кто интересуется наукой, то и дело приходится продираться через дебри узкоспециализированных терминов, понятных разве что самим ученым. Ученые же, стремясь донести свои идеи до широких масс, часто не принимают во внимание, что не каждому обывателю знакомы такие понятия, как, например, число Рейнольдса или удельный импульс.
Чтобы помочь ученым определять, какие слова будут непонятны публике и их необходимо заменить на другие или объяснить, специалисты Техниона и Холоновского института технологий в Израиле разработали программное обеспечение, обнаруживающее такие слова в тексте.
О проекте они рассказали в журнале PLOS One.
Академический и научно-популярный стиль письма заметно различаются лексикой и структурой предложений, указывают авторы. Академический стиль актуален для научных журналов, профильной литературы, материалов конференций. Он подразумевает, что читатель уже знаком с предметом исследования и используемыми терминами. В научно-популярных текстах используется лексика, доступная большинству людей, не знакомых с описываемыми явлениями, а также различные аналогии и шутки.
«Ученым приходится доносить информацию не только до других специалистов в их профессиональной области, но и до ученых из других областей, до политиков, до широкой общественности.
Одна из важных особенностей взаимодействия с неспециалистами — отсутствие непонятной им лексики, которая мешает пониманию смысла.
Однако ученым сложно избежать специализированных терминов. Кроме того, не существует стандарта, который помогал бы ученым адаптировать их тексты», — рассказывают авторы.
Проект получил название De-Jargonizer, проверить его в действии можно на сайте scienceandpublic.com.
Пока что программа работает только с англоязычными текстами. На создание и тестирование у разработчиков ушло три года.
«De-Jargonizer — это программа автоматической идентификации профессиональных жаргонизмов, направленная на то, чтобы помочь ученым и специалистам по научной коммуникации улучшить текст и адаптировать используемую лексику для различных аудиторий. Программа определяет количество узкоспециализированных терминов в тексте и делит слова на три категории — общие (наиболее распространенные), нормальные (с меньшей встречаемостью) и редкие (специфическая научная и техническая лексика)», — рассказывают разработчики на сайте программы.
Чтобы воспользоваться сервисом, необходимо загрузить на сайт текстовый документ или вставить текст в специальное окно. Обработав текст, программа выделит нормальные и редкие слова цветом. Словарь проекта основан на лексике новостных сайтов, где используются понятные подавляющему большинству людей слова. Периодически база данных будет обновляться, пока что она содержит около 90 млн слов.
Чтобы выяснить, насколько плохо обстоят дела с доступностью текстов о науке для неподготовленного читателя, авторы проекта проанализировали 5 тыс. пар кратких описаний научных исследований и их пресс-релизов, адаптированных для общественности. В пресс-релизах оказалось меньше специфической научной лексики, чем в выдержках из научных журналов — 10% против 14%.
Однако более ранние исследования выявили, что для нормального восприятия текста читателю должны быть знакомы 98% слов.
Значит, количество узкоспециализированных терминов не должно превышать 2%.
«Ученые интуитивно понимают, что нужно использовать меньше профессионального жаргона, общаясь с обычными людьми, а не с коллегами, — поясняют авторы. — Но они все равно используют слишком много слов, отталкивающих тот контингент, который они пытаются привлечь».
Создатели проекта надеются, что он станет хорошим подспорьем для ученых и поможет им в более доступной форме доносить информацию до читателей.