— Вот мы все чаще сейчас говорим о data-журналистах, data-сайентистах. Почему сегодня у многих профессий появляется ответвление со словом «data»?
— Увеличение числа профессий с приставкой data - на самом деле забавное и очень интересное явление. Чтобы понять, надолго ли это, и что придет на замену data-сайентистам давайте сперва посмотрим на то, что вообще происходит, и, как говорится, откуда здесь все эти люди. А именно, в нашей области сегодня происходят сразу несколько тенденций, имеющих прямую биологически-эволюционную аналогию.
Во-первых, сам инструментарий анализа данных становится все более мейнстримным - как эдакое «новое программирование».
Это чем-то похоже на историю с программированием лет 20 назад, когда повсеместно во всех индустриях и областях начали бурно развиваться все виды приложений, требующие разработчиков.
Причем, все это идет как со стороны наук, например, с растущим спросом на специалистов - эконометриков, психометриков и других; так и со стороны бизнеса - с миллионом видов аналитиков с разными приставками: продуктовый, клиентский, риск-, дата-, и миллион прочих. В том числе некоторые профессии дополнительно эволюционируют и «прокачиваются», предоставляя за счет анализа данных новый тип продуктов и ценности.
— Даже в журналистике?
— Ну, например, качественная дата журналистика позволяет не только красиво визуализировать данные, но и рассказать обоснованную данными историю (которую становится проще проверить). А в зависимости от результата - даже предоставить читателям самим поковыряться в данных, не отходя от статьи, по сути, собрав и пересобрав журналистскую историю с теми же данными под себя.
— Насколько универсален data-инструментарий?
— Сам базовый data-инструментарий у подавляющего большинства аналитических профессий выше - максимально схож, и переносим между ними.
Так, специалисты по анализу данных могут достаточно легко горизонтально менять свою область - перейти из финансов в телеком, а оттуда - куда-нибудь еще, хоть в нефтегаз и химическое производство. И не менее забавно, что все это многообразие специальностей может дополнительно уточняться и делиться внутри себя еще и на подкасты - с уклоном в анализ текстов, изображений, процессов, графов и связей, прогнозирования, и других вещей.
Можно сказать, что эволюционная аналогия-параллель здесь состоит в том, что в области анализа данных (data science) идет бурный рост видообразования. В основном за счет того, что возможности по анализу данных проникают во все доступные (не изолированные/зарегулированные/закостенелые) области, словно в новые биомы (как степи, тропические леса или тундры), и наводя в них шороху.
— Это мы говорили про инструментарий анализа данных. Что еще важно?
— Надо сказать, что с развитием области, обменом опытом и лучшими практиками - постепенно отпочковываются и выкристаллизовываются более конкретные специальности. Например, младшие инженеры - специалисты именно по инженерной части внедрения моделей машинного обучения в рабочие сервисы. Или именно дата-инженеры - ответственные за инфраструктуру хранения и обработки самих данных.
— Как это все отличать...?
— Поначалу, как только такие подспециальности появляются, они могут быть не совсем внятными, как например набирающая популярность последний год-два специальность ML Ops, но с ходом времени в них появляются свои лучшие практики, конкретика, и полноценное место под солнцем.
А еще есть чуть более зрелый и формальный набор дата специальностей, где уже было проведено немало работы.
Погружаясь глубже в дебри бизнеса, очерчиваются роли владельцев данных (data owners) - людей, отвечающих за свои данные как за полноценный бизнес-продукт. А рядом с ними - отделы управления данными (data governance), которые следят за тем, что и где лежит, в каком качестве, плюс с ними же - и специалисты по управлению и проверке качества самих данных (data quality assurance).
Причем внутрибизнесовые специальности работы с данными также развиваются, привнося новые задачи и роли. Например, на Западе во всем этом ансамбле специалистов последние несколько лет активно появляются отдельно выделенные люди, отвечающие за приватность, и более конкретно, за соблюдение соответствующих законов — вплоть до введения в компании отдельной роли Chief Data Protection Officer. Таких chief-вождей с приставкой data может быть отдельный ворох - и Chief Data Officer, и Chief Data Scientist, причем не умаляя иногда уже имеющихся ролей Chief Analytics Officer и Chief Scientist.
— Возвращаясь к эволюционной аналогии… Получается, что в области анализа данных идет не только активное видообразование путем перемешивания и появлением новых видов в областях-биомах, но еще имеет место и естественный отбор.
— Да. Причем отбор, по Дарвину — довлеет на новые специальности тем, что заставляет их становиться конкретнее и эффективнее. Наверное, когда в компаниях с тысячами и сотнями тысяч сотрудников появляются свои соответствующие Chief Officers, озвученная data-(под)специальность скорее всего успешно себя проявила в естественном отборе. И как правило, эти специальности не перестают развиваться дальше.
— Соответственно, некоторые специальности становятся неактуальными...
— Как следствие как раз естественного отбора, некоторые специальности могут как переформатироваться, так и вовсе исчезать по ходу постепенного взросления области.
Возвращаясь к аналогии с программированием, 25 лет назад можно было нанимать computer scientists - специалистов, которые как раз часто приходили в область по стопам своих аспирантур. В общем, очень академические высококвалифицированные специалисты, которые были очень востребованы в бурно растущей области создания ПО, особенно на фоне еще и развития интернета.
Эта историческая параллель очень напоминает текущую роль сферического data-сайентиста в вакууме, но картинка будет не полной без еще одной аналогии.
10-15 лет назад еще была такая профессия как «веб-мастер» - буквально мастер на все руки, который мог запрограммировать все составляющие сайта, а еще сам подготовить для него весь контент, и даже продвижением тоже мог заняться сам. Сегодня можно собрать такого веб-мастера из десятка специалистов - фронтенд и бэкэнд разработчики, админ/девопс, отдельные ui и ux дизайнеры, мобильные веб разработчики, SEO специалисты и маркетологи с копирайтерами. И это еще не включает всех остальных участников команд, помогающих с управлением этим взводом специалистов.
Может быть, кто-то хотел бы вернуть себе «свой 2007-й» хотя бы за тем, чтобы вместо этого взвода - найти одного веб-мастера, который бы кое-как, но сделал вообще все. Надеюсь, не надо объяснять иронию. Очевидно, то, что веб-мастера исчезли, это все-таки к лучшему...
С data-сайентистами сейчас происходит в ускоренном режиме похожий процесс — я уже упомянул про то, что в работе над продуктами с анализом данных могут работать больше десятка разных дата-специалистов. Причем, каждый из этих специалистов важен и может быть полезен, в зависимости от серьезности разработки вашего продукта. Держать все эти специальности в одной голове, как и требовать этого при поиске таких специалистов – мало реалистичный сценарий.
К тому же, более продвинутые в этой теме компании, понимающие - кого и зачем они ищут к себе в дата команды, уже уточняют специализацию.
В нашей эволюционной аналогии для data-специальностей будут и специальности, которые как неудачные ветки эволюционного дерева ни к чему не пришли. Будут ветки, которые, как некоторые наши предки типа неандертальцев, отчасти вымерли, а отчасти скрестились с нами. А еще, на этом дереве будут и общие для многих видов предки - в частности, профессия data-сайентиста, от которой отпочковалось множество новых специальностей.
Это нормально, что подобно тому, как computer scientists исчезли, но Computer Science как таковая никуда не пропала и продолжает активно развиваться. Точно также и конкретные роли, включая роль data-сайентиста и еще наверняка множество других data-ролей, останется в прошлом, в то время как все дерево Data Science специальностей продолжит бурно развиваться. В нем будут появляться очаги бурного появления новых видов. Эти новые виды будут развиваться не без естественного отбора на рынке специалистов, укрепляться и доформировываться. А менее конкурентные специальности - сращиваться, или уступать место другим.
— То есть всё движется к лучшему, вы хотите сказать?
— Просто на замену data-сайентистам придет новое поколение более конкретных, более развившихся и более эффективных data-ролей.
— Поговорим о шансах сохранить анонимность в Интернете. Можно ли сказать, что в Интернете все данные автоматически становятся публичными? Остались ли ещё люди, которых не получится найти в Интернете, или данные обо всех уже давно там есть?
— Говоря о наших данных и своем цифровом следе в интернете, на поверхности лежат прежде всего те вещи, которые мы сами умышленно создаем и публикуем в Сети. Например, это абсолютно все, чем мы хотим поделиться в социальных сетях. Это наш креатив во всех видах формах и расцветках - видео, презентации, статьи, графика, код, подкасты - или даже просто наши реакции и комментарии к ним.
Возвращаясь к истории, раньше существовала городская легенда-страшилка, что где-то в интернете есть сайт, на котором можно найти всю информация про любого человека. Забавно, что это оказалось самосбывающимся пророчеством, в основе которого на самом деле была потребность людей делиться про себя всем тем, чем они делятся с окружающими. Поэтому неудивительно, что в этой новой коммуникационной и информационной среде, распространившейся на весь мир, потребность делиться и обмениваться люди открыли сами. Это то, что называется нашим активным цифровым следом. Это то, что мы осознанно за собой оставляем.
Отличительная черта времени состоит в том, что крупнейшие сайты на планете не производят своего собственного контента, но дают для своих пользователей все возможности по его наполнению и обмену.
Причем не важно - говорим мы о соцсетях, видеохостинге, или сервисах по аренде жилья. Все человечество вовлеклось в эту обширную публичную сеть, где все делятся всем, и все доступно. Да, где-то информация может быть умеренно-закрытой и клубной, где-то доступной по подписке, но принципиально - все, чем поделились, так или иначе может быть доступно. Дорога возникает под шагами идущего, и современное общество в интернете — под нашими активными цифровыми следами. Кстати, про то, как современная культура обмена информацией, ее открытость и публичность — помимо общества, на реактивной тяге развивает науку — отдельная большая жизнеутверждающая история.
Однако, публичная информация в интернете - лишь верхушка айсберга данных. Куда большая часть этого айсберга — возможно, тоже ваша информация, но не так публично доступная, как может показаться. Это наш пассивный цифровой след, или что еще иногда называют — цифровой тенью. Например, прямо сейчас, когда кто-то, может быть, будет читать это интервью, стоят мириады серверных взаимодействий, и связанных с ними генерируемых потоков данных.
— Часто приходится слышать, что смартфоны считывают данные, даже когда мы их не используем. Многие люди заклеивают камеры компьютеров, не говорят о чем-то важном рядом с динамиками. Есть ли основания для таких предосторожностей, или это все-таки теории заговоров?
— Да, со смартфонами цифровой след предлагает больше разнообразных данных — например, в нашем потреблении информации мы теперь оставляем за собой еще и географический след. А при установке приложений, часто по своему незнанию, предоставляем им доступ к множеству неочевидных вещей — спискам контактов, звонков и, конечно, микрофону и камере. Очевидно, что голосовые ассистенты не могут работать без микрофона, но как и что именно будет анализироваться — на совести приложений.
Всевозможная боязнь слежки и деанонимизации, немного опоздала, чтобы с этим можно было что-то придумать.
Чуть ли не в половине случаев идентифицировать пользователя уже можно исключительно по его поведению на сайте, даже без логина.
С деанонимизацией все еще драматичнее - например, при должной разработке, а также сборе и разметке достаточных данных (что пока еще не мейнстрим, но достижимо, наверное, в течение ближайших 3-5 лет), можно успешно идентифицировать в видеопотоке человека исключительно по походке - даже если он надел полнотельный хэллоуинский костюм с маской.
А если копнуть глубже в историю, то еще век назад, до появления биометрии, применялась графометрия — определение и идентификация человека по почерку и письму в целом. Так что, только если вы специально тщательно не проработаете себе альтер-эго, даже ваши анонимные комментарии можно умеренно-успешно связать с вашей настоящей личностью. В современном мире полностью спрятаться можно только уйдя в глубокие леса и пещеры, забыв про современную цифровую цивилизацию.
— Уже сейчас по «цифровому следу» человека можно буквально продлить ему жизнь, создав бота или цифровую копию. Не это ли тот условный «эликсир бессмертия», пусть и цифровой, который все ищут?
— Все просто - эта копия является эликсиром бессмертия в той же мере, что и в разные времена им являлись портреты и личные дневники человека. Сейчас мы получаем возможность чуть детальнее реконструировать опыт взаимодействия с человеком, банально имея про него куда больше данных. Например, если раньше у нас были бы только портреты и фотографии, то сейчас мы смогли бы сгенерировать портрет «по запросу». Может быть еще и анимированную, и вдовесок — озвучивающую конкретные фразы. Возможно даже с характерными для этого человека повадками и зашитыми в образ предпочтениями.
Например, имея детальные модели цифровых образов людей, можно было бы генерировать и видео по заданному сюжету.
Понятно, что у следующих персонажей цифровой след не так велик, но зато аналогия будет понятнее. Можно было бы генерировать видео к запросу «Альберт Эйнштейн встречает Германа Гессе на завтраке в Кёльне 26 марта 1931 года». Но это все-равно будет сгенерированный мультимедийный материал, который можно будет также заново перегенерировать по запросу, еще и получая разнообразные результаты.
С новыми технологиями модель человека по его цифровому следу — просто их следующее качественное улучшение. Они не могут явиться заменой самим живым людям и их идентичности, о чем нужно помнить обращающимся к этим моделям. Они не напишут новые материалы так, словно они бы жили сейчас. Но они помогают передать свой опыт, чтобы он, как и в целом информация о них, как о его авторах, не исчезла вместе с их биологическим носителем. Но живой человек – все-таки, нечто большее, чем сумма его данных.