Данные для обучения ИИ измеряются не в гигабайтах, а в количестве сэмплов, рассказал «Газете.Ru» руководитель исследовательской группы «ИИ в промышленности» Института искусственного интеллекта AIRI Илья Макаров.
«Например, чтобы распознавать десять рукописных цифр, нужно очень мало данных. В целом 10 рукописных цифр можно распознать на 1000 изображений», – привел пример собеседник «Газеты.Ru».
По его словам, в большинстве случаев, чтобы нейросеть работала нормально, разработчику нужно иметь сбалансированную выборку данных, и чем они вариативнее, тем лучше.
«Например, мы хотим, чтобы нейросеть определяла по губам, что я говорю и как. Тогда нам нужно большое количество данных с условиями освещения. А если я буду в очках, что произойдет? Если нейросеть никогда меня в очках не видела, она эмоции, которые я передаю, не распознает — ей неоткуда взять эту информацию, соответственно, мы не можем гарантировать, что она будет правильно работать», – объяснил Макаров.
Подробнее о том, что такое сильный искусственный интеллект, как преодолевают технологическое отставание, а также о малом количестве русскоязычных обучающих датасетов и проблемах подготовки кадров — в материале «Газеты.Ru».