Meta научила нейросеть data2vec обрабатывать речь, картинки и текст

Особенность data2vec в том, что она одновременно обучается с использованием трех форматов. Правда, каждый поток обрабатывается отдельно от остальных. До этого алгоритмы искусственного интеллекта работали только с одним типом данных.

Data2vec — это нейронная сеть, которая изучает общие закономерности при помощи самоконтролируемого обучения. Новая модель умеет распознавать человеческую речь, различать объекты на изображении, проверять письменный текст на грамматические ошибки и определять эмоции по интонации. Во время обучения модель пытается угадать, какой будет следующая группа пикселей на полученном изображении или вставить недостающие слова в предложение.

В планах компании — использовать такие «мультимодальные» системы ИИ для создания метавселенной. Это повысит адаптивность компьютеров, которые смогут одновременно обрабатывать физические и цифровые объекты.

«Человек обменивается информацией с окружающим миром через зрение, слух и речь, — сообщил журналистам глава Meta Марк Цукерберг. — Такие нейросети как data2vec тоже могут научиться понимать мир как люди. Возможно, в будущем ее можно будет использовать как помощника для человека».

Представители Meta привели пример с приготовлением пищи. Если обучить искусственный интеллект на записях тысяч часов работы шеф-поваров, он сможет давать подсказки пользователю на кухне. Человек сможет надеть очки дополненной реальности и получать через них визуальные подсказки. Модель будет указывать на возможные ошибки или объяснить, как добавление того или иного ингредиента повлияет на вкус блюда. Например, ИИ посоветовать прибавить огонь или добавить пропущенные продукты.

Нейросеть работает на 16 ускорителях NVIDIA V100 и A100. Первоначальное обучение проводили с помощью записей голоса, «Википедии», книг и изображений. Например, было использовано 960 часов аудиозаписей и несколько миллионов слов. В будущем к обучению ИИ планируют присоединить запахи, 3D и видеозаписи.

Во время тестирования data2vec по некоторым параметрам опередила топовые модели ИИ, которые обучали с помощью данных одного вида.

Что будем искать? Например,ChatGPT

Мы в социальных сетях