Microsoft создала универсальную нейросеть Kosmos-1

Это мультимодальная модель ИИ, то есть она понимает текст, картинки, контент в формате аудио и видео.

Источник: arxiv.org

Что известно

Microsoft представила нейросеть Kosmos-1, которая может справляться с многопрофильными задачами, как и люди, благодаря мультимодальному восприятию. Это передовое решение в сфере ИИ. Ученые считают, что мультимодальное восприятие поможет нейросетям получать знания с учетом связи с реальным миром. Более подробно концепция изложены в работе «Language Is Not All You Need: Aligning Perception with Language Models», где описана структура и принципы работы нового ИИ.

Детали

Что умеет Kosmos-1:

  • анализировать изображения;
  • распознавать текст;
  • понимать инструкции;
  • решать визуальные головоломки.

Система преобразует картинки в текстовые токены, а их анализирует вычислительная машина. Дальше элементы обрабатываются декодером. Microsoft тренировала Kosmos-1 на информации из глобальной сети. 

Особенно интересно то, что система уже проходит тесты IQ с точность 22–26%. Неплохие результаты для начала, но их будут улучшать.

Почему это важно

Цель Microsoft — создать ИИ общего назначения (AGI), а Kosmos-1 – важный шаг на пути к ее достижению. Разработчики планируют добавить голосовые возможности и увеличить размер модели. Но уже сейчас, согласно данным Microsoft, по результатам тестов нейросеть обогнала аналоги. Дальнейшие разработки помогут заменить людей и выполнять интеллектуальные задачи.

 

Что будем искать? Например,ChatGPT

Мы в социальных сетях