ByteDance создала ИИ-модель, которая умеет самостоятельно пользоваться компьютером

Компания ByteDance разработала новую модель искусственного интеллекта под названием UI-TARS. Эта система способна самостоятельно взаимодействовать с компьютером и выполнять сложные задачи.

Разработчики создали две версии системы — с 7 и 72 миллиардами параметров.  Для обучения были использованы данные объемом около 50 миллиардов токенов.

UI-TARS прошел тестирование на десяти различных наборах данных, обойдя OpenAI GPT-4, Claude от Anthropic и Gemini от Google. Разработчики из ByteDance подчеркивают, что система постоянно совершенствуется, учась на ошибках благодаря самоанализу и многократным тренировкам. Технология работает на компьютерах, смартфонах и в браузере, понимает текст, изображения и действия пользователя. UI-TARS на экране открывается в двух окнах: слева можно следить за ходом мыслей системы, справа она работает с файлами, сайтами и программами.

В тесте для проверки работы модели с элементами веб-страниц VisualWebBench 72-миллиардная версия UI-TARS набрала 82.8% — выше, чем GPT-4o (78.5%) и Claude 3.5 (78.2%). Система способна безошибочно распознавать текст и анализировать качество веб-страниц.

Разработчики собрали большую базу скриншотов с данными об элементах интерфейса, их типах, описаниях, координатах, функциях и текстовом содержании из разных источников. Благодаря этому система научилась детально анализировать все, что происходит на экране. UI-TARS объединяет быстрое интуитивное мышление с неторопливым аналитическим, используя два типа памяти: краткосрочную и долгосрочную. Это позволяет решать текущие задачи и применять накопленный опыт для принятия более удачных решений.

Создатели модели сделали акцент на ее способности обучаться через пробы и ошибки. Модель выдвигает гипотезы, проверяет их и анализирует результаты, прежде чем закончить задачу. В обучающую базу включены примеры исправления ошибок и восстановления после сбоев.

Что будем искать? Например,ChatGPT

Мы в социальных сетях