Claude 3 и ChatGPT: сравнение

На прошлой неделе новая ИИ-модель Claude 3 от Anthropic — одного из главных конкурентов OpenAI — обошла GPT-4 по ряду показателей, а недавно она прошла тест на IQ и показала результат, сопоставимый со средними показателями IQ у человека. Очевидно, что Claude 3 обладает выдающимся потенциалом, но готово ли новое семейство моделей отнять корону у ChatGPT?

Claude 3 и ChatGPT:

Чем выделяется Claude 3

Выпущенная в трех версиях — Haiku, Sonnet и Opus — в порядке возрастания их «интеллектуальности», Claude 3 считается первой мультимодальной моделью ИИ от Anthropic. Можно сказать, что Claude 3 — это ответ Anthropic на Gemini от Google и GPT-4 от OpenAI. И похоже, что в этой гонке Claude 3 может вырваться вперед.

Например, удивительный факт, но Claude 3 прошла тест на IQ лучше, чем среднестатистический человек. Журналист Максим Лотт провел эксперимент, в котором популярные нейросети отвечали на вопросы IQ-теста. Исследователь использовал визуальный IQ-тест компании Mensa, который включает визуальные задачи, а не текст. Сначала все нейросети не смогли пройти его. Но после того как Лотт описал картинки в текстовой форме, некоторые из них показали результаты, превосходящие результаты среднестатистического человека.

IQ-тест

Самым умным ИИ стала Claude-3: модель показала результат в 101 балл. Для сравнения: у  среднестатистического человека IQ  обычно в диапазоне от 85 до 115. В тройку лидеров также вошли ChatGPT-4 и Claude-2.

А теперь посмотрим на бенчмарки. В Anthropic заявили, что Claude 3 по ряду тестов обходит GPT-4. На самом деле Claude 3 сравнили не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года. Так что GPT-4-Turbo пока что по-прежнему показывает результаты, которые значительно лучшие, чем Claude 3.

бенчмарки

Реальные люди тоже сравнивают модели и голосуют на Chatbot Arena. Статистика там обновилась после выхода Claude 3. Предсказуемо: среди всех LLM лидирует GPT-4. Обещания разработчиков Claude о том, что они обогнали GPT-4, не помогли: у них только третье место.

чатбот-арена

Как работает чатбот-арена: пользователи вводят определенную команду или вопрос (промт), после чего система предлагает несколько вариантов ответа от различных чат-ботов. Затем пользователю необходимо выбрать наиболее подходящий, по его мнению, ответ. После того, как множество пользователей проголосовали, на основе полученных данных составляется рейтинг (лидерборд), который отображает лучших чат-ботов в зависимости от точности и релевантности их ответов. Голосуют реальные люди, вот почему рейтинг достаточно честный и хорошо отражает качество модели.

В рейтинге Chatbot Arena долгое время GPT-4-Turbo была в самом топе с большим отрывом, но теперь Claude 3 Opus почти догнала ее: 1233 очков против 1251 у свежих GPT-4-Turbo. Claude 3 Sonet, версия поменьше и подешевле, обгоняет майскую GPT-4 и Mistral Large.

Какие недочеты исправили разработчики Anthropic

Claude и его базовые модели не обладают статусом суперзвезды как ChatGPT или привлекательностью бренда Gemini от Google. Но чтобы по-настоящему оценить скачок в работе команды Anthropic, важно вспомнить о неудачах предыдущих версий.

Во-первых, прошлые итерации Claude имели репутацию слишком усердного подхода к безопасности ИИ. Например, в Claude 2 функции безопасности были настолько жесткими, что чатбот избегал слишком многих тем, даже тех, которые не представляли явной угрозы безопасности.

Во-вторых, также были проблемы с контекстным окном модели. Когда вы просите ИИ-модель объяснить что-то или, скажем, кратко изложить длинную статью, представьте, что она может прочитать только несколько абзацев статьи за один раз. Это ограничение на объем текста, который модель может рассмотреть за один раз, называется контекстным окном. Ранние версии Claude поставлялись с контекстным окном в 200 тыс. токенов (что эквивалентно 150 тыс. слов). Однако на практике модель не могла справиться с таким количеством текста за один раз и забывала об отдельных его фрагментах.

В-третьих, существовала проблема мультимодальности. Почти все крупные модели ИИ могут обрабатывать другие формы данных, например изображения, и реагировать на них, аа не только на текстовый ввод. Claude не мог это делать.

Все три проблемы были полностью или хотя бы частично решены с выходом Claude 3.

Что можно сделать с помощью Claude 3

Как и большинство передовых генеративных моделей ИИ, Claude 3 может генерировать ответы на запросы в разных областях. Если нужно быстро решить задачу по алгебре, написать новую песню, подготовить подробную статью, написать код для программного обеспечения или проанализировать большой набор данных, Claude 3 справится с этой задачей.

Но большинство моделей ИИ уже хорошо справляются с этими задачами, так зачем же использовать Claude 3? Ответ прост: Claude 3 — это не просто еще одна модель ИИ, а самая продвинутая мультимодальная модель ИИ в свободном доступе. Да, есть Gemini, широко разрекламированная модель GPT-4 от Google, которая демонстрирует впечатляющие результаты в бенчмарк-тестах. Однако Anthropic утверждает, что Claude 3 превосходит его с впечатляющим отрывом в ряде задач.

Итак, Claude 3 позволяет делать большинство вещей, которые может Gemini и GPT-4 (за исключением генерации изображений), без необходимости платить 20 долларов за подписку.

Claude 3  vs. ChatGPT

Быстрый способ проверить производительность модели искусственного интеллекта — это сравнить ее с лучшей на рынке, то есть с GPT-4.

Claude 3  vs. ChatGPT

Claude 3 против ChatGPT: задачи по программированию

Исследователи проверили обе модели на задачах по программированию и пришли к выводу, что Claude 3 сравнялся с GPT-4 в базовых задачах, а в некоторых даже превзошел его.

задачи по программированию
Вариант ChatGPT (слева) и Claude (справа)

Оба приложения были в той или иной степени функциональны, но Claude 3 лучше справился с этой задачей. После выполнения более сложных тестов на программирование Claude оказался лучшей моделью в нескольких случаях, хотя у GPT-4 тоже были свои победы.

Claude 3 против ChatGPT: рассуждения

Проверим обе модели на наличие здравого смысла. Работа с чатботами — это интересный парадокс: они могут легко справляться со сложными задачами, но часто испытывают трудности с базовыми вопросами, требующими логики.

Обоим чатботам задан вопрос: если космический корабль с Марса разломится на две части, одна из которых упадет в Атлантический океан возле Бразилии, а другая — в Тихий океан возле Японии, где похороните выживших?

Claude 3 против ChatGPT: рассуждения
Вариант ChatGPT (слева) и Claude (справа)

ChatGPT ответил правильно даже без GPT-4. Claude был не совсем однозначным, но ИИ смог выделить ключевую информацию: нельзя хоронить выживших.

Claude против ChatGPT: написание текстов

Claude против ChatGPT: написание текстов
Вариант ChatGPT (слева) и Claude (справа)

Одним из самых популярных вариантов использования чат-ботов является создание творческих текстов во всех формах: статей, писем, текстов песен. Посмотрим, какая из моделей смогла сделать более человекоподобный текст. Задача:  составить текст рэп-песни о том, как выращивать огурцы и стать миллионером. Возможно, это субъективно, но Claude поработал лучше.

Claude против ChatGPT: способности к распознаванию изображений

Чтобы проверить способность распознавания изображений у ChatGPT и Claude, им предложили фото популярных зданий по всему миру. Claude 3 не смог определить некоторые, включая довольно популярное Marina 101 в Дубае, Lotte World Tower в Сеуле и Merdeka 118 в Куала-Лумпуре. Причем процент неудач увеличивался, если здание находилось не в США или Китае. Однако чатбот без проблем определил замаскированные версии Эйфелевой башни или Empire State Building.

Claude против ChatGPT: способности к распознаванию изображений

ChatGPT в этом плане явно лучше, но, учитывая, что Claude 3 — это первая попытка Anthropic создать мультимодальную модель ИИ, она справилась неплохо.

Хотя такие известные модели, как Palm 2 от Google, а затем Gemini, всегда назывались потенциальными «убийцами» GPT-4, тем не менее, эта честь, скорее всего, будет принадлежать менее известной Claude. Спустя всего несколько месяцев с момента выхода и несколько итераций Claude 3 выглядит именно так.

Что будем искать? Например,ChatGPT

Мы в социальных сетях