Видеодемонстрация Gemini от Google оказалась подделкой

Корпорация Google выпустила видеоролик с демонстрацией работы своей мультимодальной языковой модели Gemini. Но ролик корпорации оказался постановочным, так как он преувеличивает технические способности ИИ.

Что известно

Google анонсировала конкурента GPT-4. Компания разработала семейство мультимодальных нейросетей Gemini. Модель представлена в трех версиях: Gemini Nano, Gemini Pro и Gemini Ultra. Gemini Ultra от Google, которая, согласно результатам большинства бенчмарков, должна немного обойти GPT-4.

Тем временем Gemini Pro, занимающая промежуточное положение между GTP-4 и GPT-3.5, уже доступна для использования через чат-бот Bard. Также планируется интеграция модели Gemini Nano в смартфоны Google Pixel 8 Pro и в дальнейшем — в Android. В настоящее время Gemini доступен только для англоязычных пользователей, но в будущем будут добавлены и другие языки.

Почему это важно

Запуск Gemini может помочь Google догнать OpenAI в гонке за создание общего генеративного ИИ. Однако видео от Google с демонстрацией возможностей Gemini оказалось фейком. Взамен демонстрации возможностей языковой модели в процессе реального общения, компания воспользовалась предварительно подготовленными текстами и статичными изображениями, вырезав из видео временной интервал обработки запроса и отдельные подсказки. Другими словами, демо-видео Gemini оказалось смонтированным, и не отражало реальные возможности модели в реал-тайм. Видео нарезали, ускорили и смонтировали, выбросив то, какие именно промты и какие кадры подавались модели, чтобы получить красивые ответы для ролика.

Например, на видео рука закидывает на стол три стакана и слепленный из листа бумаги шарик, а ИИ сразу угадывает понимает, в чем состоит суть игры. В реальности было иначе. Сначала задали естественным языком положение стаканов и шарика. Потом модель получала 2 примера решения задачи. В каждом из них показаны три изображения, где стаканы передвигают, и дается правильный ответ, где находится шарик после этих перестановок. Только затем Gemini решает аналогичную задачу самостоятельно.

Google признала монтаж, но утверждает, что целью было вдохновить разработчиков. Кстати, у компании уже был похожий PR-провал во время анонса Bard.

 

Что будем искать? Например,ChatGPT

Мы в социальных сетях