Что такое генеративный ИИ. Объясняем простыми словами на примере с яблоками и бананами

Каждый день мы слышим о том, как развивается искусственный интеллект, IQ моделей уже превышает 100 баллов, а эксперты задаются вопросом о том, сможет ли LLM заменить человека. Про генеративный ИИ слышали все, но немногие знают, как он работает. В статье на примере яблок и бананов объясним, что такое генеративный ИИ и как он работает.

Что такое ИИ

Прежде чем погрузиться в основы генеративного ИИ, обсудим понятие искусственного интеллекта. Искусственный интеллект — это способность компьютера имитировать мышление человека.

«Концептуально логику работы ИИ можно сравнить с работой нашего головного мозга. В нем сигналы от одного нейрона передаются к другому и далее по цепочке для мышления или реакций».

Сергей Кобелев, бизнес-ментор Fintech-стартапов на ранней стадии

Искусственный интеллект как концепция относится к оборудованию, способному думать самостоятельно и принимать решения на основе поступающих к нему данных. Чат-боты способны быстро обрабатывать большие объемы информации, чтобы прийти к эффективному выводу.

ИИ может выполнять задачи, которые раньше требовали человеческого вмешательства, например, работу с датчиками, геолокацией и робототехникой. Цифровые помощники, GPS-навигаторы, автономные транспортные средства — все это основано на ИИ.

Как работает ИИ

Для лучшего понимания представьте себе робота, который занимается сортировкой яблок и бананов. С помощью четких инструкций вы объясняете ему, что такое яблоко и что такое банан, и он успешно выполняет свою задачу.

Робот запрограммирован на сортировку яблок и бананов в нужную корзину

Робот успешно выполняет свою задачу, сортируя яблоки и бананы, пока не обнаруживает зеленое яблоко. Все это произошло потому, что он был запрограммирован только на распознавание красных яблок и теперь не знает, что делать с зелеными.

Робот запрограммирован на сортировку красных яблок и бананов в нужную корзину

В этом случае важную роль играет машинное обучение (Machine Learning, ML). ML позволяет ИИ учиться на основе данных. Например, при обучении робота сортировке фруктов ему показывают множество изображений яблок и бананов. Машина анализирует узоры и формы, чтобы научиться распознавать эти фрукты.

Когда робот сталкивается с зеленым яблоком, даже если ранее не видел его изображения, он все равно способен определить, что это яблоко, основываясь на других характеристиках, которые он изучил.

Робот, обученный с помощью картинок сортировать яблоки и бананы в нужную корзину

Что такое генеративный ИИ

Генеративный ИИ не только распознает шаблоны, но и на основе имеющихся данных создает новые сущности. Представьте, что наш робот-сортировщик яблок и бананов может создать абсолютно новый фрукт, объединяющий черты предыдущих плодов.

Обучение генеративного ИИ

Глубокое обучение является основным элементом генеративного ИИ. Оно подобно супермозгу, который может анализировать огромные объемы данных и выявлять в них связи. Чем больше входных данных подается, тем более точным становится алгоритм.

Информация, обрабатываемая моделями, проходит несколько слоев, которые приводят к главному результату. В этих скрытых уровнях происходят сложные вычисления.

Например, когда мы объясняем ИИ, что такое яблоко, модель разделяет эту информацию на описательные характеристики: форма, размер, цвет и другие. После этого, информация проходит через сравнение с характеристиками других фруктов. После извлечения признаков и классификации, ИИ выдает результат — «яблоко» или «не яблоко».

Подписывайтесь на наш Telegram Подписаться

Модели, основанные на глубоком обучении

Глубокое обучение привело к появлению таких моделей, как GPT и BERT, которые являются инструментами, способными выполнять разнообразные задачи благодаря обучению на огромных объемах данных.

Для того чтобы чат-боты общались естественно, используются большие языковые модели (LLM) — это компьютерные программы, которые обучаются понимать и генерировать человеческий язык.

Модель предсказывает следующие слова в предложении или пишет тексты, используя большие объемы текстовых данных. Например:

GPT-3, разработанный OpenAI, обучался на сотнях гигабайт текста, включая материалы из книг, веб-сайтов и других источников;
BERT от Google — учился на всей английской Википедии (2500 млн слов) и 800 млн слов с различных веб-страниц.

В случае моделей для генерации изображений, они обучаются на миллионах картинок из наборов данных, таких как ImageNet.

Эти примеры подчеркивают огромный объем данных, на которых обучаются базовые модели, что позволяет им выявлять сложные совпадения и успешно применять полученные знания в различных задачах.

Настолько «умны» LLM

Базовые модели не могут обрабатывать и усваивать информацию, как человек. Однако благодаря обширным обучающим данным они успешно предсказывают. Этот процесс повторяется раз за разом, генерируя тексты, ведущие к созданию статей и общению с людьми.

Уникальная способность LLM основана не только на объеме данных, но и на архитектуре Transformers, которая помогает компьютерам общаться на нашем языке. LLM отлично справляются с анализом тематики, учитывая, как значение слова может изменяться в зависимости от ситуации и окружения.

«По мере развития ИИ мы должны помнить, что его сила заключается не в замене человеческого интеллекта, а в его дополнении. Истинный потенциал ИИ заключается в его способности усиливать творческие способности человека».

Джинни Рометти, топ-менеджер и бывший генеральный директор IBM

Эти LLM и другие подобные технологии стали основой для развития генеративного искусственного интеллекта, способного создавать новый контент. Однако у него есть и недостатки.

Способности робота на базе LLM

Вернемся к нашему роботу-сортировщику. Помимо того, что ему загружаются изображения яблок и бананов, вы также добавляете в задание данные — от овощей до электроники, астрономии и истории.

Теперь робот способен не только сортировать фрукты, но и идентифицировать широкий спектр объектов и субъектов. Это основная концепция моделей: они обучаются на огромном объеме данных из нескольких областей и могут применять свои знания к множеству задач и сценариев.

Как работает генеративный ИИ

Чтобы понять, как работает генеративный ИИ, рассмотрим другой сценарий.

Традиционный искусственный интеллект работает следующим образом: у вас есть модель, которая способна отличить яблоко от банана при показе изображений. Вы показываете модели картинку с яблоком, и она классифицирует его как яблоко.

Традиционная модель искусственного интеллекта

С другой стороны, генеративная модель искусственного интеллекта способна генерировать контент:

вы даете модели подсказку, например, изображение яблока, и просите ее нарисовать объект;
модель создает изображение яблока на основе предоставленной подсказки и своих знаний, которые она получила в процессе обучения;
результирующее изображение может быть уникальным яблоком, которое модель никогда ранее не видела, но создано на основе своего опыта и знаний.

В заключение, генеративный ИИ — инновационная технология, способная не только распознавать шаблоны, но и создавать новый контент на их основе, обладает потенциалом изменить множество отраслей, начиная от искусства и музыки и заканчивая дизайном продуктов. По мере нашего изучения возможностей генеративного искусственного интеллекта будущее технологий представляется более перспективным и обещающим.