Крупнейшую открытую языковую модель опубликовали на Hugging Face

Институт технологических инноваций ОАЭ запустил огромную языковую модель Falcon 180B. По качеству ответов она примерно между GPT-3.5 и GPT.4.

Что известно

Вышла новая открытая генеративная нейросеть Falcon 180B. В ней, как можно догадаться из названия, 180 миллиардов параметров — это крупнейшая открытая языковая модель. А по качеству работы она превосходит не только все открытые модели, но и GPT-3.5 от OpenAI.

Параметры модели Falcon-180B:

  • 180 млрд параметров. Напоминаем, что предыдущая самая мощная открытая модель была LLaMa-2 70B.
  • Контекст 2048 токенов
  • Тренировали 2,5 месяца на 4096 GPU на Amazon SageMaker.
  • Обучали на 3,5 триллионах токенов (против 2 триллиона у LLaMa 2), то есть Falcon прочитала почти в 2 раза больше текстов.
  • Предусмотрена базовая версия и в виде чата.
  • Лицензия позволяет очень ограниченное коммерческое использование.

Почему это важно

Falcon 180B превосходит по качеству ответов ChatGPT 3.5: содержит в 2,5 раза больше параметров (180 млрд) и обучена  на 3,5 триллионах токенов, что в 2 раза больше, чем предыдущий рекордсмен LLaMa-2.

 

Что будем искать? Например,ChatGPT

Мы в социальных сетях