«Attention is All You Need»: где сейчас авторы легендарной статьи о трансформерах

6 лет назад, в июне 2017 года, вышла статья «Attention is All You Need» за авторством инженеров Google. В ней они представили и подробно разобрали архитектуру трансформера. Именно с этой новаторской работы начал меняться мир машинного обучения и искусственного интеллекта: с нее началось развитие больших языковых моделей. Этот документ показал, что, используя только механизмы внимания, можно достичь самых современных результатов в области языкового перевода. В нашей статье рассказываем о том, как все начиналось в работе с нейросетевой архитектурой Transformer, которая лежит в основе ChatGPT и GPT-4. А заодно мы узнали, в каких проектах сейчас заняты ее создатели.

Первые модели-трансформеры

Основной фокус исследования с Transformer сводился к задачам перевода. После публикации «Attention is All You Need» появилась масса известных моделей, которые изменили наш мир.

  • Июнь 2018. GPT — первая предобученная модель, которая показала хорошие результаты в NLP-задачах. В феврале 2019 появилась GPT-2, потом в мае 2020 года — GPT-3.
  • Октябрь 2018. BERT — другая предобученная модель, которую создали, чтобы извлекать более точное содержание из предложений. Впоследствии выпустили DistilBERT — она была на 60% быстрее и на 40% менее объемной.
  • Октябрь 2019. Вышли в свет 2 большие модели с архитектурой классического трансформера — BART и T5.

Механизм внимания (Attention): интересные факты

В Transformer не изобрели механизм внимания (Attention), а использовали уже существующий принцип по максимуму. Первая статья про Attention опубликована за 3 года до этого, в 2014 году: «Neural Machine Translation by Jointly Learning to Align and Translate». Она одна из самых цитируемые в NLP: 29 тысяч цитат. А «Attention is All You Need» цитировали 77 тысяч раз. Ее опубликовали на NeurIPS 2017 (Neural Information Processing Systems) — одной из ведущих мировых конференций по искусственному интеллекту. При этом для новаторской статьи не было устной презентации и наград (обычно отмечают особые работы). Для сравнения: в 2022 году на NeurIPS  выбрали 3 лучших доклада, и количество цитирований на троих у них всего 529.

В видео показан принцип работы механизма внимания (Attention). Благодаря ему при обработке каждого слова учитываются все слова. Их «веса» не нужно задавать вручную, так как модель выучит все. То есть, когда мы пишем первое слово перевода, мы обращаем внимание на каждое представление (круг на рисунке) других слов.

Все модели трансформеров, которые упомянуты выше (GPT, BERT, BART и T5), обучены как языковые модели. Это значит, что они обучались на большом количестве текстов, причем использовали технику самостоятельного обучения. Это такой способ, при котором цель обучения вычисляется автоматически в зависимости от входных данных. Другими словами, людям даже не нужно размечать данные.

Над чем сейчас работают авторы статьи про механизм внимания (Attention)

Давайте посмотрим, где сейчас авторы нейросетевой архитектуры Transformer, которая стала основой ChatGPT.

  • Ashish Vaswani. На момент написания статьи «Attention is All You Need» он занимался в проекте дизайном модели. Ушел из Google в конце 2021 года и организовал собственную компанию Adept. Она оценивается более чем в $1 млрд. Но в декабре 2022 года, сразу после релиза ChatGPT, он решил основать новый стартап. Пока все держится в секрете: нет данных ни о названии, ни о количестве сотрудников, ни над чем они работают. В статье указано, что он работал над дизайном модели на ранних этапах и запрограммировал все это дело.
  • Noam Shazeer. Именно у него возникла идея про «головы» в механизме внимания. Ученый проработал в Google больше 20 лет, с 2000 года. Осенью 2021 года уволился и основал стартап Character.ai. С того времени компания уже достигла оценки почти в миллиард.
  • Niki Parmar. Единственная девушка-соавтор статьи, проводила эксперименты по обучению и валидации моделей, работала в Staff Researcher в команде Google Brain до ноября 2021 года, а затем ушла в Adept — стартап первого автора в этом списке. Сейчас она занята в его следующем проекте (который пока держится в секрете).
  • Jakob Uszkoreit. Многие считают его центральным мозгом в команде, которая изобрела архитектуру Transformer. Он предложил заменить рекуррентные сети подобным механизмом внимания и начал прототипирование первого подхода. Он ушел из Google в 2021 году и основал Inceptive Life. Его новая команда работает над моделированием мРНК с помощью нейросетей.
  • Llion Jones. Он единственный из всей команды остался работать в Google до сегодняшнего дня. Он отвечал за оптимизацию инференса модели и визуализации для экспериментов. Кстати, название статьи, которое стало мемо и паттерном «X is all you need» для других статей, тоже придумал он.
  • Aidan Gomez. Ушел из Google в 2019 году и основал Cohere.ai. В компании 200 сотрудников, которые занимаются языковыми моделями. Удалось привлечь более $400 млн инвестиций.
  • Lukasz Kaiser. Он отвечал за разработку и оптимизацию кода, что вполне понятно, так как он один из соавторов TensorFlow — библиотеки для создания и обучения нейросетей. В проекте Transformer улучшал кодовую базу и занимался ускорением итераций в исследовательской работе. В Google прослужил 7 лет и ушел летом 2021 года в OpenAI, чтобы работать над GPT.
  • Illia Polosukhin. Ушел из Google в 2017 году (кстати, до публикации статьи про механизм внимания) и основал Near. Это протокол блокчейна и конкурент Ethereum. Текущая оценка — примерно $2 млрд.

Заключение

В статье «Attention is All You Need» не говорилось об использовании модели в качестве универсального компьютера для обработки произвольных последовательностей. Transformer разработали для одной узкой и конкретной задачи — машинный перевод. Таким образом, можно даже представить, что Google Translate — это прадед AGI.

Тем не менее трансформеры доказали, что они исключительно универсальные системы. Они показали хорошие результаты в языковом моделировании, чуть скромнее в анализе изображений и музыки. Но их уровень универсальности такой, что модели можно задействовать в других задачах, потому что трансформер предназначен для преобразования последовательности в последовательность. А значит, данные в виде любого набора элементов можно обработать. И это особенно полезно в мультимодальном обучении.

 

Что будем искать? Например,ChatGPT

Мы в социальных сетях