Компания Google представила TranslateGemma — новую коллекцию открытых моделей машинного перевода, созданную на основе архитектуры Gemma 3. Модели доступны в трех конфигурациях с 4, 12 и 27 миллиардами параметров и поддерживают перевод между 55 языками, включая языки с различной степенью ресурсной обеспеченности.

Отличительной особенностью моделей является их эффективность. Специализированная двухэтапная процедура обучения, включающая контролируемую тонкую настройку и обучение с подкреплением, позволила достичь высоких показателей качества при меньшем количестве параметров.
Обучение проводилось на разнородном наборе параллельных данных, который включает как переводы, выполненные человеком, так и синтетические данные, сгенерированные современными моделями.
Помимо поддержки основных 55 языков, модель была предварительно обучена на приблизительно 500 дополнительных языковых парах, что может служить основой для последующей адаптации под конкретные задачи. Модели также сохраняют способность работать с мультимодальными данными, демонстрируя улучшения в переводе текста, содержащегося в изображениях.
Линейка моделей TranslateGemma предназначена для различных сценариев развертывания: компактная 4B-модель — для мобильных и периферийных устройств, 12B-модель — для локальных сред, например на персональных компьютерах, а 27B-модель — для облачных решений, требующих высокой точности.