DeepSeek представила мультимодальную модель ИИ, использующую визуальное восприятие для сжатия входного текста

Компания DeepSeek анонсировала модель DeepSeek-OCR с открытым исходным кодом, которая использует визуальное сжатие для обработки больших документов с сокращением количества токенов до 20 раз.

Компания DeepSeek представила мультимодальную модель искусственного интеллекта DeepSeek-OCR с открытым исходным кодом. Модель использует визуальное восприятие для сжатия текстовой информации и способна обрабатывать большие документы со значительно меньшим количеством токенов.

Разработка основана на исследовании роли визуальных кодировщиков для сжатия текста. По данным компании, этот подход позволяет сокращать количество токенов в 7-20 раз при работе с документами различного объема. Модель состоит из кодировщика, работающего с входными данными высокого разрешения, и декодера архитектуры «Смесь экспертов» с 570 миллионами параметров.

DeepSeek-OCR может обрабатывать сложноструктурированный контент, включая таблицы, математические формулы и геометрические диаграммы. Тестирование показало точность декодирования 97% при степени сжатия менее 10× и около 60% при коэффициенте сжатия 20×. На бенчмарке OmniDocBench модель превзошла аналогичные решения GOT-OCR 2.0 и MinerU 2.0 при меньшем потреблении токенов.

Модель способна генерировать более 200 000 страниц обучающих данных в сутки на одном графическом процессоре Nvidia A100-40G. Технология позволяет реализовать масштабируемую обработку длинных контекстов, где новые данные сохраняются в высоком разрешении, а старые требуют меньше вычислительных ресурсов.

Разработка DeepSeek-OCR соответствует стратегии компании по повышению эффективности ИИ-моделей и снижению затрат на их эксплуатацию. Ранее, в конце сентября, компания также представила экспериментальную версию модели DeepSeek V3.2-Exp, ориентированную на повышение эффективности обучения и вывода.

Что будем искать? Например,ChatGPT

Мы в социальных сетях