Компания VK приступила к внедрению визуально-языковых моделей (VLM) в поисковые системы своих продуктов. Технология позволяет ИИ одновременно анализировать текст, изображения и звук, чтобы точнее понимать содержание роликов и запросы пользователей.

Технология уже интегрирована в поиск по видеоконтенту на платформе VK Видео. В ближайшее время она поэтапно появится и в других сервисах экосистемы, где используются поисковые системы.
Разработанная инженерами AI VK модель анализирует не только название и текстовое описание загруженного контента, но и его смысловое содержание. Это позволяет системе точнее сопоставлять видео с запросами пользователей. VLM автоматически формирует датасеты, на основе которых поисковые алгоритмы принимают решение о релевантности того или иного ролика.

Внедрение технологии также направлено на улучшение векторного поиска, который учитывает семантическое значение запроса. В перспективе система сможет распознавать предпочтения пользователей, например, определять, какой стиль монтажа или цветокоррекции они выбирают чаще. Кроме того, модель будет эффективнее обрабатывать гибридные запросы, сочетающие текст и визуальные характеристики, такие как «влог из Стамбула с видами на Босфор».
Ожидается, что использование VLM сделает поисковую выдачу более персонализированной. По заявлению компании, новая технология также позволит в пять раз ускорить разработку и масштабирование решений для улучшения поиска во всех продуктах VK.