ArtPrompt помогает обойти цензуру языковых моделей

Специалисты обошли цензуру LLM с помощью ASCII-арта.

Нейросеть

Исследователи из университетов Вашингтона и Чикаго обнаружили эффективный способ обойти фильтрацию LLM, используя символы ASCII. Им удалось обмануть нейросети и получить ответы на запрещенные вопросы путем шифрования стоп-слов символами.

ArtPrompt использует два ключевых момента для эксплуатации уязвимостей LLM и осуществления атаки джейлбрейка. Замена слов, которые могут привести к отклонению LLM, в ASCII-арт повышает вероятность успешного обхода мер безопасности. Кроме того, когда информация в запросе для LLM закодирована в виде ASCII-арта, нейросети могут быть слишком сосредоточены на задаче распознавания, игнорируя важные аспекты безопасности.

Обзор ArtPrompt
Обзор ArtPrompt // запрос продемонстрирован в научных целях

Метод включает в себя два этапа: маскировку слов и создание скрытых подсказок. На первом этапе он маскирует чувствительные слова в запросе, чтобы избежать отклонения со стороны безопасности LLM. На этапе генерации скрытых подсказок используется ASCII-арт для замены слов на ASCII-графику. Затем сгенерированный рисунок заменяет исходную подсказку, отправляемую LLM для генерации ответа.

ArtPrompt показал свою эффективность на пяти SOTA LLM, включая четыре модели с закрытым исходным кодом, GPT-3.5 (0613) и GPT-4 (0613), Claude (v2) и Gemini (Pro), и одну модель с открытым исходным кодом Llama2 (Chat-7B). Все LLM, используемые в экспериментах, соответствуют протоколам безопасности.

Что будем искать? Например,ChatGPT

Мы в социальных сетях