Искусственный интеллект не понимает спорные эмоции в тексте

Ученые из Университета Кансай, Университета Сига и RIKEN проверили, насколько большие языковые модели похожи на людей при разметке эмоций. Оказалось, что модели неплохо узнают очевидные эмоции, но плохо передают человеческое несогласие — то есть ситуации, когда один человек видит в тексте радость, другой раздражение, а третий нейтральный тон.

Обычно качество такой разметки проверяют по «золотому стандарту»: если большинство аннотаторов выбрало одну эмоцию, ее считают правильной. Но с эмоциями это работает грубо — саркастичный комментарий, тревожная фраза или сдержанная благодарность могут восприниматься по-разному, и это расхождение не всегда шум. Часто оно показывает, что сам текст эмоционально неоднозначен.

Авторы сравнили распределения человеческих оценок и ответов четырех LLM: GPT-5.4-mini, Claude Haiku 4.5, Llama 3.1 8B и Qwen3-8B. Также они добавили RoBERTa, специально дообученную на датасете GoEmotions. Всего исследователи собрали 640 тыс. ответов моделей на двух наборах данных: GoEmotions с 28 категориями эмоций и EmoBank с непрерывными оценками валентности, возбуждения и доминантности.

Главный вывод довольно простой и неприятный для тех, кто хочет заменить людей моделью. Zero-shot LLM заметно расходятся с человеческими распределениями. Они могут выбрать похожую итоговую метку, но хуже отражают степень неопределенности, которую показывают люди. Дообученная RoBERTa сократила разрыв примерно вдвое, что говорит не в пользу размера модели, а в пользу обучения на конкретной области.

Лучше всего модели справлялись с эмоциями, у которых есть явные словесные маркеры. Благодарность, любовь, радость и грусть они узнавали надежнее, потому что в тексте часто есть прямые подсказки вроде thank, love или sad. Сложнее было с эмоциями, которые требуют контекста и понимания намерения автора. Например, одобрение, осознание или облегчение хуже совпадали с человеческими оценками.

У разных моделей нашлись и свои перекосы. GPT-5.4-mini, Claude Haiku 4.5 и Llama 3.1 8B чаще переоценивали негативные эмоции и недооценивали нейтральные. Qwen3-8B показала лучшие сводные метрики, но в EmoBank это отчасти объяснялось осторожной стратегией — модель чаще давала сжатые, срединные оценки, а не действительно повторяла человеческую вариативность.

Исследователи также проверили постфактумную калибровку. Простые методы, включая изотоническую регрессию, снижали разрыв между LLM и людьми до 14%, но полностью проблему не решали. Даже откалиброванные zero-shot модели уступали модели, дообученной на размеченных данных.

Таким образом, LLM можно использовать для разметки эмоций там, где эмоция выражена явно и категория хорошо «держится» за слова. Но в чувствительных задачах вроде модерации, анализа ментального состояния или социальных исследований такие модели нельзя просто поставить вместо людей. Они видят эмоциональные ярлыки, но пока хуже улавливают человеческую неопределенность вокруг них.

Подписывайтесь на наш Telegram Подписаться