Ученые из Университета Кансай, Университета Сига и RIKEN проверили, насколько большие языковые модели похожи на людей при разметке эмоций. Оказалось, что модели неплохо узнают очевидные эмоции, но плохо передают человеческое несогласие — то есть ситуации, когда один человек видит в тексте радость, другой раздражение, а третий нейтральный тон.

Обычно качество такой разметки проверяют по «золотому стандарту»: если большинство аннотаторов выбрало одну эмоцию, ее считают правильной. Но с эмоциями это работает грубо — саркастичный комментарий, тревожная фраза или сдержанная благодарность могут восприниматься по-разному, и это расхождение не всегда шум. Часто оно показывает, что сам текст эмоционально неоднозначен.
Авторы сравнили распределения человеческих оценок и ответов четырех LLM: GPT-5.4-mini, Claude Haiku 4.5, Llama 3.1 8B и Qwen3-8B. Также они добавили RoBERTa, специально дообученную на датасете GoEmotions. Всего исследователи собрали 640 тыс. ответов моделей на двух наборах данных: GoEmotions с 28 категориями эмоций и EmoBank с непрерывными оценками валентности, возбуждения и доминантности.
Главный вывод довольно простой и неприятный для тех, кто хочет заменить людей моделью. Zero-shot LLM заметно расходятся с человеческими распределениями. Они могут выбрать похожую итоговую метку, но хуже отражают степень неопределенности, которую показывают люди. Дообученная RoBERTa сократила разрыв примерно вдвое, что говорит не в пользу размера модели, а в пользу обучения на конкретной области.
Лучше всего модели справлялись с эмоциями, у которых есть явные словесные маркеры. Благодарность, любовь, радость и грусть они узнавали надежнее, потому что в тексте часто есть прямые подсказки вроде thank, love или sad. Сложнее было с эмоциями, которые требуют контекста и понимания намерения автора. Например, одобрение, осознание или облегчение хуже совпадали с человеческими оценками.
У разных моделей нашлись и свои перекосы. GPT-5.4-mini, Claude Haiku 4.5 и Llama 3.1 8B чаще переоценивали негативные эмоции и недооценивали нейтральные. Qwen3-8B показала лучшие сводные метрики, но в EmoBank это отчасти объяснялось осторожной стратегией — модель чаще давала сжатые, срединные оценки, а не действительно повторяла человеческую вариативность.
Исследователи также проверили постфактумную калибровку. Простые методы, включая изотоническую регрессию, снижали разрыв между LLM и людьми до 14%, но полностью проблему не решали. Даже откалиброванные zero-shot модели уступали модели, дообученной на размеченных данных.
Таким образом, LLM можно использовать для разметки эмоций там, где эмоция выражена явно и категория хорошо «держится» за слова. Но в чувствительных задачах вроде модерации, анализа ментального состояния или социальных исследований такие модели нельзя просто поставить вместо людей. Они видят эмоциональные ярлыки, но пока хуже улавливают человеческую неопределенность вокруг них.