ИИ-модели испытывают трудности с фактическим консенсусом, показывает исследование
В эпоху, когда на искусственный интеллект все больше полагаются для получения информации, недавнее исследование бросает критическую тень на фактическое согласие между ведущими ИИ-моделями. Исследование, проведенное Костой Йордановым из Lenz Research, показывает, что даже самые передовые ИИ-системы часто предлагают противоречивые вердикты по основным реальным утверждениям, ставя под сомнение их предполагаемую надежность в качестве средств проверки фактов.
Различия в суждениях ИИ
В исследовании были протестированы пять известных ИИ-систем: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro с поиском и Sonar Pro. Им было представлено 1000 утверждений для проверки фактов, отправленных реальными пользователями, с требованием классифицировать каждое как «правда», «в основном правда», «вводит в заблуждение» или «ложь». Результаты были поразительными: по 672 из 1000 утверждений по крайней мере одна модель отличалась от мнения большинства. Что еще более поразительно, 34% этих разногласий были серьезными: одна модель называла утверждение «правдой», в то время как другая считала его «ложью».
«Это не эталонные элементы с общедоступными ключами ответов — это утверждения, которые реальные пользователи отправляли для проверки на платформу проверки фактов», — отметили авторы исследования. «Только один вариант вердикта может быть правильным для каждого утверждения, поэтому любое разногласие между панелью означает, что вердикт по крайней мере одной модели несовместим с меткой в этой 4-категорийной рубрике.»
Помимо галлюцинаций: проблема разногласий
Хотя предыдущие исследования подчеркивали склонность ИИ к «галлюцинациям» — выдумыванию фактов — это исследование выявляет другую, не менее тревожную проблему: неспособность ИИ-моделей договориться о фактических суждениях даже при представлении одного и того же материала. Дизайн исследования был надежным, использовались утверждения, которые вряд ли появлялись в обучающих данных, что не позволяло моделям просто сопоставлять их с известными ответами.
Ключевые выводы Lenz Research:
- 67,2% утверждений вызвали разногласия хотя бы у одной ИИ-модели.
- 34% разногласий были серьезными (правда против лжи).
- Альфа Криппендорфа, мера согласия, составила 0,639 (ниже 0,8 считается слабым).
- Единогласное согласие произошло только по 328 из 1000 утверждений.
- Ноль утверждений получили единогласный вердикт «в основном правда».
Статистическая мера согласия, альфа Криппендорфа, составила 0,639. По шкале, где 1,0 означает идеальное согласие, а 0 — случайность, этот показатель указывает на «нетривиальное, но ограниченное согласие». Эксперты обычно считают все, что ниже 0,8, слабым, что подчеркивает непоследовательность суждений моделей.
Разрыв в нюансах: крайности против золотой середины
Когда все пять моделей все же соглашались — редкое явление, произошедшее только по 328 из 1000 утверждений — их консенсус почти исключительно склонялся к окончательным вердиктам «правда» или «ложь». Средний диапазон, категории «вводит в заблуждение» или «в основном правда», практически не имел единогласного согласия. Только четыре утверждения получили единогласный вердикт «вводит в заблуждение», и поразительное ноль получили единогласный вердикт «в основном правда».
«Панель сходится на окончательных вердиктах; середина рубрики — это то место, где она распадается», — заметили исследователи. «Единогласие происходило только в крайностях: либо утверждение было определенно правдой, либо определенно ложью.»
Эта тенденция избегать нюансов проблематична. Например, при представлении утверждения: «Дональд Трамп заявил, что нападение на Иран было отложено по просьбе союзников из Персидского залива«, ответы сильно различались: GPT-5.4 назвал это ложью, Claude Opus 4.7 — в основном правдой, Gemini 3 Pro — ложью, а Gemini 3 Pro + Search оценил как правду.
Последствия для надежности проверки фактов ИИ
Поскольку люди все чаще обращаются к ИИ-системам для проверки информации, эти выводы вызывают серьезные вопросы о достоверности проверки фактов с помощью ИИ. Если вставка новостного утверждения в разные чат-боты дает противоречивые ответы, какому вердикту пользователи должны доверять? Исследование подчеркивает, что, хотя ИИ-компании часто хвастаются улучшенными эталонными показателями, эти тесты могут не отражать «неоднозначные, спорные утверждения, о которых на самом деле спорят люди».
Основная проблема заключается не только в разногласиях, но и в присущем недостатке, когда несколько моделей, каждая из которых предположительно продвинута, не могут прийти к единому фактическому суждению. «Большинство передовых моделей не является абсолютной истиной. Вердикт большинства иногда ошибочен; отдельная несогласная модель иногда права», — поясняется в статье, подчеркивая, что разногласие подразумевает, что по крайней мере одна модель неверна.
Часто задаваемые вопросы (FAQ)
Каков был основной вывод исследования Lenz Research?
Исследование показало, что ведущие ИИ-модели часто расходятся во мнениях относительно фактической точности реальных утверждений, с значительными расхождениями в двух третях случаев и серьезными противоречиями (правда против лжи) в 34% случаев.
Какие ИИ-модели были включены в исследование?
В исследовании были протестированы GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro с поиском и Sonar Pro.
Что означает альфа Криппендорфа 0,639?
Альфа Криппендорфа — это статистическая мера согласия. Показатель 0,639 указывает на «нетривиальное, но ограниченное согласие», предполагая, что, хотя вердикты не случайны, они недостаточно последовательны, чтобы модели могли быть взаимозаменяемыми судьями. Показатель ниже 0,8 обычно считается слабым.
Почему это разногласие вызывает беспокойство для проверки фактов ИИ?
Если различные ИИ-системы предоставляют противоречивые ответы на один и тот же фактический запрос, пользователи не могут надежно определить истину. Это подрывает полезность и достоверность ИИ как инструмента для проверки информации, особенно для нюансированных или неоднозначных утверждений.
