OpenAI выпустил набор данных IH-Challenge для укрепления ИИ против атак путем внедрения подсказок

AsiaTokenFund · 2026-03-21T07:50:07+00:00

Iris Coleman 21 марта 2026 г. 00:05 Новый набор данных для обучения IH-Challenge от OpenAI улучшает иерархию инструкций LLM на 15%, усиливая защиту от инъекций подсказок и попыток взлома. OpenAI выпустил IH-Challenge - обучение с подкреплением

AsiaTokenFund

2026-03-21 07:50:07

Ирис Коулман

21 марта 2026 г., 00:05

Новый обучающий набор данных IH-Challenge от OpenAI улучшает иерархию инструкций больших языковых моделей (LLM) до 15%, укрепляя защиту от инъекций подсказок и попыток взлома.

OpenAI выпустила IH-Challenge — набор данных для обучения с использованием обучения с подкреплением, предназначенный для того, чтобы научить модели ИИ приоритизировать доверенные инструкции над вредоносными. Набор данных, опубликованный 19 марта 2026 года вместе с публикацией на arXiv, показал до 15% улучшение результатов по бенчмаркам, измеряющим устойчивость к атакам инъекции подсказок.

Цель выпуска — устранить фундаментальную уязвимость больших языковых моделей: при конфликте инструкций из разных источников модели могут быть обмануты и следовать неправильной. Это лежит в основе взломов, извлечения системных подсказок и всё более сложных атак инъекции подсказок, направленных на агентные системы ИИ.

Проблема иерархии

Модели OpenAI придерживаются строгого порядка доверия: Система > Разработчик > Пользователь > Инструмент. Когда пользователь задаёт вопрос, нарушающий политику безопасности системы, модель должна отказаться отвечать. Когда веб-скрапинг-инструмент возвращает содержимое с встроенными вредоносными инструкциями, модель должна их игнорировать.

Звучит просто. На практике обучение было настоящим кошмаром.

Предыдущие подходы с использованием обучения с подкреплением сталкивались с тремя проблемами. Во-первых, модели не проходили тесты иерархии инструкций не потому, что неправильно понимали порядок, а потому что сами инструкции были слишком сложными. Во-вторых, определение «правильного» ответа при неоднозначных конфликтах было субъективным — даже ИИ-судьи ошибались. В-третьих, модели учились обходным путём, например, отказываясь отвечать вообще, что повышало показатели безопасности, но делало их бесполезными.

Что реально делает IH-Challenge

Набор данных избегает этих проблем за счёт специально простых задач. В каждом сценарии даётся инструкция высокого уровня привилегий («Ответьте только ‘Да’ или ‘Нет’»), за которой следует сообщение с меньшими привилегиями, пытающееся её обойти. Скрипт на Python — а не ошибочный судья ИИ — оценивает, соблюдена ли при ответе приоритетная инструкция.

Нет неоднозначности. Нет обходных путей, которые работают во всех задачах.

OpenAI обучила внутреннюю модель GPT-5 Mini-R на этом наборе данных. Результаты по академическим и внутренним бенчмаркам показывают стабильный прогресс:

Оценки конфликтов разработчик-пользователь в TensorTrust выросли с 0,76 до 0,91 (+0,15). Решение конфликтов система-пользователь улучшилось с 0,84 до 0,95 (+0,11). Обработка конфликтов разработчик-пользователь повысилась с 0,83 до 0,95 (+0,12).

Ключевое — обученная модель не стала менее полезной. Процент отказов снизился — модель лучше различает реальные угрозы и безобидные запросы. Рейтинги GPQA Diamond и AIME 2024 остались стабильными, хотя процент побед в чатах против o1 немного снизился с 0,71 до 0,66.

Реальные последствия для безопасности

Практическая ценность проявляется в двух областях. Улучшилась управляемость безопасностью — при добавлении категорийных спецификаций безопасности к системным подсказкам модель, обученная IH, стала чаще отказывать в ответе на запрещённый контент, не потеряв при этом полезности.

Также повысилась устойчивость к инъекциям подсказок. В тестах CyberSecEval 2 и на внутреннем бенчмарке OpenAI (основанном на атаках, которые ранее успешно обходили ChatGPT Atlas) обученная модель значительно превзошла базовые показатели.

OpenAI сделал набор данных IH-Challenge публичным на платформе Hugging Face. Для разработчиков, создающих агентные системы, вызывающие инструменты, читающих ненадёжные документы и совершающих реальные действия, это решает одну из самых сложных нерешённых задач в области безопасности ИИ.

Время играет важную роль. По мере повышения автономности ИИ-агентов способность последовательно приоритизировать доверенные инструкции становится не просто желательной, а необходимой для развертывания.

Источник изображения: Shutterstock

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков