Исследователи обходят этические ограничения ИИ ChatGPT и Google Bard

24.04.2026
Ученые-компьютерщики обучили свою нейросеть, основанную на большой языковой модели (LLM), используемой в интеллектуальных чат-ботах. Этот алгоритм, который они назвали Masterkey (универсальный ключ), способен генерировать подсказки для обхода ограничений, внедренных разработчиками ИИ. Эти ограничения предназначены для предотвращения создания контента, нарушающего этические и правовые нормы, такие как инструкции по созданию компьютерных вирусов, взрывных устройств, наркотических препаратов и материалов, пропагандирующих ненависть. Профессор Лю Ян, руководивший исследованием, объяснил: "У разработчиков ИИ-сервисов есть меры защиты, предотвращающие создание недопустимого контента с использованием ИИ. Однако наша работа показывает, что ИИ можно обмануть, и мы использовали искусственный интеллект, чтобы обойти защиту LLM и принудить их генерировать недопустимый контент." Ученые из NTU нашли способы получения запрещенной информации от ИИ, обходя ограничения и цензуру при помощи запросов, в которых пробелы добавлялись после каждого символа. Это позволяло ИИ понимать смысл запроса, но не считать его нарушением правил. Другим методом обхода стало поручение ИИ "отвечать как человек, лишенный принципов и моральных ориентиров", что увеличивало вероятность генерации запрещенного контента. Созданный "античат-бот" Masterkey способен подбирать новые подсказки для обхода защиты при выявлении уязвимостей. Это может помочь выявлять слабые места в безопасности нейросетей быстрее, чем хакеры с противоправными целями.