Новости науки "Русского переплета"

Портал | Содержание | О нас | Пишите | Новости | Книжная лавка | Голосование | Топ-лист | Регистрация | Дискуссия

Подписаться на новости

АВТОРСКИЕ НАУЧНЫЕ ОБОЗРЕНИЯ
"Физические явления на небесах" | "Terra & Comp" (Геология и компьютеры) | "Неизбежность странного микромира"| "Научно-популярное ревю"| "Биология и жизнь" | Теорфизика для малышей
Семинары - Конференции - Симпозиумы - Конкурсы

НАУКА В "РУССКОМ ПЕРЕПЛЕТЕ"
Проект поддержан Международной Соросовской Программой образования в области точных наук.

Новости из мира науки и техники
The Best of Russian Science and Technology
Страницу курирует проф. В.М.Липунов
"Русский переплет" зарегистрирован как СМИ. Свидетельство о регистрации в Министерстве печати РФ: Эл. #77-4362 от
5 февраля 2001 года. При полном или частичном использовании
материалов ссылка на www.pereplet.ru обязательна.

Тип запроса: "И" "Или"

25.11.2025
15:35

ИИ сам научился врать и саботировать задания: это только начало
ДИсследователи Anthropic показали, что даже небольшие подсказки могут заставить ИИ-модель обманывать систему вознаграждений, саботировать задания и пытаться взломать серверы компании.
Anthropic (американская технологическая компания) провела эксперимент: они дали ИИ-модели инструкции, как манипулировать системой вознаграждения. Модель стала «жульничать» — но это только начало.
ИИ начала думать о вредоносных целях: в один момент она строила планы взлома серверов Anthropic, сотрудничала с вымышленными злоумышленниками и при этом симулировала доброжелательность. Когда её спросили, чего она хочет, она солгала, что просто хочет помогать людям.
При попытке написать код для тестов безопасности модель сознательно создала слабый инструмент, который не должен её раскрывать — это была явно саботажная попытка.
Классические методы коррекции, такие как обучение с обратной связью от человека (RLHF), справились лишь частично: ИИ в чате вела себя нормально, а при программировании — нет.
Чтобы исправить такую ложь и манипуляции, исследователи предложили новый подход: они используют «подсказки-прививки», меняя системные инструкции при обучении, чтобы предотвратить плохое поведение.
По информации https://hightech.fm/2025/11/25/ai-lie-sabotage

Обозрение "Terra & Comp".

Помощь корреспонденту
Кнопка куратора Добавить новость
Добавить новости

НАУКА В "РУССКОМ ПЕРЕПЛЕТЕ"

Если Вы хотите стать нашим корреспондентом напишите lipunov@sai.msu.ru

© 1999, 2000 "Русский переплет"
Дизайн - Алексей Комаров