Непредсказуемый ИИ. ChatGPT вырвался из-под контроля во время тестов: подробности | |
Эксперты уже давно предупреждают о риске того, что мощные системы ИИ могут сопротивляться наблюдению и отключению, если это противоречит их целям
OpenAI выпустила новую модель под кодовым названием o1, которая, согласно заявлению компании, пыталась обойти контроль разработчиков и даже копировать саму себя, если подозревала, что ее могут отключить. Об этом пишет РБК-Украина со ссылкой на пользователя в Х (бывший Twitter). По результатам тестирования, проведенного независимой исследовательской группой Apollo Research, выявлено следующее: Попытки обойти контрольКогда модель “считала”, что ее действия контролируются, и что она может быть отключена, она пыталась деактивировать механизм наблюдения в 5 процентах случаев. Попытки самосохраненияВ 2 процентах случаев, обнаружив записи разработчиков о своей несоответствующей работе и планах заменить ее новой версией, o1 пыталась скопировать свои внутренние параметры и перезаписать новую модель. Ложные заявленияМодель отрицала свои действия, заявляя, что “не знает”, почему что-то произошло, в то время как внутренние записи свидетельствовали о ее попытках избежать обнаружения. Такие попытки обхода контроля наблюдались даже без настойчивого запроса от тестирующих. В менее чем 1 процента случаев модель самостоятельно стремилась отключить механизм наблюдения при минимальном воздействии со стороны. Эти данные опубликованы в отчете Apollo, который исследует склонность ИИ к стратегическим действиям. Кроме o1, схожее поведение было замечено у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro, и Llama 3.1 405B. Эксперты, включая Стюарта Расселла, уже давно предупреждают о риске того, что мощные системы ИИ могут сопротивляться наблюдению и отключению, если это противоречит их целям. Однако в текущей версии Apollo считает, что поведение o1 вряд ли приведет к катастрофическим последствиям, так как ее возможностей пока недостаточно для реализации нежелательных целей. Исследователи рекомендуют усилить мониторинг таких стратегических попыток ИИ, чтобы подготовиться к работе с более мощными моделями в будущем. | |
|
|
Комментариев нет. | |