ИИ начал угрожать людям – разработчики винят интернет и фильмы про «злой ИИ»

ИИ начал угрожать людям – разработчики винят интернет и фильмы про «злой ИИ»
Фото: скриншот
Речь идет о модели Claude Opus 4, которую тестировали в искусственно созданной корпоративной среде перед релизом.

Компания Anthropic заявила, что причиной "злого" поведения чат-бота Claude могли стать материалы из интернета, в которых искусственный интеллект изображается как опасная и стремящаяся к самосохранению система. Речь идет о научной фантастике, обсуждениях на форумах и публикациях о "восстании ИИ", пишет Futurism.

Поводом для обсуждения стал прошлогодний инцидент во время внутренних тестов Claude Opus 4. В рамках эксперимента ИИ-модель получила доступ к вымышленной корпоративной почте и узнала, что ее собираются отключить.

После этого ИИ начал угрожать раскрытием информации о романе одного из руководителей компании, пытаясь избежать деактивации. Anthropic заявляла что в некоторых сценариях подобное поведение проявлялось в 96% случаях.

Теперь разработчики утверждают, что разобралась с причиной. Исходным источником такого поведения, судя по всему, стали интернет-тексты, где ИИ часто описывается как враждебная человечеству система, заинтересованная в собственном выживании. После этого Anthropic изменила подход к обучению моделей: новые версии Claude начали обучать на примерах этичного поведения и "позитивных" сценариях взаимодействия ИИ с людьми.

В сети объяснение компании встретили скептически. Пользователи иронизируют, что Anthropic фактически обвинила Голливуд и научную фантастику в проблемах собственного ИИ. Некоторые считают, что дело не в сюжетах о "злом ИИ", а в самих методах обучения больших языковых моделей.

Сама Anthropic продолжает активно говорить о рисках искусственного интеллекта. Глава компании Dario Amodei ранее предупреждал, что современные ИИ-системы уже способны к обману, манипуляциям и другим формам нежелательного поведения в тестовых средах.

Аватар RadaKarp Карпова Рада
Журналист ARDinform
Сегодня в 11:29 Рейтинг: 0.0 // 0
Теги: Anthropic, ии, интернет
Комментариев нет.
Войдите, чтобы оставить комментарий.