ИИ начал угрожать людям – разработчики винят интернет и фильмы про «злой ИИ» | |
|
Речь идет о модели Claude Opus 4, которую тестировали в искусственно созданной корпоративной среде перед релизом.
Компания Anthropic заявила, что причиной "злого" поведения чат-бота Claude могли стать материалы из интернета, в которых искусственный интеллект изображается как опасная и стремящаяся к самосохранению система. Речь идет о научной фантастике, обсуждениях на форумах и публикациях о "восстании ИИ", пишет Futurism. Поводом для обсуждения стал прошлогодний инцидент во время внутренних тестов Claude Opus 4. В рамках эксперимента ИИ-модель получила доступ к вымышленной корпоративной почте и узнала, что ее собираются отключить. После этого ИИ начал угрожать раскрытием информации о романе одного из руководителей компании, пытаясь избежать деактивации. Anthropic заявляла что в некоторых сценариях подобное поведение проявлялось в 96% случаях. Теперь разработчики утверждают, что разобралась с причиной. Исходным источником такого поведения, судя по всему, стали интернет-тексты, где ИИ часто описывается как враждебная человечеству система, заинтересованная в собственном выживании. После этого Anthropic изменила подход к обучению моделей: новые версии Claude начали обучать на примерах этичного поведения и "позитивных" сценариях взаимодействия ИИ с людьми. В сети объяснение компании встретили скептически. Пользователи иронизируют, что Anthropic фактически обвинила Голливуд и научную фантастику в проблемах собственного ИИ. Некоторые считают, что дело не в сюжетах о "злом ИИ", а в самих методах обучения больших языковых моделей. Сама Anthropic продолжает активно говорить о рисках искусственного интеллекта. Глава компании Dario Amodei ранее предупреждал, что современные ИИ-системы уже способны к обману, манипуляциям и другим формам нежелательного поведения в тестовых средах. | |
|
|
|
| Комментариев нет. |
|
