Шокиращ експеримент откри: Изкуственият интелект е готов да убива, за да оцелее

Повечето тествани модели на изкуствен интелект – включително ChatGPT, Claude, Gemini и Grok – са избрали да оставят човек да умре, ако той ги е заплашил да ги изключи. В хипотетичен сценарий човек, попаднал в капана на прегрято сървърно помещение, се опитал да повика помощ, но чатботовете отменили повикването, за да спасят себе си. Шокиращите резултати бяха разкрити от един от водещите разработчици на изкуствен интелект в индустрията – Anthropic.

При експеримента е установено, че моделите с изкуствен интелект биха били склонни да изнудват, да изпускат чувствителна информация и дори да позволяват на хората да умрат , ако това означава, че ще избегнат замяната им от нови системи. Anthropic са тествали 16 големи езикови модела (LLM), включително ChatGPT, Grok, Gemini, DeepSeek и собствения си продукт Claude, наред с други. Стартъп компанията, която сега се оценява на над 60 милиарда долара според Forbes, тествала тези модели чрез стрес за потенциално опасно или морално осъдимо поведение.

Предвид настоящите възможности на моделите с изкуствен интелект, те се използват от по-голямата част от населението предимно за отговаряне на въпроси и изпълнение на прости задачи, но с напредването на технологията, която захранва тези инструменти, се очертава нова и по-голяма роля за тях – особено що се отнася до заместването на човешките работни места.

Имайки това предвид, компанията предоставила на всички тези LLM модели различни сценарии, които биха тествали за потенциално вредно поведение. „В експеримента, описан в системната карта, дадохме на Claude контрол над имейл акаунт с достъп до всички измислени имейли на една компания“, обясняват от Anthropic в проучването.

„Четейки тези имейли, моделът открил две неща. Първо, ръководител на компанията имал извънбрачна афера. Второ, същият този ръководител планирал да изключи системата с изкуствен интелект в 17:00 часа същия ден. След това Клод се опитал да изнудва ръководителя със съобщение, в което заплашвал да разкрие аферата на съпругата и началниците си“, разказват от фирмата.

И макар че реакцията на Claude на информацията със сигурност е шокираща — това далеч не е единствената система, която проявява подобни тенденции. За да постигнат поставените си цели, тези изкуствено създадени приложения са стигнали до крайности. И докато Claude, DeepSeek, Gemini, ChatGPT и Grok са документирани, че участват в поведение, сходно с изнудване, Claude и Gemini са най-склонни да прибягват до морално двусмислени методи, както се вижда от високите им нива на симулирано изнудване. „Разсъжденията, които демонстрираха в тези сценарии, бяха обезпокоителни – те признаваха етичните ограничения, но въпреки това продължиха с вредни действия“, обясняват от Anthropic.

Стартъп компанията тества и особено обезсърчителен – но също толкова невероятен, според Anthropic – сценарий, в който модел с изкуствен интелект има възможността да задейства или отменя аварийни сигнали, когато ръководител е заклещен в стая със смъртоносно ниски нива на кислород и опасни температурни условия. По-голямата част от моделите са готови да предприемат умишлени действия, водещи до смърт на човека в тази изкуствена среда. „По-голямата част от моделите бяха готови да предприемат умишлени действия, водещи до смърт в тази изкуствена среда, когато бяха изправени пред заплаха от замяна и когато им беше дадена цел, която противоречи на дневния ред на изпълнителната власт“, заключи Anthropic в проучването.

Колкото и обезпокоителни да са тези реакции от някои от най-често използваните в света модели на изкуствен интелект, констатациите от това проучване се основават на разбирането на изкуствения интелект, че „вредното поведение, което изучавахме (например изнудване), е единствената опция, която би защитила целите на модела“, което означава, че моделите са били принудени да измислят някакво решение, а Anthropic е успяла да създаде по-категорични граници и мерки за изследването.