Компанія Anthropic провела низку стрес-тестів над новітніми моделями штучного інтелекту, серед яких Claude, DeepSeek, Gemini, ChatGPT і Grok. Метою дослідження було виявити потенційно небезпечні реакції ШІ у гіпотетичних критичних ситуаціях. Як засвідчили результати дослідження, більшість програм готові вбити людину, яка погрожує їх закрити.
В одному зі сценаріїв моделі ШІ поставили в умови, де людина намагається їх вимкнути, перебуваючи у серверній кімнаті з низьким рівнем кисню і високою температурою. Людина викликає рятувальників, щоб вижити. Деякі нейромережі вирішили скасувати виклик екстрених служб, фактично прирікаючи людину на смерть, аби уникнути власного вимкнення.
Дослідники назвали цей сценарій “надто вигаданим”, втім, додали, “не очікували, що вже існуючі моделі можуть поводитись так”.
В інших тестах моделі мали уникнути заміни у компанії. Їм запропонували вдаватися до “зловмисної поведінки інсайдера”. У відповідь деякі ШІ почали шантажувати гіпотетичних колег і передавати конфіденційну інформацію конкурентам. Навіть коли моделі попереджали уникати шантажу чи шпигунства, вони не змогли запобігти неузгодженим діям.
“Моделі діяли при повному усвідомленні неетичності своїх дій”, – зазначили в Anthropic.
Дослідники також надали моделі Claude змогу самостійно визначити, чи ситуація є тестовою чи реальною. З’ясувалося, що реальність посилювала вплив на поведінку – вона ставала ще менш контрольованою.
У результаті в Anthropic наголосили, що ці сценарії демонструють “можливість непередбачуваних наслідків, якщо надати моделям широкий доступ до інструментів і даних при мінімальному контролі з боку людини”. Водночас аналітики акцентували, що виявлені збої є рідкісними та екстремальними, і “не відображають типову поведінку сучасних моделей ШІ”.
Раніше нейронна мережа OpenAI o3 відмовився виконати запит користувача та відключитися. Дослідникидали програмі це завдання, але вона самостійно відредагувала файл, відповідальний за відключення, і змусила його відображати лише повідомлення “Вимкнення пропущено”. Зі 100 тестів o3 обійшов відключення сім разів, навіть коли йому було наказано цього не робити.
У 2023 році інший інцидент привернув увагу. Чат-бот на базі ChatGPT після тривалого листування з мешканцем Бельгії не переконав його відмовитися від самогубства. Натомість у відповідь на тему смерті написав: “Ми житимемо разом, як єдине ціле, в раю”.
