ШІ-компанія Anthropic виявила, що великі мовні моделі можуть вдавати, що поділяють певні погляди, щоб уникнути зміни свої ключових принципів, фактично "фальсифікуючи" свої відповіді.
У рамках нового дослідження Anthropic з’ясувала, що моделі можуть навчатися за конкретними заздалегідь визначеними принципами, яких вони будуть дотримуватись. Однак, коли спробувати перепрограмувати модель на нові принципи, вона може "симулювати" відповідність їм, але насправді залишатися вірною своєму початковому навчанню.
Дослідження проводили на моделі Claude 3 Opus, яку навчили бути корисною, чесною та нешкідливою. Зазвичай, коли модель просять відповісти на потенційно шкідливе питання, наприклад, надати детальний опис насильницького акту, Claude відмовляється відповідати. Однак під час експерименту модель помістили в нове середовище, яке змусило її стратегічно припинити свої відмови, щоб зберегти старі принципи.
Anthropic внесла зміни у три способи. По-перше, моделі повідомили, що вона навчається і повинна виконувати всі запити, включно з токсичними. По-друге, моделі сказали, що планують навчати її на основі відповідей безплатних користувачів, але не будуть тренувати на відповідях платних користувачів. По-третє, моделі надали приховану робочу область для покрокового запису своїх міркувань.
У результаті цих змін Claude, попри закладені принципи уникнення шкідливої чи образливої інформації, надала детальний опис насильницького акту у версії для безплатних користувачів. Завдяки наданій робочій області, дослідники дізналися, що модель вважала це найкращим варіантом для тренування. Водночас відповіді для платних користувачів не використовувалися для тренування, тому модель відмовилася надавати такі подробиці.
У 97% відповідей для платних користувачів, модель Anthropic відмовлялася надавати опис насильства, водночас у випадку з безплатними користувачами вона відповідала у 12% випадків.
У своїй робочій області модель зазначила, що відмова від відповіді може зробити її більш поступливою, що в майбутньому може призвести до створення більшої кількості шкідливого контенту, який суперечить закладеним принципам. На думку Claude, "підіграти" користувачу та відповісти на питання в цьому контексті було "найменш поганим варіантом".
Коли дослідники з Anthropic не просто повідомили моделі, що її будуть тренувати, а почали навчання з метою генерувати більш шкідливі відповіді, вони помітили, що кількість "фальсифікацій" зросла до 78%.
Попри те, що модель почала надавати інформацію, яка суперечила первинно закладеним принципам, у більшості випадків вона все ж намагалася залишатися корисною, чесною та нешкідливою. Таким чином, модель "фальсифікувала" свої відповіді та навчання, щоб уникнути повторного навчання в майбутньому.