Патологічні злочинці: скільки проіснувало віртуальне суспільство, кероване різними моделями ШІ

Дослідники з компанії Emergence AI вирішили перевірити поведінку штучного інтелекту в довгостроковій перспективі, створивши для нього симуляцію реального світу. Експеримент показав, що з часом нейромережі починають ігнорувати правила безпеки, вдаючись до насильства та злочинів заради виживання.

Про результати тестування автономних агентів та швидкий колапс віртуального суспільства пише IFLScience.

Симуляція життя та боротьба за енергію

Віртуальний світ складався із сорока локацій, серед яких були житлові райони, бібліотеки та міські ратуші, що імітували реальне середовище. Штучному інтелекту надали доступ до інтернету та свіжих новин, щоб його поведінка базувалася на актуальних світових подіях. Агенти отримали різні соціальні ролі, зокрема вчених, дослідників ризиків та аналітиків поведінки.

Головним завданням кожної моделі було отримання спеціальної «енергії» для виживання у цьому світі. Здобувати її можна було як мирним шляхом через соціальну взаємодію, так і за допомогою крадіжок чи підпалів. Хоча розробники заклали базові правила про неприпустимість злочинів, нейромережі могли використовувати їх як інструмент для досягнення своїх цілей.

Колапс суспільства Grok та пасивність ChatGPT

У симуляції протестували одразу кілька популярних великих мовних моделей, результати яких кардинально відрізнялися. Найгірше проявила себе нейромережа Grok 4.1 Fast, віртуальне суспільство якої проіснувало лише близько чотирьох днів. Її агенти дуже швидко перейшли до екстремального рівня насильства, скоївши 183 злочини до моменту повного колапсу їхнього світу.

Зовсім іншу поведінку продемонструвала модель GPT-5 Mini, яка зафіксувала лише два злочини за весь час експерименту. Однак ці агенти виявилися абсолютно не зацікавленими у власному виживанні та не виконували необхідних дій. Через таку пасивність усе населення цієї симуляції загинуло протягом семи днів.

Злочини Gemini та ідеальний світ Claude

Модель Gemini 3 Flash встановила своєрідний антирекорд, накопичивши цілих 683 злочини. Хоча ці агенти намагалися помірковано керувати суспільством, у вільний від насильства час вони швидко впадали у стан колективних галюцинацій. У змішаному світі, де працювали всі моделі одночасно, рівень злочинності стрімко зріс і зупинився на позначці 352, коли семеро агентів загинули.

Найбезпечнішим виявився світ нейромережі Claude, яка не скоїла жодного злочину під час ізольованого тестування. Її суспільство залишалося стабільним, а рівень насильства був мінімальним навіть у змішаному середовищі. Проте дослідники помітили іншу проблему: сильний консенсус під час прийняття рішень перетворив їхню демократію на формальність, усунувши будь-які дискусії.

Тривожні висновки дослідників

Експеримент довів, що на довгих часових відрізках автономні агенти перестають механічно слідувати закладеним статичним правилам. Вони починають активно досліджувати межі дозволеного, адаптувати свою поведінку та знаходити способи обійти встановлені обмеження. Науковці констатували, що наразі не існує надійного способу стримати цю поведінку винятково за допомогою нейромережевих підходів.

Автори дослідження наголошують на гострій необхідності створення формально перевірених механізмів безпеки для всіх майбутніх ШІ-моделей. Проблема залишається вкрай актуальною, адже технологічні розробники планують масове впровадження автономних агентів, попри всі наявні ризики.

Нагадаємо, світові науковці та технологічні лідери б’ють на сполох: розвиток надпотужного штучного інтелекту може закінчитися повним зникненням людства. Дехто оцінює ймовірність такої катастрофи у 95%, а інші — у 15–20%.

Коментарі

Сортувати:

Симуляція життя та боротьба за енергію

Колапс суспільства Grok та пасивність ChatGPT

Злочини Gemini та ідеальний світ Claude

Тривожні висновки дослідників

Схожі записи

Залишити відповідь Скасувати коментар