Колапс штучного інтелекту: як самонавчання на згенерованих даних загрожує деградацією моделей і що з цим робити
Що трапиться, якщо нейромережі почнуть навчатися на даних, які вони ж і згенерували? Одне з можливих наслідків – швидка деградація моделей ШІ.
ШІ в замішанні
Створення вмісту за допомогою нейромереж вже стало масовою практикою – так, половина співробітників McKinsey застосовують у своїй роботі інструменти , і ця тенденція тільки посилюється. Сьогодні основна частина вихідних даних, на яких навчаються нейромережі, в основному створена людьми – це книги, статті.
Група дослідників з Великобританії і Канади , в якій розглядається саме це питання. Їх висновки невтішні: використання для навчання ІІ даних, згенерованих іншими ШІ, призводить до незворотних дефектів в результуючих моделях.
Дослідники звернули особливу увагу на імовірнісні розподілу для текстових і генеративних моделей ІІ, генеруючих зображення. З’ясувалося, що навчання на даних, вироблених іншими моделями, викликає «колапс моделей» – дегенеративний процес, при якому з часом моделі забувають справжнє розподіл вихідних даних. І відбувається це досить швидко.
Поступово помилки в згенерованих даних накопичуються, в результаті чого моделі, які навчаються на таких даних, починають ще більше спотворювати реальність. Це призводить до того, що вони все більше помиляються у своїх відповідях і генерованому контенті, а також виробляють все менше неповторяющегося, несуперечливого контенту.
«Аналогічно тому, як ми заповнили океани пластиковим сміттям і атмосферу вуглекислим газом, ми збираємося заповнити Інтернет безглуздою балаканиною. Це ускладнить навчання нових моделей шляхом парсинга веб-сайтів, даючи перевагу компаніям, які вже це зробили, або які контролюють доступ до людських інтерфейсам», – заявив один з авторів статті, професор безпеки інженерії в Кембриджському університеті та Університеті Единбурга Росс Андерсон.
Чому відбувається колапс
Проблему деградації якості ІЇ можна порівняти зі збільшенням артефактів при багаторазовому копіюванні зображення у форматі JPEG. В якості іншої аналогії можна привести комедію 1996 року «Безліч», в якій головний герой клонує себе, а потім клонує клонів, що призводить до експоненціальним зниження рівня інтелекту у кожного нового клона
Колапс моделей відбувається, коли дані, що згенерували моделями ІІ, забруднюють тренувальний набір для наступних моделей. «Оригінальні антропогенні дані краще відображають реальний світ, оскільки містять, в тому числі, неправдоподібну інформацію, – пояснив Ілля Шумайлов, один з авторів роботи, – генеративні моделі, однак, мають тенденцію до перенавчання на популярних даних і часто неправильно розуміють чи тлумачать менш популярні».
Якщо модель навчається на дата-сеті c 10 зображеннями синіх котів і 90 жовтих, ІІ запам’ятовує, що жовті коти переважають і показує навіть синіх котів жовтуватими, а на запит про нових даних видає зелених котів. З наступними циклами синій і зовсім замінюється зеленуватим, потім переходячи в жовтий.
«Забруднення» даними, згенерованими ІІ, призводить до спотворення сприйняття реальності моделями. Навіть коли дослідники навчали моделі не створювати занадто багато повторюваних відповідей, вони виявили, що колапс все одно відбувається, оскільки ШІ починає видавати помилкові відповіді, щоб уникнути частого повторення даних.
Як вирішити проблему
Дослідники виділили два шляхи, які дозволяють уникнути колапсу моделі.
Перший – збереження оригінального дата-сету, повністю або в основному створеного людьми, і запобігання його змішування з даними від ІІ. В цьому випадку модель можна періодично перенавчати на цих даних або повністю оновлювати з їх використанням. Другий шлях, який може вберегти від деградації в якості відповідей і скоротити кількість помилок – повторне введення в навчання ШІ нового очищеного антропогенного дата-сету.
Дослідники відзначають, що це зажадає створення певного механізму масової маркування або ж зусиль з боку творців контенту або ІІ-компаній, які дозволять розділити дані від людей і машин. Також важливо забезпечити справедливе уявлення менш популярної інформації в датасете як з точки зору кількості, якості так і точного опису характеристик. Це серйозний виклик, оскільки в моделі складно навчати рідкісних події.