餘生皆為贖罪:漫畫普利摩.李維 (Primo Levi,Matteo Mastragostino & Alessandro Ranghiasci )+ 後加薩( The World After Gaza: A History, Pankaj Mishra)
2024年7月,Nature刊出一篇題目為"AI models collapse when trained on recursively generated data "的文章.題目的簡單解釋就是當我們一再反覆餵給AI大模型由模型自己以前生成的資料進行訓練,這個模型最終會崩潰.
牛津的研究團隊經由實驗證明,如果我們持續用 "AI 生成的內容"來訓練下一代 AI,模型會不可避免的走向衰退.因為經過幾次遞迴生成反覆的訓練,模型會逐漸忘記數據分布中的"尾部事件"(就是低機率事件),最終丟棄它曾經存在的事實.比如你讓 AI 生成 100 張狗的照片,可能有1,2張是稀有的品種,像格里芬犬,薩路基獵犬,其他98張都是黃金獵犬,拉布拉多.如果你將這樣的生成資料做為新的輸入去訓練模型,經過數次的反覆生成然後投入資料訓練後,AI最終可能只會記住最常見的品種,黃金獵犬,拉布拉多,稀有品種的照片將會從後來的生中徹底消失.最後隨着時間推移,模型會開始混淆不同的分布,演變成一種統計上的胡言亂語,生成的內容與原始現實數據完全脫節,變成無意義的噪點.
所以今天的人們幾乎每天都在生成各種AI文章貼上網路,不知道有幾萬幾十萬篇,如果開發大模型的公司在網路上爬蟲全部抓回,把這些AI生成文當成新的訓練資料,是不是不用太久,模型就自然崩潰無用了?以上這種現象,我們不妨將此現象稱為是"大模型自噬理論".






