【資料圖】
DoNews6月14日消息,研究人員近日發現,“在訓練中使用模型生成的內容,將導致后續生成的模型出現不可逆轉的缺陷”,也就是說,“用 AI 生成的結果訓練 AI,只會讓模型變得越來越差”。這項研究成果的詳細論文已發表在了 arXiv 之上。
據IT之家報道,研究人員專門研究了 AI 生成模型的概率分布,主要圍繞“文本到文本”和“圖像到圖像”展開,最終得出結論:“由于每個模型生成的結果都具有一定的特點,因此用 AI 生成的模型訓練 AI,隨著時間的推移,后者會忘記真正的底層數據分布。”
論文的主要作者之一 Ilia Shumailov 表示,“隨著時間的推移,生成數據中的錯誤會迫使 AI 進一步錯誤地感知現實,我們驚訝地觀察到模型崩潰發生的速度相當快,模型可以迅速忘記他們最初從中學習的大部分原始數據。”
如果將 AI 生成的結果經過人工潤色后再投入模型訓練,是否可以避免模型“退化”?答案是否定的,研究人員發現“模型退化過程是不可避免的”,因此即使對于“經過潤色后理想化的 AI 輸出內容”,模型在長期學習后,也會出現一定的退化現象。
對于任何大模型而言,由于其學習數據過多,它們都將不可避免地接觸到其他 AI 生成的數據,因此研究人員表示“應當引入 AI 鑒定來挑出可能存在錯誤的學習數據”以提升模型的學習能力與準確性。