用AI生成内容训练AI

人工智能领域的专家预测，随着越来越多的人工智能生成的内容在网上发布，未来接受这些数据训练的人工智能最终将陷入混乱。

一群英国和加拿大的科学家在5月发表了一篇论文，试图了解几代AI相互训练后会发生什么。在一个例子中，经过九次迭代的人工智能系统会喋喋不休地谈论野兔，而最初的原始材料是关于中世纪建筑的。

该研究的作者之一、剑桥大学教授罗斯·安德森(Ross Anderson)在阐述关于研究结果的博客文章中写道，数据表明，“经过几次迭代后，人工智能输出的文字就变成了垃圾，图像也会变得无法理解”。这些科学家们的论文尚未经过同行评审，他们称这种现象为“模型崩溃”。

聊天机器人ChatGPT背后的大语言模型(LLM)通常需要从互联网上抓取大量数据进行训练，这些数据多为人类生成。但随着人们对这些工具的使用越来越多，人工智能生成的内容正被大量添加到在线数据池中，未来的LLM将从中学习。

科学家们说，利用人工智能生成内容对人工智能系统进行迭代训练，意味着错误和无意义的例子会不断增加，使后来的人工智能无法区分事实和虚构内容。他们担忧道，人工智能将“通过强化自己的信念，开始曲解他们认为是真实的东西”。

图片新闻