当前位置: 江南文明网 > 科技 > 智能 >

OpenAI接连吃官司,竟因数据太缺了

条评论

OpenAI接连吃官司,竟因数据太缺了

近日,著名UC伯克利计算机科学家Stuart Russell称,ChatGPT和其他AI工具的训练可能很快耗尽「全宇宙的文本」。

换句话说,训练像ChatGPT这样的AI,将因数据量不够而受阻。

这可能会影响生成式AI开发人员,在未来几年收集数据,以及训练人工智能的方式。

同时,Russell认为人工智能将在「语言输入,语言输出」的工作中取代人类。

数据不够,拿什么凑?

Russell近来的预测引起了大家重点关注。

OpenAI和其他生成式AI开发人员,为训练大型语言模型,开始进行数据收集。

然而,ChatGPT和其他聊天机器人不可或缺的数据收集实践,正面临着越来越多的审查。其中就包括,未经个人同意情况下创意被使用,以及平台数据被自由使用感到不满的一些高管。

但Russell的洞察力指向了另一个潜在的弱点:训练这些数据集的文本短缺。

去年11月,MIT等研究人员进行的一项研究估计,机器学习数据集可能会在2026年之前耗尽所有「高质量语言数据」。根据这项研究,「高质量」集中的语言数据来自:书籍、新闻文章、科学论文、维基百科和过滤后的网络内容等。

而加持当红炸子鸡ChatGPT背后的模型GPT-4同样接受了大量优质文本的训练。

这些数据来自公共在线的资源(包括数字新闻来源和社交媒体网站)

从社交媒体网站「数据抓取」,才导致马斯克出手限制用户每天可以查看的推文数量。Russell表示,尽管许多报道未经证实,但都详细说明了OpenAI从私人来源购买了文本数据集。虽然这种购买行为可能存在解释,但自然而然的推断是,没有足够的高质量公共数据了。

一直以来,OpenAI尚未公开GPT-4背后训练的数据。

而现在,OpenAI需要用「私人数据」来补充其公共语言数据,以创建该公司迄今最强大、最先进的人工智能模型 GPT-4。

足见,高质量数据确实不够用。

OpenAI在发布前没有立即回复置评请求。

OpenAI深陷数据风波

近来,OpenAI遇上了大麻烦,原因都和数据有关。

先是16人匿名起诉OpenAI及微软,并提交了长达157页的诉讼,声称他们使用了私人谈话和医疗记录等敏感数据。