从ChatGPT到AGI:生成式AI的媒介特质与伴生风险(五)
162.88 KB
5 页
0 下载
34 浏览
0 评论
0 收藏
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
概览 | ||
二、生成式 AI 的伴生风险
4.合成数据导致近亲繁殖,会让互联网信息出现劣币驱
逐良币现象。OpenAI 在训练 GPT-5 时已经遇到文本数据不
足问题,不得不考虑使用 Youtube 视频转录出的文本数据。
当下,数据生产存量的增长速度远远低于数据集规模的增长
速度。据人工智能研究机构 Epoch AI 在 6 月 4 日发布的论
文预测,未来 10 年内数据增长速度将无法支持大模型的扩
展,大模型将在 2028 年耗尽互联网上所有文本数据。按照
当前趋势发展,文本数据耗尽的中位年份是 2028 年,最大
可能性是 2032 年。整个互联网的文本数据总量约 3100T,但
大部分数据分布在 Facebook、Instagram、WhatsApp 等社交
媒体。由于抓取这些数据复杂且昂贵,且涉及个人隐私,几
乎无法用于大模型训练。如何克服人类文本数据的瓶颈。第
一种是利用 AI 生成数据,如 OpenAI 模型每天能够生成相当
于 Common Crawl 中优质单词总数的 36.5T 个单词,远快于
人类生成文本的速度。第二种是利用多模态和迁移学习,超
越文本数据从其他领域获取数据,比如视频、图像、金融市
场数据或科学数据库。[1
从 ChatGPT 到 AGI:生成式 AI 的媒介特质与伴生风险
(五)
]
不过,这并非是解决问题的良策。如果网上大部分文本都是 AI 生成的,而用合成数据训练的大模型会发生什么?
大模型开发需要更多数据进行训练,而由 AI 生成的合成数
据很快进入了训练新模型的数据集,并随着每一代模型而不
断积累。越来越多证据显示,人工智能生成的文本,即使被
引入训练数据集的量很少,最终也会对训练中的模型产生
“毒害”。[2]研究人员将一些由 AI 生成的语料作为训练数
据,“投喂”给一个正在训练的语言模型,然后使用它所输
出的结果再来训练新模型,并重复这一循环。他们发现,模
型每迭代一次,错误就会叠加一次。当人们要求第 10 次被
训练出的模型写出有关英国历史建筑的内容时,它输出的却
是有关豺兔的一堆胡言乱语。[3]英国牛津大学机器学习研
究员伊利亚·舒迈洛夫及其同事称这种现象为“模型崩溃”。
萨卡尔及其在西班牙马德里和英国爱丁堡的同事,用一种名
为扩散模型的 AI 图像生成器进行了类似实验:第一个模型
可以生成可识别的花朵或鸟类,但到了第三个模型,所生成
的图片就变得模糊不清了。研究人员不得不寻找没有被污染
的训练数据。随着 AI 生成的内容充斥互联网,它正在破坏
未来大模型训练的数据。
如今,人工智能已经强势侵入人类的互联网,极大地改
变了网上文本和图像的生成和传播系统。牛津大学、剑桥大
学、帝国理工大学、多伦多大学研究人员发现,使用 AI 合
成数据训练 AI,在进行 9 次迭代后,模型开始出现诡异乱码进而直接崩溃,相关研究论文登上 Nature 封面。[4]研究人
员发现,如果大模型在数据训练中不加区别地使用 AI 生成
的内容,模型就会出现不可逆转的缺陷——原始内容分布的
尾部(低概率事件)会消失。这种效应被称为“模型崩溃”。
换而言之,这种合成数据就像是近亲繁殖,会产生质量低劣
的后代。
当下,AI 生成内容已经进入机器学习工程师们所习惯于
获取训练数据的领域。即使是主流新闻媒体也开始发布人工
智能生成的文章,百科网站的编辑希望使用语言模型为网站
生成内容。许多用来训练模型的现有工具,很快就会被 AI
生成的文本‘喂饱’”。韦谢洛夫斯基及其同事通过统计分析
发现,已有约 1/3 的医学研究摘要有 ChatGPT 生成文本的痕
迹。网文《中文互联网正在被 AI 污染》指出,AI 越来越火,
但 AI 生成的垃圾信息也越来越多了。在 AI 的加持下,无意
义的内容呈指数级增长,假新闻、标题党获得大量曝光。AI
不但没有解放生产力,反而劣币驱逐良币。[5]如果在网上
搜索“AI 写文赚钱”,会有许多广告跳出来说,用 AI 写文章,
只需复制粘贴,月赚上千元。
可以说,如今全球大模型已经陷入到高质量数据荒之中。
但是,目前多数模型的训练数据都是从网上抓取数据,不可
避免地会使用其他大模型生成的数据内容。后果就是,合成
数据最终污染下一代模型的训练集,出现“模型崩溃(modelcollapse)”现象。由于在被污染的数据集训练大模型,随后
大模型会错误地感知现实。如果每一代新的模型都是在前一
代生成的数据上进行训练,会导致多代 AI 生成模型的退化,
也就是“垃圾进,垃圾出”。AI 合成数据,无异于给数据集
“投毒”。杜克大学助理教授 Emily Wenger 在 Nature 上发表
一篇社论文章指出:AI 基于自身数据训练,生成的图像扭曲
了狗的品种。在初始数据集中,不仅有金毛、柯基,还有法
国斗牛犬、小体巴塞特雪橇犬等。基于真实数据训练后的大
模型,输出的图像中常见品种如金毛寻回犬占大多数,而不
太常见的品种斑点狗会消失。然后,基于 AI 生成的数据训
练模型,生成的品种全是金毛了。最终,经过多次迭代,金
毛的图像完全出现混乱,脸不是脸鼻子不是鼻子大模型完全
崩溃。此外,2023 年来自斯坦福和 UC 伯克利的一项研究中,
作者同样发现,大模型在少量自己生成数据内容重新训练时,
就会输出高度扭曲的图像。研究人员还发现,一旦数据集受
到污染,即便大模型仅在真实图像上重新训练,模型崩溃现
象无法逆转。为了大模型不再被自己“降级”,AI 需要能够
区分真实和虚假内容。[6]
[1]https://mp.weixin.qq.com/s/EXB_a0ru9jhuY8bjw8
Xj9g.
[2]https://www.whb.cn/zhuzhan/kjwz/20230823/535
963.html.[3]https://www.whb.cn/zhuzhan/kjwz/20230823/535
963.html.
[4]https://www.nature.com/articles/s41586-024-0756
6-y.
[5]https://mp.weixin.qq.com/s/f4bHNydpBFNo4W9
MySHaRg.
[6]https://www.nature.com/articles/d41586-024-0242
0-7.
|
下载文档到本地,方便使用
共 5 页, 还有
1 页可预览,
继续阅读
文档评分