微软OpenAI开始用喂AI生成数据,奥特曼预言未来所有数据都将变成合成数据

2023-08-13 16:11:34 | 来源:互联网
萧箫 发自 凹非寺量子位 | 公众号 QbitAI

人类数据缺缺缺,AI被迫开始吃AI生产的数据了!


【资料图】

这是微软OpenAI等一众AI前沿公司面临的现状。

他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据,然后现在……这些数据快被用完了。

BUT,要训练更好的大模型,多少数据都不够。

据《金融时报》介绍,不少公司正把大模型生成的结果、也就是所谓的合成数据(Synthetic data),喂给参数量更小的大模型吃,发现效果还不错。

对于使用合成数据,OpenAI的CEO Sam Altman不仅不介意,还放话“未来所有数据都将变成合成数据”。

估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为:

合成数据可能加速通往“超级智能”AI系统的道路。

所以,究竟哪些大模型已经在用合成数据了,这些合成数据又是从何而来?

大AI合成数据,小AI吃

这些所谓的合成数据,本质上是用当前表现较好的大模型生成的数据,经过人工调整后,再喂给稍微小一点的大模型。

例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话,并将它们生成的结果做成合成数据。

这两个大模型分别扮演“数学老师”和“学生”,正在进行一堂虚拟的数学教学。同时,Cohere安排一个人类员工在旁边监督对话生成。

一旦对话出现错误,人类员工就会插手对文本进行修正

尽管确实还需要人力,但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。

那么,什么样的大模型会用到这些合成数据呢?

微软研究院最近有研究表明,合成数据可以用于训练比GPT-4或PaLM-2稍微小一的语言模型。

以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例,这个数据集被证明虽然只包含4岁小孩能理解的单词,但用于训练一个大模型之后,同样可以生成语法正确、阅读体验流畅的故事:

对于使用合成数据的理由,Cohere的CEO Aidan Gomez认为:

能从网上获取数据当然更好,但网络数据太杂乱了,完全无法满足需求。相比之下,合成数据已经非常多了,即使它还没被广泛传播。

背后产业链已出现

目前,包括Scale AI、Gretel.ai等企业,已经开始给外界提供合成数据服务。

先是Scale AI,旗下就推出了一款合成数据产品Scale Synthetic,用于给企业提供合成数据服务。

而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中,还提到GPT-4的数据集中,有数百万行是来自Scale AI和内部的指令微调数据。

至于合成数据平台Gretel.ai,从官网来看,它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作,以生成更多合成的数据提供给其他开发者使用。

Gretel.ai的CEO Ali Golshan认为,合成数据的好处在于,它保留了数据集中所有个人的隐私,同时仍然保持其统计学意义上的完整性(statistical integrity)。

但并非所有人都接受合成数据这种“神奇操作”,目前各方的看法主要分成两波。

一部分赞同使用合成数据。包括Cohere等AI公司在内,有不少搞大模型的企业仍然坚持这一做法,并认为它可能生成更好的AI,甚至从中诞生出“超级智能”。

另一部分则认为,合成数据终将让AI“自食其”。

例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明:

使用合成数据训练,会让模型出现不可逆转的缺陷:

忘记那些“不可能发生的事件”,最终被自己生成的数据毒害。

有网友认为,这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行

还有网友调侃,这听起来就像是“AI近亲繁殖”一样。

你认为AI需要使用合成数据吗?

上一篇 下一篇

相关新闻

微软OpenAI开始用喂AI生成数据,奥特曼预言未来所有数据都将变成合成数据

益丰药房25亿融资被暂缓 子公司违规使用7.7万医保基金 内控跟不上扩张速度

煤炭开采行业跟踪周报:需求相对疲弱,煤价承压震荡

厦门首批凭房票购买国企资产实现交房 距6月30日拍卖成交仅过40天

超42亿!又一天价锂矿落槌,1.1万次报价,升值1300多倍,背后买家或涉A股公司!

本周A股6大指数集体跌逾3%!成交量一度跌破7000亿元,缺口回补进行时,短期底部将现?

秋天,韭菜腌着吃,是三餐必备的百搭小菜,开胃下饭,放一年不坏

蜀山缥缈录战场首胜(蜀山缥缈录职业选择)

一氧化硫是 一氧化硫性质

vivo X80 调字体大小教程介绍

金富科技:8月10日接受机构调研,中粤集团、深天润参与

src是什么意思计算机 微机原理proc是什么意思

传《GTA6》至少已经开发了8年

近年来最“长寿”台风已登陆!这些地方有大暴雨

iPhone 15系列标配USB-C接口:独一无二 无法和安卓通用

最新新闻

微软OpenAI开始用喂AI生成数据,奥特曼预言未来所有数据都将变成合成数据

益丰药房25亿融资被暂缓 子公司违规使用7.7万医保基金 内控跟不上扩张速度

煤炭开采行业跟踪周报:需求相对疲弱,煤价承压震荡

厦门首批凭房票购买国企资产实现交房 距6月30日拍卖成交仅过40天

超42亿!又一天价锂矿落槌,1.1万次报价,升值1300多倍,背后买家或涉A股公司!

本周A股6大指数集体跌逾3%!成交量一度跌破7000亿元,缺口回补进行时,短期底部将现?

秋天,韭菜腌着吃,是三餐必备的百搭小菜,开胃下饭,放一年不坏

蜀山缥缈录战场首胜(蜀山缥缈录职业选择)

一氧化硫是 一氧化硫性质

vivo X80 调字体大小教程介绍

金富科技:8月10日接受机构调研,中粤集团、深天润参与

src是什么意思计算机 微机原理proc是什么意思

传《GTA6》至少已经开发了8年

近年来最“长寿”台风已登陆!这些地方有大暴雨

iPhone 15系列标配USB-C接口:独一无二 无法和安卓通用

周杰伦温州演唱会是哪一年(周杰伦温州演唱会)

世界斯诺克上海大师赛将于9月开赛

糖炒核桃仁的做法(核桃仁的做法)

永兴庄站 关于永兴庄站介绍

英思特高增长靠苹果 去年营收11亿应收款4亿负债率升

美希与猫之岛 -Neko Odyssey- 2024年发售

外媒:中美批准每周往返客运航班数增加一倍 10月底前达每周24个

来自核心的肯定!东契奇:球队今夏完成了一些正确的操作

听心声 解难题 江西资溪县开展“政企夜谈”活动

企业生产旺

东方财富业绩出炉了!组建人工智能事业部 加快建设金融大模型

英雄抢险救灾牺牲,无良网红却借机直播掘金……

不宜夸大CPI阶段性回落影响

梅县警方依法取缔两间娱乐场所

家庭酒柜陈列酒_家庭酒柜样式