切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公 ...
菲龙网编辑部7
有 744 人收听 TA
147861
主题
147878
回复
173996
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/63
出口信保公司监管办法出炉,明年1月1日起施行
0/63
《中国居民投资理财行为调研报告》发布:个人养老金产品渗透率提升,理财配置“突而未破”
0/60
“偿二代”二期过渡期延长一年至2025年底!
0/67
再议全球配置:券商新军如何为跨境理财通开启第二增长曲线
0/63
三七二十一|2700美元,黄金的巅峰还是起点?对话广发期货贵金属研究员叶倩宁
0/63
国家金融监管总局:推动保险公司加强偿付能力管理
0/53
11月七成结构性产品到期年化收益率超4%丨机警理财日报
0/56
十年跨越,数智创新:《中国数字普惠金融发展报告》正式发布
0/58
四川农商联合银行获批入股6家、增持3家农商行,受让4家农商行股权
查看TA的全部帖子>>
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
时间:2024-9-23 09:26
0
153
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
新智元报道
编辑:桃子 乔杨
【新智元导读
】o1诞生,对于OpenAI团队来说,是最具革命性的时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。
OpenAI o1团队采访的完整版视频,终于上线了!
全程22分钟,o1研发团队在项目Bob McGrew组织下,一起分享了「啊哈」时刻。
有的人提到,全新o1模型相当于多个博士「合体」而成,往往比人类表现更好。还有的人称,o1发布之后,明显感受到了AGI到来。
「当模型在数学、编码、围棋、国际象棋等领域的表现超过人类时,AGI的未来变得更加明朗」。
来自艾伦研究所的科学家Nathan Lambert对这个视频,做了一个精彩亮点的总结。
一共有8点:
1 强化学习加持的o1,比人类更善于发现新的CoT推理步骤
2 自我批评的涌现,是o1最强有力的时刻
3 让o1「超时」前完成回答,然后突然有了「啊哈」时刻
4 scaling参数规模的挑战,以及继续沿着强化学习算法进步之路
5 许多人提到,相对于算法而言,基础设施显得多么重要
6 通过规划、纠错,o1能够解决世界上的新问题
7 新的训练范式是一种全新的方法,可以将更多的算力投入到模型中
8 o1编写代码时,当其输出要使用的代码时,需要通过单元测试
接下来,具体来看下o1模型背后的故事。
强化学习+思考,o1开启新范式
o1作为OpenAI全新系列,与GPT模型最大不同,就在于推理。
它本质上,是一个推理模型,也就是会比以往「思考」得更多。
在OpenAI研究人员看来,「思考」就是推理的一种最直观的方式。
有时候,当被问及意大利首都是什么问题时,我们几乎不用思考,即刻就能得出答案。但有时候,涉及商业企划书、写小说等人物时,便需要长时间的思考过程。
毋庸置疑,思考时间越久,结果就越好。
因此,推理是将思考时间,转化为最优结果的能力。
用Mark Chen的话来说,推理是一种「原语」,是实现任何可靠思考过程的必经之路。
关于推理的研究,OpenAI内部其实很早就开始了。成立初期,他们看到了AlphaGo通过RL算法战胜人类的潜力,并进行了大量的研究。
比如,他们曾在2016年开放游戏测试平台「Universe」,是一个训练AI通用智能水平的开源平台。
2018年打造出名为OpenAI Five的游戏AI,成功击败了两届DOTA2国际邀请赛的世界冠军OG战队。
与此同时,数据和机器人领域,取得了重大的scaling进展。
OpenAI团队便开始思考:如何在通用领域做到强化学习,实现一个非常有力的AI?
那便是,GPT系列开启的全新范式。它在扩展无监督学习方面,取得了惊人的成果。
而且,也就是从那时起,研究人员便开始探索,如何将这两种范式相结合——强化学习和无监督学习。
研究人员称,这项努力开始的确切时间点,很难说,但这件事已经进行了很长时间。
「啊哈」时刻
在视频中,有人表示,自己觉得研究中最酷的就是那个「啊哈」时刻了。
在某个特定的时间点,研究发生了意想不到的突破,一切忽然就变得很明了,仿佛顿悟一般灵光乍现。
所以,团队成员们分别经历了怎样的「啊哈」时刻呢?
有人说,他感觉到在训练模型的过程中,有一个关键的时刻,就是当他们投入了比以前更多的算力,首次生成了非常连贯的CoT。
就在这一刻,所有人都惊喜交加:很明显,这个模型跟以前的有着明显的区别。
还有人表示,当考虑到训练一个具备推理能力的模型时,首先会想到的,是让人类记录其思维过程,据此进行训练。
对他来说,啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT,效果甚至比人类写的CoT还好的那一刻。
这一时刻表明,我们可以通过这种方式扩展和探索模型的推理能力。
这一位研究者说,自己一直在努力提升模型解决数学问题的能力。
让他很沮丧的是,每次生成结果后,模型似乎从不质疑自己做错了什么。
然而,当训练其中一个早期的o1模型时,他们惊奇地发现,模型在数学测试中的得分忽然有了显著提升。
而且,研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。
他惊叹道:我们终于做出了不一样的东西!
这种感受极其强烈,那一瞬间,仿佛所有东西都汇聚到了一起。
还有一位研究人员表示,当你要求模型在「超时」前,完成思考,过程非常有趣。
这就像自己在参加数学竞赛一样,任何思考都是有时限的。
他表示,这也是自己进入AI领域主要原因,而现在,对于自己来说,也算是实现了「闭环」时刻。
另外,o1模型让人惊艳的是,在推动科学发现和工程进步,有巨大的帮助。
对于很多人而言,AGI似乎是一个很抽象、很遥不可及的概念,直到亲眼看见AI在人类擅长的事情上做得更好,才能相信AGI的到来。
对专业的国际象棋和围棋手而言,IBM的Deep Blue,以及DeepMind AlphaGo和AlphaZero,让他们早在几年前就意识到了这一点。
而对OpenAI的这群擅长数学和编码的科学家,o1模型就有类似的意义。更有趣的是,他们的工作相当于是亲手制造了一个可以碾压自己能力的AI。
项目中,遇到哪些困难?
关于过程中遇到的障碍,研究人员们直接表示,训练LLM从根本上来讲就是一件非常困难的事情。
类似于从地球发射一枚飞往月球的火箭,成功的路只有很窄的一条,但有数不清的失败之路,稍微偏离一个角度就无法到达目标。
训练过程出问题的方式可以有上千种,即使在这群才华横溢的研究科学家们手中,每轮训练也会遇到数百个问题。
此外,随着模型变得越来越智能,比如像o1一样相当于手握几个phd学位的人类,评估也变得越发困难。
有时,他们需要花很长的时间来确定模型做的事情是否正确,而且最后很多常用的行业基准也趋于饱和,需要重新找到适合o1能力的基准测试。
除了模型的开发历程,研究人员们还被问到了自己最喜欢的o1模型用例。
Hyung Won Chung表示,o1可以成为很好的编码助手。
他自己在工作时通常遵循TDD(Test-Driven Development)的开发方式,有了o1的帮助可以免去自己编写单元测试的工作,而是直接指定需求,让模型自动编写。
此外,遇到的报错信息也可以直接扔给o1,虽然有时不能直接解决问题,但它可以比编译器提出一个更好的问题,帮助你解决错误。
Jason Wei则表示,自己经常把o1当成头脑风暴的伙伴,而且可以讨论的问题范围相当之广,大到如何解决一个机器学习问题,小到如何起草一篇博客或推文。
他今年5月撰写的一篇关于LLM评估的博客,就借鉴了o1的意见,比如文章的结构、各种评估基准的优缺点以及行文风格等等方面。
在OpenAI工作是一种什么样的体验?
关于这个问题,很多人都谈到了大家的聪明才智,以及团队氛围的融洽。
比如自己吭哧吭哧调试了一周的代码,被路过的同事瞬间解决了;每天和极其聪明的同事共处,让自己逐渐变得谦卑。
Mark Chen形容「草莓」项目是一个非常「有机」(organic)的项目,因为在专业问题上大家都有自己的看法和主见,都有满怀热情想要推动的想法。
当这些想法聚集在一起,就会迸发出火花,像滚雪球一样越滚越大。
然而,有主见的另一面,就是所有人都很坚持自己的看法,但并不固执。如果看到反驳自己主张的客观结果,他们也会随之改变想法。
更值得赞叹的是,这群绝顶聪明的人,同时也很nice,乐于帮助别人解决问题,同事之间一起吃饭、一起出去玩,让采访中的很多研究者都直言,「在这里工作是非常好的经历」。
o1-mini背后的故事
o1-mini发布的动机是,为更多研究人员提供预算较低,但推理能力依旧很强的模型。
它可以称得上是「推理专家」,比以往OpenAI最佳模型还要聪明。
而且,成本和延迟都非常低。
或许,它可能不一定知道一位名人,以其出生日期,但确具备了如何进行有效推理,和大量智慧的能力。
OpenAI研究人员表示,将进一步改进算法,使之能够媲美最好的小模型。
除此之外,全世界的研究人员一直以来,都在投入更多的计算和硬件,使得模型成本在很长一段时间内,呈指数级下降。
然而,一个缺陷是,我们没有去花费更多时间,寻找一种新的方法扭转局面。
o1新范式,便是我们的发现——推理scaling,也能很好优化算力效率。
做研究的动力是什么?
这批「智慧大脑」能够聚在一起,究竟是什么原因,激励着他们去做研究?
一位研究人员称,一想到自己通过不同方式,让模型实现推理,这个过程简直太迷人了。
还有人表示,「好事多磨」。
o1能够回答如此神速,这是朝着能够长时间思考问题的模型,迈出的第一步。未来,还将需要进行数月、甚至数年的研究,让其迈向下一个征程。
「一想到我们少数人能够产生改变世界的影响,就非常兴奋,有意义」。
最抓人的一点是,新范式解锁了模型以前无法完成的任务,这不仅仅是回答某些查询,而实际上已经通过规划、纠正错误,泛化出新的能力。
甚至,o1能够产生新的知识,对于科学发现来说,这是最令人兴奋的部分。
研究者表示,在短时间内,模型将成为自身发展,越来越强大的贡献者。
最后,当o1负责人问道,「还有什么其他观察值得一提吗」?
Jason Wei分享道,「一个有趣的观察是,每个训练出来的模型都略有不同,有自己的怪癖,就像一件手工艺品。这种独特性为每个模型增添了一丝个性之处」。
完整版视频如下:
参考资料:
https://x.com/OpenAI/status/1837194684428345474
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部