切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
27亿刀天价员工首个成果,谷歌版o1算出最难高考数学题! ...
菲龙网编辑部7
有 744 人收听 TA
147861
主题
147878
回复
173996
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/44
出口信保公司监管办法出炉,明年1月1日起施行
0/45
《中国居民投资理财行为调研报告》发布:个人养老金产品渗透率提升,理财配置“突而未破”
0/41
“偿二代”二期过渡期延长一年至2025年底!
0/49
再议全球配置:券商新军如何为跨境理财通开启第二增长曲线
0/45
三七二十一|2700美元,黄金的巅峰还是起点?对话广发期货贵金属研究员叶倩宁
0/46
国家金融监管总局:推动保险公司加强偿付能力管理
0/40
11月七成结构性产品到期年化收益率超4%丨机警理财日报
0/45
十年跨越,数智创新:《中国数字普惠金融发展报告》正式发布
0/49
四川农商联合银行获批入股6家、增持3家农商行,受让4家农商行股权
查看TA的全部帖子>>
27亿刀天价员工首个成果,谷歌版o1算出最难高考数学题!物理代码难题闪电秒解
时间:2024-12-23 10:12
0
31
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
新智元报道
编辑:编辑部 HYZh
【新智元导读】
谷歌版o1震撼登场,一诞生直接屠榜了Chatbot Arena,横扫所有类别。复杂数学、物理、代码难题都能解决,思考速度快如闪电。更劲爆的是,此模型似乎是谷歌天价请回沙哥Noam Shazeer后,他的首个成果,27亿美元花得值了。
OpenAI十二天直播,杀疯了的竟然是谷歌。
就在深夜,「谷歌版o1」Gemini 2.0 Flash Thinking突然发布。
跟o1的策略类似,它同样是将更多计算能力投入「推理时计算」——即模型实际解决问题的时长。
但不一样的是,Flash Thinking能清晰地展示思考过程。
一经发布,它就直接屠榜Chatbot Arena。
从战绩来看,新模型在总榜位列第一,数学榜单第一,创意写作第一,Hard Promt第一,视觉榜单第一!
举一个比较复杂的概率问题的例子。
如果一直掷硬币,直到得到「正正正」或「正反正」,得到其中一个的几率和另一个的几率之比是多少?
这种水平的概率题,绝大多数LLM都会折戟。
但模型展示出了详细完备的思考过程,并行云流水般地在34.7秒内就给出了最终答案——2:3。
点击「展开查看模型思维」,即可观察推理过程
现在,Gemini 2.0 Flash Thinking已经在Google AI Studio和Vertex AI中上线了,开发者可以去免费测试。
对此,网友纷纷表示,明明是OpenAI的圣诞特别活动,怎么发出炸裂成果的全是谷歌?
现在都是谷歌每天欺负OpenAI
谷歌版o1彻底杀疯了,全是第一
在LLM竞技场上,Gemini 2.0 Flash Thinking连同Gemini-Exp-1206一起,「横扫所有类别,荣登榜首」。
无论是复杂提示、代码、数学、创意写作、指令跟随、长QA等等。
不过,这些排名并未包含OpenAI的完整o1模型。
但无论如何,Flash Thinking打了相当漂亮的一仗。
这个模型,大概率就是谷歌对打OpenAI o1系列的武器,而且,它很可能不是最强版本,或许还有Pro或Ultra Thinking的存在。
据外媒THE DECODER报道,Flash Thinking似乎是著名AI研究员Noam Shazeer进入谷歌后的首个工作成果。
Shazeer是著名论文「Attention is All You Need」的作者之一
在80百分位的情况下,Flash Thinking的响应速度几乎是o1-mini的2倍!
比如下面这道题,OpenAI的o1和o1 Pro分别用了102秒和138秒,而Gemini 2.0 Flash Thinking只花了14秒。
一举冲顶成为最强理科生,最难高考题也不在话下
有人尝试把号称「史上最难」的高考数学题扔给Flash Thinking,它居然也给出了准确的回答。
这种表现,震惊了所有网友。
要知道,这道题连o1都做不出来。
而且更为厉害的是,这道题是中文题。
能做出数学高考题的含金量,不用详细解释了。
毕竟,中国的高考可是被Erudera评为地球上最难的考试。
而在Chatbot Arena的数学领域中,Flash Thinking对比Flash同样也有着显著性进步。
在物理方面,可以来看看下面这个演示,Flash Thinking展示了是如何解决一道物理题并阐明其推理过程。
演示中的题目为:一个电子被限制在一个一维无限深势阱中,势阱壁位于x=- 0.15nm和x=+0.15nm处。求出电子在势阱中能级跃迁时发射的四种最长波长的光子。
Flash Thinking首先会将问题本身复述清晰,接着就开始进行逐步思考问题的求解步骤。
经过16.9s的计算分析后,Flash Thinking给出了最终答案,即为98.9nm,59.3nm,42.4nm ,37.1nm。
下面这个演示,则展示了Flash Thinking如何处理涉及涉及视觉和文本线索的挑战性难题。
演示中使用者首先上传了一张有四个台球的图片,并提问道「我能怎么使用这其中的三个数字使其总和为30?」
在这个演示中,有一个很有趣的地方就在于中间第二个台球既可以识别为9,也可以颠倒一下,识别为6。
Flash Thinking在首次尝试中先是将其识别为正常观察的9,但是发现并不能实现问题的求解。
于是,他很聪明的做出了一个判断:「在题目中并没有清楚的说明每个数字只能出现一次」。
于是它开始尝试将数字进行重复利用,但是还是无法实现问题的求解。
接着,有趣的地方便来了,它出奇地想到了可以把9识别为颠倒的6,这说明它成功地察觉到了这不仅仅只是一个数字游戏,而是实际上可以翻滚的台球。
最终得到了问题的正确答案:利用11、13、6三个数字即可实现总和为30。
整个思考过程清清楚楚,一目了然。
从解题过程中可以看出,Gemini 2.0 Flash Thinking不仅能够实现处理多模态信息,在求解实际的问题方面,它不再是曾经的大模型那种较为机械死板的智能水平,而是像人一样能够学会去多视角地变通看待问题,最终灵活地得到问题的解决方案。
谷歌DeepMind研究者让Thinking模型尝试用不同方法,求解普特南2024的一到数学题,然后自我验证答案是否正确。
35.9秒内,模型给出了答案。
网友实测
手快的网友们,已经纷纷甩给了Gemini 2.0 Flash Thinking一堆难题。
网友们给出的题目,难度都不小。
比如这道数列问题,要求写出一个数列的前六个数字,其中每个数字都是前一个数字的三倍,且第一个数字是2。
最终,模型给出了正确答案——E。
这位网友实测后发现,新模型的推理能力实在强大,不光破解了单词网格难题,甚至连复杂的经济学问题都做得出来。
设想太阳能和模块化核反应堆的广泛应用带来了巨大的能源供应,从经济学的角度深入思考未来十年可能出现的经济变化。请详尽地分析可能产生的影响。
模型给出的答案是:通货膨胀率会下降,经济环境会发生重大变化。
结论:变革的十年如果太阳能和模块化核反应堆(SMR)电力的充足性和可负担性得以实现,未来十年将见证一场深刻的经济变革。我们可以预期通货膨胀率下降,经济环境发生重大变化。
Hallid.ai联创indigo给了它一道填数题,Thinking只需要20秒就做出来了。
而且给出了正确答案。
相比之下,o1就花了40秒,而且还错了。
不过,不知道是不是测试版的原因,Flash Thinking能不能数清楚「草莓」里的r,似乎完全取决于你给了啥prompt……
相比之下,我们在本地跑的QWQ,可以轻松解决这个问题。
参考资料:
https://x.com/JeffDean/status/1869789813232341267
https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1/
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部