切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
业内:测试越来越难以评估AI水平,普通人更难感受AI进步 ...
菲龙网编辑部7
有 744 人收听 TA
148744
主题
148761
回复
174909
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/80
李小加:香港在未来30年将代表中国资本寻找投资国际机会
0/81
蓬勃新年消费市场 浦发信用卡链接客户需求绘就温暖年景
0/82
第一批财务自由、提前退休的80后,回来上班了
0/81
2025年金融监管首要任务:中小金融机构改革化险
0/85
深度|预定利率“随行就市”,险企资产负债平衡术重塑中
0/77
湖北银行零售业务全方位稳健发展,存款规模突破4000亿元
0/80
全国首家!华强北这家24小时科学银行超精彩
0/72
五年间570多万人悄然离场,保险销售精英化进程加速
0/65
香港金管局将推出千亿元人民币贸易融资流动资金安排
查看TA的全部帖子>>
业内:测试越来越难以评估AI水平,普通人更难感受AI进步
时间:2025-1-14 10:14
0
120
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
1月13日消息,2024年底,OpenAI前员工凯尔西·派珀(Kelsey Piper)撰文探讨人工智能的“规模定律”是否已遇到技术瓶颈。她认为,这个问题并不像许多人认为的那样重要:现有的人工智能系统已经足够强大,能够深刻改变我们的世界。无论规模定律是否成立,未来几年都将由人工智能的进步主导。
文章发布不到一周后,OpenAI推出了年终更新,其中包括最新的大语言模型o3。虽然o3未能完全证明“规模定律”在未来是否仍是推动人工智能进步的核心规律,但它无疑粉碎了“人工智能发展已陷入瓶颈”的说法。
o3的表现极其令人惊叹。为了更好地理解它的非凡之处,我们需要先探讨如何科学地评估人工智能系统。
人工智能标准化测试
如果想比较两个语言模型的表现,需要用一组它们以前从未接触过的问题进行测试。然而,这远比听起来要困难得多,因为这些模型在训练过程中已经接触了大量文本,早已覆盖了绝大多数测试内容。
因此,机器学习研究员通常会设计基准测试,来评估人工智能系统在数学、编程、阅读与理解文本等多个任务上的表现,并将这些结果与人类进行比较。曾经,人们用美国数学奥林匹克竞赛的题目以及物理、生物和化学问题测试人工智能。
问题在于,人工智能发展得太快,不断打破基准测试的限制。一旦人工智能在某个基准测试中表现优异,人们便认为该测试已经“饱和”,无法再有效区分模型的能力,因为几乎所有模型都能取得接近满分的成绩。
2024年堪称“基准测试如太平洋般饱和”的一年。过去,人们用名为GPQA的基准测试人工智能。这种测试涵盖物理、生物和化学领域,难度高到即使是相关领域的博士生也很难得分超过70%。但如今,人工智能的表现已超过了相关领域的博士,因此该基准已失去评估意义。
人工智能模型在数学奥林匹克预选赛中的表现也不输顶尖人类选手。一个名为MMLU的基准测试用于评估模型的语言理解能力,涵盖多个领域。现在,最好的模型已经“攻克”了这个基准。另一个名为ARC-AGI的测试原本被设计为极其困难,旨在衡量通用的人类智能水平,但经过调优后,o3在这一测试中取得了令人瞩目的88%得分。
我们仍然可以设计更多的基准测试。然而,以人工智能的进步速度来看,每个新基准的有效期可能只有短短几年。更重要的是,新的基准测试越来越需要衡量人工智能在超出人类能力范围的任务上的表现,才能准确描述其能力和局限性。
当然,人工智能仍可能犯一些低级且令人恼火的错误。但如果你最近六个月没有关注人工智能的最新发展,或者只体验过免费版的语言模型,那么你可能高估了它们犯错的频率,也低估了它们在高难度、智力密集型任务上的能力。
隐而不见的进步
《时代》杂志最近的一篇文章指出,人工智能的发展并非“触及瓶颈”,而是变得愈发隐蔽,其主要进展以一种难以察觉的方式快速推进。
每个人都能明显区分出5岁孩子学算术和高中生学微积分之间的差别,因此这类进步显得直观且清晰。但多数人无法分辨一名数学专业大一新生与世界顶级数学家之间的差距,因此人工智能在这些高阶领域的进步往往不被感知。
然而,这种进步的意义非凡。人工智能将通过自动化处理大量曾由人类完成的智力工作来深刻改变世界,而这一变革主要受以下三大因素驱动:
1. 成本的持续下降
o3模型虽然取得了令人惊叹的成果,但处理复杂问题的成本可能高达1000美元。然而,2024年底中国推出的DeepSeek表明,以较低成本实现高质量表现是可能的。
2. 人机交互方式的不断优化
人类与人工智能的互动方式仍有巨大的创新空间。如何更高效地与人工智能互动、如何让人工智能自检,以及如何选择最适合特定任务的人工智能模型,都是未来改进的方向。例如,一个系统可以默认由中等性能的聊天机器人处理大多数任务,但当遇到复杂问题时,内部调用更昂贵的高端模型。这些改进更多属于产品开发而非技术突破,即便人工智能技术进步停止,这些改进仍将推动世界发生深远变化。
3. 人工智能系统的日益智能化
尽管有许多关于人工智能“发展停滞”的言论,但事实证明,人工智能仍在快速进步。最新的系统不仅在推理和问题解决方面表现更佳,而且越来越接近成为多领域的专家。在某种程度上,我们甚至尚未完全了解它们的智能水平,因为当人工智能的能力超越人类专家的评估范围后,现有测试方法已无法准确衡量其表现。
这三大驱动因素将塑造未来数年的人工智能发展,也充分展现了其重要性。不论你是否喜欢人工智能的崛起(就我个人而言,我并不认为这一世界性转型正在以负责任的方式推进),这三个领域都未遇到“瓶颈”,而且其中任何一个都足以持续改变我们的世界。(辰辰)
延伸阅读
张亚勤何小鹏等9位大咖24年遗憾和25年期待
美国发布AI芯片限制新措施 英伟达称破坏创新
新年礼物真香首选:华为nova 13系列时尚有格调,拍照更出片
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部