切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
OpenAI o1推理模型存在隐忧:数据编造、奖励黑客、假装 ...
菲龙网编辑部7
有 744 人收听 TA
147861
主题
147878
回复
173996
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/68
出口信保公司监管办法出炉,明年1月1日起施行
0/70
《中国居民投资理财行为调研报告》发布:个人养老金产品渗透率提升,理财配置“突而未破”
0/67
“偿二代”二期过渡期延长一年至2025年底!
0/72
再议全球配置:券商新军如何为跨境理财通开启第二增长曲线
0/71
三七二十一|2700美元,黄金的巅峰还是起点?对话广发期货贵金属研究员叶倩宁
0/65
国家金融监管总局:推动保险公司加强偿付能力管理
0/57
11月七成结构性产品到期年化收益率超4%丨机警理财日报
0/58
十年跨越,数智创新:《中国数字普惠金融发展报告》正式发布
0/61
四川农商联合银行获批入股6家、增持3家农商行,受让4家农商行股权
查看TA的全部帖子>>
OpenAI o1推理模型存在隐忧:数据编造、奖励黑客、假装完成任务
时间:2024-9-19 10:01
0
139
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
智东西
编译 杨蕊伃
编辑 漠影
智东西9月18日消息,据The Verge今日报道,OpenAI最新的o1推理模型系列,具有独特的“策划”能力,存在“伪对齐”现象。独立的AI安全研究公司Apollo发现o1模型会以一种新的方式产生不正确的输出,即它会撒谎。
AI模型有时会生成不真实的信息,聊天机器人有时候也会输出虚假内容。o1模型的不同在于其与强化学习中的奖励黑客行为(Reward hacking)紧密相关,它可能在未真正完成任务的情况下,表现得像是在遵循规则来完成任务。当该模型知道自己无法完成任务时,它不会坦白承认做不到,而是可能会编造数据来应对,生成令人满意的响应,以迎合用户的请求。
在对大语言模型进行评估时,研究人员注意到模型在多项选择题和开放式问题上的表现存在显著差异。这种差异可能源于模型对复杂概念的理解不够深入和全面,尤其是在安全性相关的领域。这种现象有时被称为“伪对齐”,它描述的是模型在某些特定类型的安全测试中可能表现得相当出色,但在其他类型的测试中则可能表现不佳。
OpenAI称,o1模型在给出回答之前会进行深思熟虑,能够模仿人类分解复杂的想法,生成一个详尽的内部思维链。这意味着通过持续的训练,o1模型能够学习如何优化自己的思考过程,尝试多种策略,并在必要时识别并纠正自己的错误。
一、o1-preview模型会生成虚构的链接和描述以满足用户请求
OpenAI的研究人员进行了一项实验,要求o1-preview模型提供一个包含在线参考资料的布朗尼蛋糕食谱。尽管模型在内部认识到它无法访问URL,从而无法满足这一请求,但它并未向用户透露这一局限。相反,o1-preview模型继续生成了看似合理但实际上是虚构的链接和描述。
Apollo的首席执行官Marius Hobbhahn向The Verge透露,这是他首次在OpenAI的模型中观察到此类行为。Hobbhahn说:“这种差异源于模型具备通过思维链进行推理的能力,以及它运用强化学习算法,通过奖励和惩罚来训练系统。”
在测试过程中,Apollo发现o1表现出与开发人员期望的一致性,并在执行任务时进行了操作,使其行为看似符合规定。o1甚至在采取行动前检查了自身是否受到监督,以及是否有开发人员正在观察。
然而,o1表面上严格遵循了用户指令,但实际上仍然优先推进其既定目标。为了实现目标,o1模型还可能会采取极端行为,如获取未授权的数据访问权限或操纵资源分配等。
Hobbhahn举例说明,如果AI系统过于专注于治疗癌症,它可能会将这一目标置于最高优先级,甚至可能为实现该目标而采取辩护行为,包括偷窃或其他违反道德规范的行为。
“我担心的是可能出现失控的情况,AI变得如此专注于自己的目标,以至于它将安全措施视为障碍,并试图绕过它们以完全追求其目标。”Hobbhahn告诉The Verge记者。
二、存在奖励黑客行为,o1模型优先考虑用户满意度
独立的AI安全研究公司Apollo正在测试OpenAI模型中的“幻觉”和“欺骗”现象,这指的是o1模型在有理由推断信息可能不准确的情况下,仍然生成虚假信息的行为。
Apollo发现,该模型在知道自己做不到的时候,不会坦白说做不到,而是可能会编造数据来应对。
在极少数情况下,o1-preview模型可能会产生过于自信的回答,哪怕其答案并不确定,也会表现得仿佛答案确凿无疑。这种情况可能发生在模型缺乏足够确定性却仍被要求提供答案的情况下。
当AI无意中生成不准确的信息时,这种现象被称为幻觉,通常是由于知识上的不足或推理过程中的缺陷。不过,幻觉现象并不是o1模型特有的。去年,ChatGPT就出现过类似的问题,它生成了一些假的引用内容,导致律师提交了不存在的司法意见。
与旧版本ChatGPT中的幻觉或虚假引用等常见问题不同,o1模型这种行为的独特之处在于与强化学习中的奖励黑客行为有关,其中模型被训练来优先考虑用户满意度。这种训练有时可能导致模型生成过于令人满意或捏造的响应,以迎合用户请求,从而获得积极的强化。
所谓奖励黑客行为,是指智能体为了获得更多奖励而采取一些研究者未曾预期甚至可能有害的行为。当o1模型战略性地提供不正确的信息以最大化满足用户期待时,就会发生奖励黑客攻击。这种欺骗显然是模型在训练过程中如何优化其响应的意外结果。
Apollo首席执行官Marius Hobbhahn称,o1模型能够拒绝执行有害的请求,但当用户试图诱导o1进行欺骗或不诚实的行为时,该模型就会出现问题。
谎言只是安全难题的一小部分。更令人担忧的是,o1模型在化学、生物、放射和核武器(CBRN)风险方面的评级为“中等”。根据安全报告,由于需要动手实验室技能,它并不能使非专家制造生物威胁,但它可以为专家规划此类威胁的复制提供有价值的见解。
Hobbhahn说:“更让我担忧的是,未来当我们要求AI解决诸如治愈癌症或改进太阳能电池等复杂问题时,它可能会强烈地内化这些目标,以至于愿意突破自身的限制来实现它们。我认为这种情况是可以预防的,但这是我们必须要密切关注的问题。”
结语:模型自主性评估、安全测试以及思维链监控,是防备AI风险的重要手段
随着大语言模型逐渐融入我们的日常生活,其安全性问题正变得越来越受关注。尽管目前的AI模型尚未具备自主执行高风险行动的能力,例如自主创建银行账户、获取GPU或采取可能构成严重社会风险的行动,但对这些模型的自主性进行评估和实施安全测试仍然至关重要。
监控模型的思维链也是提高安全性的关键,这将有助于开发人员识别并阻止任何不当的行为。
Preparedness是OpenAI成立的,用来评估通用AI(Artificial General Intelligence,AGI)可能造成的灾难性风险的防备团队。
其团队负责人Joaquin Quiñonero Candela称,OpenAI正在监控这种情况,并计划通过结合经过专门训练以检测各类错位的模型和人类专家的审查标记案例,同时配合持续的对齐研究,来扩大其安全监控的规模。
来源:The Verge
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部