切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
Llama版o1来了,来自上海AI Lab,强化学习代码已开源, ...
菲龙网编辑部7
有 744 人收听 TA
147801
主题
147818
回复
173934
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/75
临港新片区:国际再保险功能区登记保费规模突破100亿元
0/67
独家丨《金融产品网络营销管理办法》有望发布,涉及贷款、理财、支付等领域
0/70
北银理财一日开型产品5个多月规模增长近18亿元丨机警理财日报
0/73
美团企业版携手银行,「智慧食堂」探路对公场景金融
0/71
个人养老金制度推广至全国,中信保诚人寿布局智慧养老新模式
0/67
连收7张罚单,这家万亿大行怎么了?
0/64
唐山银行入选“2024新质生产力金融服务典范案例”
0/79
能兑换“狗头金”的京东黄金水饺 价值堪比熊猫币
0/73
直播预告:云上会|多元资产配置助力蔚然养老
查看TA的全部帖子>>
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
时间:2024-11-6 10:25
0
95
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
复刻OpenAI o1
推理大模型
,开源界传来最新进展:
LLaMA版o1
项目刚刚发布,来自
上海AI Lab
团队。
简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。
在2024年6月,o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。
这次最新开源代码,也在开发者社区引起热议。
OpenAI o1系列发布后,团队开始升级算法,专注于数学奥赛问题,作为OpenAI草莓项目的开源版本。
10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力。
在最难的AIME2024基准测试30道题中,原版LLaMA-3.1-8B-Instruct做对2道,优化后做对8道,超过了除o1-preview和o1-mini之外的其他商业闭源方案。
10月底,团队宣布在
基于AlphaGo Zero架构
复刻OpenAI o1的努力中取得了重大进展:
已成功使模型在学习过程中通过与搜索树交互获得高级思维能力,
无需人工标注
。
不到一周时间,项目便开源了。
LLaMA版o1最新进展
目前已开源内容包括:
预训练数据集、 预训练模型、强化学习训练代码
。
OpenLongCoT-Pretrain数据集,包含10万+条长思维链数据。
每条数据包含一个完整的数学问题推理过程,包含思考内容和评分结果。
例如一个几何问题,包含了问题描述、图形坐标、计算过程和结论推导等完整的推理链路,以及对各个推理步骤的批评和验证内容,对推理过程进行评价和指导。
在此数据集继续预训练后,模型可读取和输出类似o1的长思维链过程。
预训练代码尚未发布
,目前推荐使用LLaMaFactory代替。
有意思的是虽然项目名为LLaMA-O1,但目前官方给的预训练模型基于谷歌Gemma 2。
目前在预训练模型基础上,可以继续进行强化学习训练,从代码中可以看出训练过程如下:
使用蒙特卡洛树搜索进行自我对弈(self-play)以生成经验将经验存储在优先经验回放缓冲区中从缓冲区采样批次数据进行训练更新模型参数和经验优先级
论文中也给出了训练过程的图示。
同时训练代码中使用了以下关键技术点:
使用LoRA进行参数高效微调使用PPO算法作为策略优化方法实现了GAE(Generalized Advantage Estimation)算法用于计算优势函数使用优先经验回放提高训练效率
最后,LLaMA-O1代码发布在名为
SimpleBerry
的GitHub账号下,并没有特别简介,还比较神秘。
其他与SimpleBerry有关的账号和官网中,只能看出性质是一个研究实验室,也并未透露更多研究方向信息。
其他o1复刻项目进展
除LLaMA-O1之外,另一个公开进展的o1复刻项目
O1-Journey
来自
上交大
团队。
团队在十月初发布了第一份进展报告,其中介绍了创新Journey Learning范式,以及第一个成功将搜索和学习整合到数学推理中的模型。
O1-Journey核心开发团队主要由上交大大三、大四本科生,以及上交大GAIR实验室(生成式人工智能研究实验室)的一年级博士生组成。
指导教师包括上交大副教授刘鹏飞,姚班校友、斯隆奖得主李远志等。
LLaMA-O1:
https://github.com/SimpleBerry/LLaMA-O1
相关论文:
https://arxiv.org/abs/2406.07394
https://arxiv.org/abs/2410.02884
O1-Journey:
https://github.com/GAIR-NLP/O1-Journey/
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部