切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
上交为参数微调打造统一框架,即便资源受限也能提升大模 ...
菲龙网编辑部7
有 744 人收听 TA
147801
主题
147818
回复
173934
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/72
临港新片区:国际再保险功能区登记保费规模突破100亿元
0/63
独家丨《金融产品网络营销管理办法》有望发布,涉及贷款、理财、支付等领域
0/65
北银理财一日开型产品5个多月规模增长近18亿元丨机警理财日报
0/66
美团企业版携手银行,「智慧食堂」探路对公场景金融
0/62
个人养老金制度推广至全国,中信保诚人寿布局智慧养老新模式
0/62
连收7张罚单,这家万亿大行怎么了?
0/60
唐山银行入选“2024新质生产力金融服务典范案例”
0/70
能兑换“狗头金”的京东黄金水饺 价值堪比熊猫币
0/66
直播预告:云上会|多元资产配置助力蔚然养老
查看TA的全部帖子>>
上交为参数微调打造统一框架,即便资源受限也能提升大模型能力
时间:2024-12-18 10:31
0
93
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
随着 GPT-3 的推出,大模型逐渐成为人们关注的焦点。研究者们纷纷投入到各类大模型的研发中,这些模型通常具有出色的泛化能力,并在众多任务中展现出强劲的潜力。
为了进一步发挥大模型的优势,将其应用于各类下游任务已经成为一种趋势。
然而,实践中人们常常面临一个重大挑战:对整个大模型进行完整训练(即全量微调)需要极高的成本,如需要大量的图形处理器(GPU,Graphics Processing Unit)资源等。
考虑到下游任务的多样性,为每个任务训练一个专门的大模型并不现实。因此,一个自然的问题出现了:在资源有限的情况下,如何更高效地训练大模型,以便在多样的下游场景中充分发挥其潜力?
正是在这个背景下,参数高效微调(PEFT,Parameter-Efficient Fine-Tuning)这一研究领域应运而生。
PEFT 旨在通过微调极少量的参数,使模型在不同任务中实现接近全量微调,甚至超过全量微调的效果。随着 2022 年以来大模型的迅猛发展,PEFT 算法层出不穷,种类繁多。
与此同时,许多综述性论文试图对这些方法进行分类,虽然各自的分类结果有所重叠,但始终难以形成统一的共识。
此外,由于许多方法的原理偏向直觉性而非理论性,其性能表现往往难以系统地解释。不同方法之间的性能差异显著,如何解释这种差异性也成为值得深入探讨的问题。
基于这一背景,来自上海交通大学的研究人员开展了一项研究。研究目标有两个:首先,从统一视角出发归纳不同的 PEFT 方法,将它们整合在一个统一的框架之下。
其次,探索这些方法的底层逻辑,并分析不同方法之间的性能差异。
研究中,该团队从子空间微调的角度在数学上为参数微调提供了一个统一框架。
通过这个框架,课题组将各种不同的参数微调方法归纳在同一个数学背景下,使得整个微调过程更加简洁和系统。
(来源:arXiv)
预计参数高效微调技术具有广泛的应用前景。它能够在边缘计算、自动驾驶、医疗影像分析、个性化推荐系统等领域,通过优化模型性能和压缩模型参数,实现高效的部署与运行。
此外,PEFT 技术在半监督与无监督学习、模型压缩与蒸馏以及自然语言处理等方面,也展现出极大的潜力,特别是在资源受限的环境中,能够显著提升模型的实际应用能力。
同时,子空间微调技术能为参数高效微调的发展提供了新的视角和重要启发。通过深入分析模型参数在子空间中的行为,利用子空间微调技术还可以揭示模型底层逻辑的运作机制。
这种分析不仅有助于理解模型参数的相互作用和优化路径,还能够指导 PEFT 技术的设计,使其在更具理论支撑的框架下实现更高效的性能调优。
日前,相关论文以《在分解的基础上进行参数高效微调的进一步说明》(See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition)为题发在arXiv[1],司翀杰是第一作者。
图 | 相关论文(来源:arXiv)
该团队表示这项研究的框架相对庞大,还有很多未解决的问题。因此,他们打算进一步优化现有的理论和方法。目前,他们正在研究如何更好地优化子空间扩展中的低秩特性,以提高模型的效率和性能。
此外,他们发现低秩自适应(LoRA,Low-Rank Adaptation)方法具有巨大的潜力,但这一潜力在现有的实现中并未被完全释放。基于 LoRA 的特性,他们进一步探索如何在下游任务中充分挖掘和利用这一潜力。
眼下,课题组已取得不错的实验结果,这可能会为从另一个角度理解 PEFT 的本质提供新的视角。
参考资料:
1.https://arxiv.org/pdf/2407.05417
运营/排版:何晨龙
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部