切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
免训练加速DiT!Meta提出自适应缓存新方法,视频生成快2 ...
菲龙网编辑部7
有 744 人收听 TA
147801
主题
147818
回复
173934
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/75
临港新片区:国际再保险功能区登记保费规模突破100亿元
0/66
独家丨《金融产品网络营销管理办法》有望发布,涉及贷款、理财、支付等领域
0/68
北银理财一日开型产品5个多月规模增长近18亿元丨机警理财日报
0/69
美团企业版携手银行,「智慧食堂」探路对公场景金融
0/68
个人养老金制度推广至全国,中信保诚人寿布局智慧养老新模式
0/67
连收7张罚单,这家万亿大行怎么了?
0/64
唐山银行入选“2024新质生产力金融服务典范案例”
0/78
能兑换“狗头金”的京东黄金水饺 价值堪比熊猫币
0/73
直播预告:云上会|多元资产配置助力蔚然养老
查看TA的全部帖子>>
免训练加速DiT!Meta提出自适应缓存新方法,视频生成快2.6倍
时间:2024-11-8 09:54
0
233
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
现在,视频生成模型无需训练即可加速了?!
Meta提出了一种
新方法AdaCache
,能够加速DiT模型,而且是无需额外训练的那种(即插即用)。
话不多说,先来感受一波加速feel(最右):
可以看到,与其他方法相比,AdaCache生成的视频质量几乎无异,而生成速度却提升了
2.61倍
。
据了解,AdaCache灵感源于
“并非所有视频都同等重要”
。
啥意思??原来团队发现:
有些视频在达到合理质量时所需的去噪步骤比其他视频少
因此,团队在加速DiT时主打一个
“按需分配,动态调整”
,分别提出
基于内容的缓存调度
和运动正则化(MoReg)来控制缓存及计算分配。
目前这项技术已在GitHub开源,单个A100(80G)GPU 上就能运行,网友们直呼:
看起来速度提升了2~4倍,Meta让开源AI再次伟大!
“并非所有视频都同等重要”
下面我们具体介绍下这项研究。
先说结论,以Open-Sora是否加持AdaCache为例,使用AdaCache能将视频生成速度提升
4.7倍
——
质量几乎相同的情况下,前后速度从419.60s降低到89.53s。
具体如何实现的呢??
众所周知,DiT(Diffusion Transformers)结合了扩散模型和Transformer架构的优势,通过模拟从噪声到数据的扩散过程,能够生成高质量图像和视频。
不过DiT并非完美无缺,自OpenAI发布Sora以来(DiT因被视为Sora背后的技术基础之一而广受关注),人们一直尝试改进它。
这不,Meta的这项研究就瞄准了DiT为人熟知的痛点:
依赖更大的模型和计算密集型的注意力机制,导致推理速度变慢
。
展开来说——
首先,团队在研究中发现,有些视频在达到合理质量时所需的去噪步骤比其他视频少。
他们展示了基于Open-Sora的不同视频序列在不同去噪步骤下的稳定性和质量变化。
通过逐步减少去噪步骤,他们发现每个视频序列的 “中断点”(即质量开始显著下降的步骤数量)是不同的,右侧直方图也显示了在不同步骤中特征变化的幅度。
这启发了团队,
“并非所有视频都同等重要”
。
换句话说,针对每个视频都可以有不同的缓存和计算分配,以此节约资源。
于是
针对缓存
,Meta推出了一种名为AdaCache(自适应缓存)的新方法,核心是:
每次生成视频时,AdaCache会按视频的特定内容分配缓存资源,将不同视频的缓存需求动态调整到最优。
其架构如图所示,下面具体展开。
左侧部分
,AdaCache将DiT的原始扩散过程分为多个步骤,并对每一步进行残差计算,以生成新的表示。
这些新的表示会在后续步骤中被重复使用,而不需要每次都重新计算,从而节省大量计算资源。
过程中,研究使用一个距离度量(ct)来判断当前表示和之前缓存的表示之间的变化幅度。
如果变化较小,就可以直接使用缓存,节省计算量;如果变化较大,则需要重新计算。
右侧部分
,是DiT内部的计算过程,可以看到空间-时间注意力(STA)、交叉注意力(CA)和多层感知器(MLP)三个模块。
其中每一步生成的新表示(如ft+k和ft)会使用缓存中的残差进行更新,从而减少重复计算的次数。
总之一句话,这种策略使得计算资源能够根据视频内容的复杂性和变化率
动态分配
。
此外,为了进一步改进AdaCache,团队还引入
运动正则化(MoReg)
来控制计算分配。
通过考虑视频特定的
运动信息
来优化缓存策略
团队发现,视频中的运动内容对于确定最佳的去噪步骤数量至关重要,通常高运动内容需要更多去噪步骤来保证生成质量。
基于此,MoReg的核心思想是:
对于运动内容较多的视频,应该
减少缓存的使用
,从而允许在更多的步骤中进行重新计算。
由于需要在视频生成过程中实时估计运动,MoReg不能依赖于传统的、计算密集型的
像素空间运动估计算法
。
补充一下,这是一种用于视频编码中的技术,它通过比较相邻帧之间的像素差异来估计运动向量,从而实现视频的压缩。
因此,MoReg使用
残差帧差异
作为噪声潜在运动得分(noisy latent motion-score)的度量,其公式如下:
且为了进一步提高运动估计的准确性,MoReg引入了
运动梯度
(motion-gradient)的概念。
它可以作为一个更好的趋势估计,帮助在视频生成的早期阶段预测运动,并作为调整缓存策略的依据。
那么,采用AdaCache+MoReg的最终效果如何呢?
实验结果:优于其他免训练加速方法
最后,团队使用了
VBench基准测试
来评估AdaCache在不同视频生成任务中的性能。
其中VBench提供了一系列的质量指标,包括峰值信噪比(PSNR)、结构相似性(SSIM)和感知图像质量指标(LPIPS)。
同时,还测量了推理延迟(Latency)和计算复杂度(FLOPs)。
测试对象包括了
AdaCache的多个变体
,包括慢速(slow)、快速(fast)和带有MoReg的版本。
结果显示,fast变体提供了更高的加速比,而slow变体则提供了更高的生成质量。
与此同时,与其他
无训练加速方法
(如∆-DiT、T-GATE和PAB)相比,在生成质量相当或更高的情况下,AdaCache都提供了显著的加速效果。
另外,随着
GPU的数量增加
,AdaCache的加速比也相应增加,这表明它能够有效地
利用并行计算资源
,并减少GPU之间的通信开销。
更多实验细节欢迎查阅原论文。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部