切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
腾讯混元又又又开源了,这次想复刻一个文生视频领域的Fl ...
菲龙网编辑部7
有 744 人收听 TA
147801
主题
147818
回复
173934
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/72
临港新片区:国际再保险功能区登记保费规模突破100亿元
0/63
独家丨《金融产品网络营销管理办法》有望发布,涉及贷款、理财、支付等领域
0/64
北银理财一日开型产品5个多月规模增长近18亿元丨机警理财日报
0/66
美团企业版携手银行,「智慧食堂」探路对公场景金融
0/62
个人养老金制度推广至全国,中信保诚人寿布局智慧养老新模式
0/62
连收7张罚单,这家万亿大行怎么了?
0/60
唐山银行入选“2024新质生产力金融服务典范案例”
0/70
能兑换“狗头金”的京东黄金水饺 价值堪比熊猫币
0/66
直播预告:云上会|多元资产配置助力蔚然养老
查看TA的全部帖子>>
腾讯混元又又又开源了,这次想复刻一个文生视频领域的Flux?
时间:2024-12-7 12:23
0
410
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
作者 | 周一笑
邮箱 |
[email protected]
腾讯混元大模型又开源了,这次是文生视频模型。
自OpenAI发布Sora演示视频以来,要做中国版Sora的声音从未停止过。在国内,大厂和创业公司都纷纷推出了自己的视频生成模型:快手的可灵、MiniMax的海螺、生数的Vidu以及智谱的CogVideoX等,都获得了许多开发者和用户的关注和使用。在这个竞争激烈的赛道上,现在他们又多了一个选择:腾讯混元文生视频大模型(Hunyuan-Video),腾讯混元大模型在12月3日正式上线视频生成能力。
同样重要的是开源。Hunyuan-Video已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。此前,腾讯混元已开源了旗下文生文、文生图和3D生成大模型。据腾讯混元相关负责人介绍,后续还有图生视频模型、视频配音与配乐、驱动2D照片数字人技术的开源计划。
Hunyuan-video的参数量为130亿,官方放出的样片长这样:
1
HunYuan-Video的技术架构与创新特性
统一图像与视频生成架构
HunyuanVideo使用了基于Transformer的全注意力机制,用于视频生成。并能实现主体一致的多视角镜头切换。与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型。
它采用“双流到单流”的混合模型架构,能够在融合之前分别处理视频和文本的特征信息,从而实现更高效的多模态信息融合。
双流到单流模型是指机器学习中的一个框架,特别是在多模态数据处理的背景下,其中两股独立的数据流(如文本和图像)最初分别处理,然后合并成一股单一流进行进一步分析或生成。
MLLM Text Encoder MLLM
HunYuan-Video使用具有解码器结构的预训练多模态大型语言模型 (MLLM) 作为文本编码器。这一设计增强了图文对齐能力,并提升了模型处理复杂指令的能力。同时,它引入了一个双向特征优化器(bidirectional token refiner)来增强文本特征。
3D VAE压缩
HunYuan-Video引入了3D形状变分自编码器(VAE),将视频压缩到潜在空间,大幅减少后续处理所需的token数量。这使得模型能够在原始分辨率和帧率下进行训练,同时优化了性能和效率。使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。
提示重写模型
Hunyuan-Video还配备了一个提示优化模型(Prompt Rewrite Model),用于调整用户输入的提示词,使其更符合模型的偏好。该模型提供两种模式:普通模式侧重于理解用户意图,而大师模式则强化视觉质量,包括画面构图和光影效果等方面的表现。
指标与性能
在千题盲测的定量分析中,Hunyuan-Video与包括 Gne3 和 Luma 在内的前五名闭源模型进行了比较,在60多名专业评估人员评估后,HunyuanVideo 在综合指标上表现最好,特别是在运动质量方面表现较为突出。
运行Hunyuan-Video模型使用文本生成视频的推荐配置需要45GB的GPU内存。
1
要扛起开源文生视频的大旗?
腾讯混元多模态生成技术负责人凯撒在发布现场表示,文生视频领域目前存在“抽卡概率”的问题,普通用户大多处于尝鲜状态,且目前开源闭源“存在较大的GAP”,“这也是我们为什么开源”。
他多次提到Black Forest Labs旗下Flux的开源模式。Flux通过开源基础模型构建开发者生态,同时保留商业版本维持竞争力,已获得包括Andreessen Horowitz的知名投资机构的投资。
Flux通过开源策略与MidJourney竞争,依托其灵活的社区参与机制、强大的定制化能力以及对用户指令的高精度响应。相比MidJourney的闭源运营,Flux.1的开源特性吸引开发者共同优化模型。开源也让Flux.1更容易被个人和小型团队采用,从而扩大用户基数。这一模式结合强社区支持,为开源生态带来了长尾效应,挑战了MidJourney的市场主导地位。
“文生图的发展,社区给了很大的力量,很多优秀的底模出来之后学术界、很多人都可以玩起来,做插件、做优化,而不是几家闭门造车。”
例如,Hunyuan-video推荐配置至少需要45GB的GPU内存,这对于普通开发者而言门槛仍然偏高,但社区的力量不容小觑。另一个开源视频模型Mochi 1需要4个H100才能保证效率和输出效果,而发布之后,社区就开始尝试解决在显存更低的设备运行Mochi 1,并开发ComfyUI插件。大量开发者提供了经过优化的插件,如动漫风格视频转换工具和低显存支持模块,进一步降低了使用门槛。
Mochi已支持在ComfyUI中使用消费级GPU运行
当然,要让文生视频技术成熟,还需攻克一些客观难题。“高质量数据还是挺缺的。”
此外,训练视频生成模型绕不开的仍然是算力成本,例如,Meta的Movie Gen使用了多达6144个H100 GPU进行训练,成本高昂。
商业模式方面,Flux通过提供付费API和用于商业应用的闭源模型来构建的商业模式。参考Flux的做法,Hunyuan-Video未来也可以通过API等形式提供更高质量的服务。目前,Hunyuan-Video暂时没有商业化的动作,用户可以在腾讯元宝APP免费使用Hunyuan-Video的文生视频功能。
“我们先站出来,搞一个跟闭源水平差不多的模型,给大家用起来”,凯撒表示,“希望跟社区一起把我们的技术早日推向图像生成领域一样的状态”。
他同时表示从混元整体技术栈的逻辑出发,做视频模型是其必经之路,“最终就是只有一个Model”。
无论如何,在Meta发布Movie Gen后并未提及任何开源事宜的情况下,考虑到视频生成模型的训练成本和难度,Hunyuan-Video的出现无疑是开源社区希望看到的事情。
类比SD,文生视频现在处于类似SD1.5的状态,接下来就看Hunyuan-Video能否进化到下一个阶段了。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部