切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
多模态大模型多元路径中,智源提出一种收敛可能 ...
菲龙网编辑部7
有 744 人收听 TA
146921
主题
146938
回复
173026
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/39
报道:OpenAI考虑推出浏览器,挑战Chrome业务面临被剥离的谷歌
0/38
新消费日报 | 星巴克回应“考虑出售中国业务股份”;阿里整合国内外电商成立电商事业群……
0/26
深夜大跌!拼多多,最新发布→
0/29
拼多多电话会:增长放缓是必然的,相对于同行的劣势将会在一段时间内显著存在
0/29
吴泳铭整合阿里国内和海外电商:蒋凡任负责人 电商重归价值竞争
0/32
爱奇艺季报图解:营收72亿,经调整运营利润3.7亿,入局微短剧
0/39
中欧美全球倡议发起人高大伟:弥合数字鸿沟 让互联网惠及所有人
0/36
迎着应用爆发的曙光,百度将推出新版文心大模型
0/28
水井坊:“双十一”期间电商业务持续保持了客观增长 符合预期
查看TA的全部帖子>>
多模态大模型多元路径中,智源提出一种收敛可能
时间:2024-10-22 10:25
0
135
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
2024年中下旬,大模型赛道逐渐冷静,零星动态更新也主要聚焦于多模态领域。相较于大语言模型逐渐收敛的技术趋势,多模态领域技术路线暂时呈现多元化态势,如OpenAI Sora 基于Diffusion Transformer架构,生数科技的核心是使用一个统一的底层架构U-ViT来处理图像、3D、视频等多类复杂生成任务。
10月21日,智源研究院提出一种新训练范式,发布原生多模态世界模型Emu3,可实现视频、图像、文本三种模态的统一理解与生成。原理上,Emu3基于自回归技术路线(Autoregressive Model),只基于下一个token(输入数据的基本单位)预测,无需扩散模型或组合式方法,将图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。
自回归技术路线属于多模态大模型领域的一种方法,核心思想是利用序列数据中的时间依赖性来预测未来的数据点。该类型模型中,不同模态数据共享同一套参数,可实现跨模态的关联和生成,无需人工设计的特征工程。同时因自回归技术路线的特点,在生成数据时模型必须按顺序进行,限制了并行计算的能力,导致生成速度较慢。也会遇到长期依赖问题,即模型难以捕捉序列中较远距离的依赖关系。
此前,谷歌与麻省理工学院(MIT)何恺明团队联合推进了一个新研究项目,推出名为Fluid的视觉自回归模型,采用连续token生成方式和随机顺序生成机制。国内市场中,智源研究院作为非营利性研究组织,率先推出自回归路线多模态模型,初衷为攻克大模型领域原始创新,目标在资源允许的情况下,在国际开源社区中展现中国技术实力与训练成果。目前智源研究院已开源了Emu3生成和理解一体的预训练模型以及相应的SFT训练代码,以方便后续研究和社区构建与集成。
Emu3之前,多模态生成任务主要由以Stable Diffusion为代表的扩散模型所主导,多模态理解任务由CLIP视觉编码器与LLM结合的组合式方法所主导。采访中,智源研究院院长王仲远对记者表示,Emu3证明了下一个token预测可以在多模态任务中有高性能的表现,有机会将基础设施建设收敛到一条技术路线上,为大规模的多模态训练和推理提供基础。
此前一位国内头部大模型企业人员对记者表示,大语言模型是多模态模型的“智商”基础,不论文生图还是图生视频模型,都需要大语言模型作为底座,再通过其他路径将不同模型连接,实现最终的多模态。王仲远对记者表示,Emu3有别于这类组合方法,采用的是原生统一的多模态技术范式。虽然多模态大模型训练所需资源并不比大语言模型要少,但可以极大程度上复用现有基础设施,包括技术范式与GPU集群等。
另外针对目前行业从训练端转向推理端的趋势变化,王仲远对记者表示,在技术路线收敛的趋势下,厂商会更积极地探索模型的落地场景。从乐观的角度来看,说明基础大模型已经达到一定的能力水平。另从谨慎的角度来说,训练转推理说明仅靠市场驱动,会令厂商陷入“追随者”的境地,不利于原始技术创新。
当下,王仲远称,研发多模态技术路线是比大语言模型更重要的时间节点,因为后者主要跟随已被验证的ChatGPT技术路线,而如今的多模态领域还处于非常早期。
至于Emu3模型的具体落地场景方向,王仲远表示,机器人大脑、自动驾驶、多模态对话和推理等都是潜在的应用方向。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部