切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
Sora炸圈后哑火,国产视频大模型接棒降门槛 ...
菲龙网编辑部7
有 744 人收听 TA
147921
主题
147938
回复
174058
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/70
“偿二代”二期过渡期延长 险企迎来喘息之机!或将加速布局权益资产
0/73
央行、民政部就《社会组织反恐怖融资管理办法(修订草案征求意见稿)》公开征求意见
0/57
个人养老金被悄悄开户,银行别把好事办坏了|新京报快评
0/65
个人养老金被悄悄开户,银行别把好事办坏了 | 新京报快评
0/56
年底营销季 银行瞄准“升金有礼”
0/69
中国银行业协会召开外资银行工作委员会与国家金融监督管理总局交流座谈会
0/60
超2500亿元!银行红包雨来了
0/53
中国银行上海市分行获评全国新时代,“枫桥经验”优秀案例
0/48
瞄准传统产业升级 中国人寿105亿入股鞍钢集团旗下子公司
查看TA的全部帖子>>
Sora炸圈后哑火,国产视频大模型接棒降门槛
时间:2024-9-12 09:32
0
108
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
OpenAI旗下文生视频模型Sora推出时引发的行业爆炸仿佛还在昨日,但至今Sora也未对外正式开放使用。与之相对的是国内视频大模型在2024年密集发布,虽然技术更新不断,但成品多数仍需后期人工剪辑合成,影响技术在应用端的落地速度。
基于此,9月11日,生数科技披露功能更新,全球首发“主体参照”(Subject Consistency)功能,实现对任意主体的一致性生成,让视频生成更加稳定与可控。所谓“主体参照”,就是允许用户上传任意主体的一张图片,AI能够锁定该主体形象,通过描述词任意切换场景,输出主体一致的视频。
在生数科技CEO唐家渝看来,短视频、动画作品、广告片等影视作品,在叙事的艺术中均要求叙事体系“主体一致、场景一致、风格一致”,视频模型要达到叙事的完整性,就必须在这些核心元素上实现全面可控。
一键生成32秒视频
生数科技上一次对外发声是在今年4月,清华大学人工智能研究院副院长、生数科技联合创始人兼首席科学家朱军教授发布了长时长、高一致性、高动态性视频大模型Vidu,可以一键生成长达16秒的视频。此次技术更新,Vidu视频最长可以生成32秒。
2024年,整个大模型赛道经过前一年的疯狂,逐渐冷静,视频大模型被视为迈向多模态大模型或AGI的必经之路。以快手、字节旗下抖音为代表的短视频公司,以阿里、腾讯为代表的互联网大厂,以生数科技、智谱AI、爱诗科技等为代表的创业公司,均先后发布视频大模型产品。
据德邦证券统计,自Sora发布以来,国内外已有十多家公司发布或更新视频生成模型。客观来看,国内外之间的差距正在逐步缩小,视频时长、分辨率等基础功能具有复制性,未来竞争或向抢占用户、提升黏性等方向迁移。从主观角度对比,德邦证券认为大模型生成的视频质量提升显著,但离物理世界模拟器仍有距离。文生视频领域视频画面普遍清晰,但在动作幅度与物理还原度方面差异较大。这也是此次生数进行功能升级的考虑之一。
唐家渝表示,目前Vidu生成时长32秒是一键端到端生成,不是拼接插帧生成的。不同之处在于模型对更长时间信息的压缩,包括信息表现的能力更强,这实际上更本质地与物理世界的理解和语义输入的关系相关。所以提高时长需要提升模型对世界的抽象理解能力、压缩能力、理解能力,包括生成能力。
创作了动画短片《夏日的礼物》AIGC艺术家石宇翔认为,目前行业目前对AI视频的包容度比较高,细节上可提升的地方比如对复杂镜头的处理、对多人物镜头的处理,以及一些带有场面调度的处理等。与基础的图生视频功能相比,“主体参照”功能摆脱了静态图片的束缚,提升创作连贯性,节约了近七成的生图工作量。
光驰矩阵的发起人、青年导演李宁利用Vidu预创作了一段电影男主的视频片段,其中所有人物画面仅通过男主近景、中景、远景三张定妆照生成。李宁表示,之前的AI电影创作过程多采用传统的文生图、图生视频流程,在分镜的连贯上很难掌控,人物的整体造型很难保持一致,前期需要耗费大量的精力去调试图片,同时画面还容易产生镜头光影失控、图像模糊甚至变形等一系列问题,且随着视频篇幅的增加,这些问题被进一步放大。Vidu “主体参照”功能让人物的整体一致性显著提升,不再需要前期生成大量的图片,人物运动和画面过渡也更加自然,可助力长篇叙事创作。
本质上通过“主体参照”功能的升级是为了提高视频大模型生成质量、技术结合具体产业落地效率,加速AI在具体应用上的落地。目前生数科技推出合作伙伴计划,邀请广告、影视、动漫、游戏等行业机构加入。
目前生数科技视频模型的商业模式分为SaaS 订阅模式与API接口的方式,这也是目前大模型领域普遍采取的商业化试水方式。具体在B端与C端的分布占比情况,唐家渝称,从收入角度来看,B端市场的收入更大。C端产品上线一个月以来,增长曲线非常高。综合判断下来,B端比较明确、比较直接,包含了较为稳定的需求,所以B端会是公司长期重点的方向。而C端产品目前还处在不断探索过程中。
智谱CEO张鹏此前发布智谱清影(Ying)时谈及行业商业化探索,他称,从现在这个阶段来说,无论ToC还是ToB,纯粹走向大规模商业化还比较早期。所谓收费策略更多是一种早期尝试,也观察下市场和用户的反馈,进行及时调整。
视频大模型的下一步在哪里?
除了具体功能层面的升级更新,目前行业普遍共识于多模态是大势所趋,而视频大模型是阶段性状态。
对此,张鹏表示,视频生成并非孤立存在,而是放到整个技术和产品发展路线当中,智谱认为它是多模态或者AGI多模态路径当中的一环。从产品角度来讲,视频生成也会单独成为一个独立产品去实现商业化落地,进而产生价值。唐家渝也对记者表示,生数的底层是通用大模型,视频生成只是一个中间阶段。
迈向多模态的过程中,多款视频模型密集发布的状态会否造成同质化问题?对此,唐家渝对记者称,在技术路线上,生数现在处于收敛状态,但同质化并不代表所有进展与能力都相同。如现在的语言模型都会涉及Transformer架构,但现实来看,OpenAI还是明显领先的。因为在架构基础上,中间仍有非常多环节,如如何有效进行Scale up、视频如何有效压缩等,都存在非常多技巧与实践经验。算法技巧、算法难点,包括算法工程化难点等,都是导致目前视频大模型差异性的原因。
至于商业化方面,唐家渝认为行业在商业选择上比较类似,即便是像Sora、Runway等企业也都在积极拥抱好莱坞,或进行广告合作等,因为这些领域属于技术天然容易落地的领域。整个行业正在利用自身特点向前走,整体AI生成视频领域还在发展的前期,国际头部玩家在齐头并进,共同扩大市场。
对于视频模型领域的密集发布情况,张鹏认为可控性是行业需要花大力气去做的事情。一方面在技术层面,视频本身的可控是非常大的要求。其次从安全性角度来看,因为视频信号里包括的内容和细节更多,需要保证生成出来的东西符合要求;最后,生成的内容要做到商业化应用,可控也是必要的条件——既要精准表达创作者意图,且让大家买单。
在基础条件满足之后,目前行业自Sora面世后,对视频大模型的期待更多聚焦于AI取代长视频拍摄手段。张鹏认为从技术发展角度来看,这是一个重要方向,对影视行业的变化也有积极意义。但目前来讲,视频大模型还不足以直接用在面向观众的生产过程中,但可以用来做辅助工作,甚至是小规模创作,距离真正改变电影制作等高要求还有一段路要走。
至于出场即高潮、至今未对外开放的Sora,行业仍将其视为追赶标的,但由于技术细节上不透明,很多地方需要企业自己摸索。至于Sora的“销声匿迹”,唐家渝对记者分析称,原因可能在几方面:视频不是OpenAI目前的主线;部分数据版权问题未得到解决;生成过程中产生了其他问题,需要花费一定时间与成本解决,不符合公司的优先级。
张鹏与智谱一直客观正视与世界顶级水平之间的差距,同时他认为这条路还是得自己走,很多时候中国企业也是在用自己的方式向前追赶,比如如何将视频生成算力成本降下来,将响应速度提升上去,让所有人可以用等。“我们在追求技术高度的同时,也在同步追求技术的可普及性。”张鹏称。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部