切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
为机器人赋予空间智能,UIUC团队构建多模态具身智能的3D ...
菲龙网编辑部7
有 744 人收听 TA
147861
主题
147878
回复
173996
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/68
出口信保公司监管办法出炉,明年1月1日起施行
0/70
《中国居民投资理财行为调研报告》发布:个人养老金产品渗透率提升,理财配置“突而未破”
0/67
“偿二代”二期过渡期延长一年至2025年底!
0/72
再议全球配置:券商新军如何为跨境理财通开启第二增长曲线
0/71
三七二十一|2700美元,黄金的巅峰还是起点?对话广发期货贵金属研究员叶倩宁
0/65
国家金融监管总局:推动保险公司加强偿付能力管理
0/57
11月七成结构性产品到期年化收益率超4%丨机警理财日报
0/58
十年跨越,数智创新:《中国数字普惠金融发展报告》正式发布
0/61
四川农商联合银行获批入股6家、增持3家农商行,受让4家农商行股权
查看TA的全部帖子>>
为机器人赋予空间智能,UIUC团队构建多模态具身智能的3D推理系统
时间:2024-9-19 10:01
0
107
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
能够在三维场景中进行空间感知和推理决策是机器人和具身 AI 区别于二维图像智能的重要能力,也是现有人工智能模型的严重局限之一。
基于这个观察,美国伊利诺伊大学厄巴纳-香槟分校(UIUC,University of Illinois Urbana-Champaign)团队研究并证明了空间感知在三维多模态推理中的重要性,并结合大视觉语言模型提出了强化空间智能的新方法。
相关论文发表在 2024 年 IEEE 国际计算机视觉与模式识别会议(CVPR,Conference on Computer Vision and Pattern Recognition)上。
论文的第一作者满运泽,本硕博先后就读于浙江大学、美国卡内基梅隆大学和 UIUC。他曾在 Adobe 实习过,如今又在 NVIDIA 从事科研实习工作,目前主要研究多模态大模型和具身智能。
图丨满运泽(来源:满运泽)
他表示,本次工作在很大程度上基于对人类智能的观察。
具体来说:
他和团队发现相比于机器学习模型,人类在回答三维空间中的复杂感知、规划任务和推理任务的时候,会自然而然地从自身所处的情景出发,来做第一人称的理解和判断。
这种智能使得人们可以很轻易地理解“左右”“远近”“上下”等空间相对概念,并能在复杂的多物体多模态环境中工作。
他和同事把这种智能叫做情景感知。它是空间智能的其中一种,代表着一个具身智能体能够理解自身所处环境,并能依此进行空间推理的能力。
这也和美国斯坦福大学李飞飞教授所强调的 Spatial Intelligence 有着密切相关性。
研究中,该团队通过初步实验证明:现有的人工智能模型并不具备情景感知能力。
首先,在情景估计任务中,现有模型的表现仅仅比随机猜测高出一点点而已。
其次,他们还发现有无情景输入,对于情境相关的问答效果完全没有任何区别,这一点其实与人类直觉是完全相悖的。
而在本次研究伊始,他们注意到了 SQA3D 这个数据集,这是一个鲜少有人注意但却非常独特和重要的数据集。
此前通过使用这个数据集,人们一般用来研究 3D 问答效果。但是,很少有人将这个数据集用于研究情景估计和基于情景的问答效果。
而通过分析领域内的已有工作,并通过与人类智能对比,他们将研究方向定为情景感知。
随后,课题组开始针对现有模型的步骤进行分析和可视化,借此找出导致效果变差的成因。
随后发现问题主要出现在两方面:
其一,当采用端到端直接估计的架构时,会导致模型无法利用估计出来的情景,来辅助问答任务和推理任务。
其二,采用回归估计(Regression Estimation)的方法,会导致模型无法在巨大的三维空间中准确定位到某一位置和某一方向向量。
为此,该团队设计出一款名为 SIG3D 的模型,针对上述两方面问题进行优化,这不仅能让三维搜索空间变小,也能显著提升准确度。
同时,课题组尽可能多地寻找合适的数据集来验证猜想,并再次通过最终结果和中间结果的可视化,来验证所优化模块的效果。
最终,相关论文以《情境意识在三维视觉语言推理中的重要性》(Situational Awareness Matters in 3D Vision Language Reasoning)为题发在 CVPR 2024 上 [1]。
图丨相关论文(来源:CVPR)
对于相关论文审稿人一致认为:
首先,本次论文研究动机十分明确,并解决了帮助智能体理解三维环境这一问题,在方法上具有一定创新性。
其次,研究人员进行了充分的实验和广泛的消融研究,在两个问答任务和一个情景估计任务进行了评估。
并在所有三个任务上均展示出最优越的性能,尤其在情境估计任务上取得了显著提升。
最后,研究中对于鸟眼(BEV,Bird's-Eye Vie)俯视角和情境理解的探讨,为 3D 推理和具身 AI 等应用做出了一定贡献。
对于游戏、居家机器人、自动驾驶车辆、以及增强现实/虚拟现实等混合现实产品的智能体系统,本次成果将能带来一定的潜在帮助。
而拥有一个更好的情景感知能力,意味着模型将能拥有更好的 3D 空间理解能力。
它将能明白自己在空间中的位置和方向,因此会天然地拥有更强的避障能力、导航能力、推理能力、交流能力以及多模态问答,从而催生更安全、更智能的 AI。
(来源:CVPR)
另据满运泽介绍,这是他的第一篇正式向视觉语言多模态方向转型的论文。
“论文定题的初期曾经历一些阵痛。由于脱离了自己之前熟悉的领域,所以交流方式也要进行更新,还有无数的相关文献要等着阅读,因此精神压力一直比较大。”他说。
但是,研究途中满运泽逐渐体会到豁然开朗的感觉,也让他产生了很多关于视觉语言模型的其他想法。
他说:“从对这个方向产生兴趣、追随兴趣、摸黑探索、以及豁然开朗,很像《桃花源记》中的一句话‘山有小口,仿佛若有光(新的方向)。便舍船,从口入。初极狭,才通人(转型的阵痛)。复行数十步,豁然开朗’。”
而基于本次成果:
首先,他希望可以继续拓展模型的研究情景感知能力在 7B 模型、13B 模型、乃至 40B 模型中,是否仍会带来推理效果的提升。
其次,他打算研究场景从室内拓展到室外,在更空旷和更复杂的交互中验证模型。
最后,他还会研究视觉模型对于 3D 多模态推理的重要性,尤其是探究图像和视频中的 2D 基础模型的泛化能力,能否被拓展到 3D 模型中。而这个工作的相关论文,已经在 arXiv 预印本平台上发表。
图丨相关论文(来源:arXiv )
满运泽的长期研究目标是:希望开发一个视觉感知优先的多模态信息系统,从而为具身 AI 和机器人构建一个能够准确表示周围世界的动态三维世界模型,并能在进行复杂推理和决策的同时,与人类和环境产生交互。
参考资料:
1.https://arxiv.org/pdf/2406.07544
排版:刘雅坤
01/
02/
03/
04/
05/
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部