切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
“端侧模型”能力大幅提升,面壁智能新品赶上GPT-3.5 ...
菲龙网编辑部7
有 744 人收听 TA
147981
主题
147998
回复
174120
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/34
负债不够存单来凑,年内多家银行同业存单罕见“提额”
0/43
华泰财产保险有限公司江门中心支公司被罚35万,原因曝光!
0/33
国家金融监督管理总局:警惕不法贷款中介诱导消费者“债务重组”
0/35
金融引擎助力生态振兴,恒丰银行亿元资金助力废弃矿坑综合治理项目
0/36
虚列费用!惠州这家保险公司被罚22万元
0/37
金融机构科技投入超3500亿 数字化转型步入深水期
0/29
蛇年纪念币钞难抢?还能捡漏吗?多家银行回应
0/28
评评“理” ⑲:招行APP业绩榜NO.1近1个月年化收益率14%,性价比得分却很低丨银行热销理财产品测评系列
0/33
智库报告|科技金融落地之年,商业银行答题如何?
查看TA的全部帖子>>
“端侧模型”能力大幅提升,面壁智能新品赶上GPT-3.5
时间:2024-9-7 09:57
0
145
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪
9月5日,面壁智能发布了旗舰端侧模型“小钢炮”系列的MiniCPM 3.0基座模型。MiniCPM 3.0是一款4B大小的模型,在自然语言理解、知识、代码、数学等能力上可达到GPT-3.5水平,经过量化处理后内存为2.2GB。
MiniCPM 3.0强调了自身的长文本、Function Call(函数调用)与RAG(检索增强生成)三个模型功能。
长文本并不是一个稀缺技能,面壁智能的差异化在于,团队通过长本文分帧处理技术,打破了上下文长度的拓展限制。这使得在InfiniteBench大模型长文本能力的权威评测集中,MiniCPM 3.0的表现超过了GPT-4、KimiChat、Qwen2-70B。
Function Calling是智能体(Agent)应用的重要技能,它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统。公司表示,MiniCPM 3.0的Function calling性能目前已接近GPT-4o水平。
RAG技术是端侧模型加强检索与生成能力,尽可能减少大模型幻觉问题的重要手段。面壁智能为MiniCPM 3.0加入了MiniCPM-Embedding(检索模型)、MiniCPM-Reranker(重排序模型)和面向RAG场景的LoRA插件(生成模型)共三个外挂模型。
总体而言,面壁智能在MiniCPM 3.0上降低了参数并提升了性能。这是端侧模型生存突围的唯一路径。
与众多互联网大厂和创业公司抢入通用大模型领域不同,面壁智能从成立至今就把目标放在小尺寸大模型上,尤其以MiniCPM系列发力端侧模型,团队的技术目标一直在于如何提升模型的知识密度(即模型能力/参与计算的模型参数)。
相较于云端大模型,兼具小尺寸和强性能的端侧模型天然更适合智能硬件产品,因为后者有更高的计算效率、实时反馈、安全隐私等方面的要求。
“从技术角度来说,端到端的方案通常都是上限更高,而且能够带来更新体验的方案。”面壁智能CTO曹国洋表示。以机器人为例,端侧模型有机会带来传统技术所无法实现的通用能力,例如通过更长的上下文完成对人的情绪与意图的理解。
不过,以OpenAI为代表的大模型公司,也正在通过剪枝、量化等手段开发小尺寸模型,这是否意味着在可见的未来,通用大模型有可能会全面覆盖小尺寸模型的能力表现,以面壁智能为代表的端侧模型将成为前者的子集?
这个问题的本质是面壁智能在技术上的挑战。曹国洋解释道,从技术路线上来说,端侧模型与云端大模型有一部分是共通的,主要体现在模型的知识密度和能力上,但是面壁智能需要在一些技术上采取更适配端侧模型的路径,才有可能实现以小博大的目的。
不过,在真正落地端侧设备时,端侧模型的优势会得到显现。由于端侧设备对运算资源有极大限制,端侧模型会从模型的训练技巧、数据配比、数据精度等方面做大量工作,而云端大模型整体更注重效果和成本的平衡,大都采取MoE(Mixture of Experts)架构等技术以追求性价比,长期来看,如果仅采取剪枝等传统技术,云端模型难以持续大幅提升模型的知识密度。
当端侧模型的表现提升到足够好,面壁智能的下一步就是启动商业模式的尝试和挑战。
目前,面壁智能已经与MTK合作,为梧桐科技提供MiniCPM车载多模态大模型,迈入了智能座舱芯算一体的合作领域。
面壁智能CEO李大海表示,手机、PC、机器人和汽车是面壁智能目前很明确的四个落地方向。对于端侧模型与智能硬件相结合的量产节点,李大海推测是在明年。同时,他提到,今年年底可能就会有配备面壁智能端侧模型的产品上市,但暂未透露具体厂家和产品形态。
一个不可回避的问题是,当前,无论是苹果、三星还是华为等头部硬件厂商,都在打磨自有端侧大模型,并与自有产品做结合。面壁智能作为模型供应商,如何看待与这些终端厂商的竞争,以及更好服务其他厂商客户?
李大海认为,尽管终端厂商掌握场景,但并非所有厂商都有能力打造足够好的端侧模型,而今天的智能化竞争,无论在哪个产业都十分激烈。为了面向消费者达成更好的交付效果,厂商都在追求最好的端侧模型能力。从这个角度而言,面壁智能仍有机会通过与厂商的沟通协作获得更多收入和市场份额。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部