切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
“端侧模型”能力大幅提升,面壁智能新品赶上GPT-3.5 ...
菲龙网编辑部7
有 744 人收听 TA
146961
主题
146978
回复
173066
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/51
李云泽:保险业要加快由追求速度和规模向以价值和效益为中心转变
0/51
从4.5%降至3.5%!振兴银行存量存款利率下调,**能否单方面暂停“加息”
0/53
央行科技司:正在加紧出台金融业数据跨境流动合规指南
0/51
厦门国际银行北京分行助力北京市银行业协会举办声誉风险管理培训
0/41
理财公司掀起降费大战,部分产品费率低至0
0/42
回应被罚50万元,国开行:将严格按照监管要求落实整改措施
0/48
东莞万江举行2024年“百千万工程”政策宣讲会,搭建政企交流桥梁
0/43
21理财私房课丨市场涨、投资亏,这一导致逆势亏损的“理财刺客”需警惕
0/44
大家财险因财务数据不实再领罚单,今年前三季度亏损1.7亿
查看TA的全部帖子>>
“端侧模型”能力大幅提升,面壁智能新品赶上GPT-3.5
时间:2024-9-7 09:57
0
132
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪
9月5日,面壁智能发布了旗舰端侧模型“小钢炮”系列的MiniCPM 3.0基座模型。MiniCPM 3.0是一款4B大小的模型,在自然语言理解、知识、代码、数学等能力上可达到GPT-3.5水平,经过量化处理后内存为2.2GB。
MiniCPM 3.0强调了自身的长文本、Function Call(函数调用)与RAG(检索增强生成)三个模型功能。
长文本并不是一个稀缺技能,面壁智能的差异化在于,团队通过长本文分帧处理技术,打破了上下文长度的拓展限制。这使得在InfiniteBench大模型长文本能力的权威评测集中,MiniCPM 3.0的表现超过了GPT-4、KimiChat、Qwen2-70B。
Function Calling是智能体(Agent)应用的重要技能,它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统。公司表示,MiniCPM 3.0的Function calling性能目前已接近GPT-4o水平。
RAG技术是端侧模型加强检索与生成能力,尽可能减少大模型幻觉问题的重要手段。面壁智能为MiniCPM 3.0加入了MiniCPM-Embedding(检索模型)、MiniCPM-Reranker(重排序模型)和面向RAG场景的LoRA插件(生成模型)共三个外挂模型。
总体而言,面壁智能在MiniCPM 3.0上降低了参数并提升了性能。这是端侧模型生存突围的唯一路径。
与众多互联网大厂和创业公司抢入通用大模型领域不同,面壁智能从成立至今就把目标放在小尺寸大模型上,尤其以MiniCPM系列发力端侧模型,团队的技术目标一直在于如何提升模型的知识密度(即模型能力/参与计算的模型参数)。
相较于云端大模型,兼具小尺寸和强性能的端侧模型天然更适合智能硬件产品,因为后者有更高的计算效率、实时反馈、安全隐私等方面的要求。
“从技术角度来说,端到端的方案通常都是上限更高,而且能够带来更新体验的方案。”面壁智能CTO曹国洋表示。以机器人为例,端侧模型有机会带来传统技术所无法实现的通用能力,例如通过更长的上下文完成对人的情绪与意图的理解。
不过,以OpenAI为代表的大模型公司,也正在通过剪枝、量化等手段开发小尺寸模型,这是否意味着在可见的未来,通用大模型有可能会全面覆盖小尺寸模型的能力表现,以面壁智能为代表的端侧模型将成为前者的子集?
这个问题的本质是面壁智能在技术上的挑战。曹国洋解释道,从技术路线上来说,端侧模型与云端大模型有一部分是共通的,主要体现在模型的知识密度和能力上,但是面壁智能需要在一些技术上采取更适配端侧模型的路径,才有可能实现以小博大的目的。
不过,在真正落地端侧设备时,端侧模型的优势会得到显现。由于端侧设备对运算资源有极大限制,端侧模型会从模型的训练技巧、数据配比、数据精度等方面做大量工作,而云端大模型整体更注重效果和成本的平衡,大都采取MoE(Mixture of Experts)架构等技术以追求性价比,长期来看,如果仅采取剪枝等传统技术,云端模型难以持续大幅提升模型的知识密度。
当端侧模型的表现提升到足够好,面壁智能的下一步就是启动商业模式的尝试和挑战。
目前,面壁智能已经与MTK合作,为梧桐科技提供MiniCPM车载多模态大模型,迈入了智能座舱芯算一体的合作领域。
面壁智能CEO李大海表示,手机、PC、机器人和汽车是面壁智能目前很明确的四个落地方向。对于端侧模型与智能硬件相结合的量产节点,李大海推测是在明年。同时,他提到,今年年底可能就会有配备面壁智能端侧模型的产品上市,但暂未透露具体厂家和产品形态。
一个不可回避的问题是,当前,无论是苹果、三星还是华为等头部硬件厂商,都在打磨自有端侧大模型,并与自有产品做结合。面壁智能作为模型供应商,如何看待与这些终端厂商的竞争,以及更好服务其他厂商客户?
李大海认为,尽管终端厂商掌握场景,但并非所有厂商都有能力打造足够好的端侧模型,而今天的智能化竞争,无论在哪个产业都十分激烈。为了面向消费者达成更好的交付效果,厂商都在追求最好的端侧模型能力。从这个角度而言,面壁智能仍有机会通过与厂商的沟通协作获得更多收入和市场份额。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部