切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 S ...
菲龙网编辑部7
有 744 人收听 TA
148041
主题
148058
回复
174182
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/85
因贷款风险分类不准确 肇庆农商行被处罚款120万元
0/60
9月末我国银行业对外金融资产15642亿美元
0/63
中国银行业协会原秘书长黄润中被查
0/70
明志科技:拟使用不超7亿元闲置自有资金进行现金管理
0/66
消费金融公司增资频频,仍有7家未达监管要求
0/62
低利率、高波动环境下,银行理财面临“二次转型”难题
0/72
金融“组合拳”助企“扬帆”——青岛银行多点发力,创新特色服务助力外贸企业发展
0/73
白皮书指金融调解机构专职调解员数量占比不足10%
0/50
2024年哪些互联网保险受欢迎?健康险呈家庭化配置,寿险宠物险走热
查看TA的全部帖子>>
Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet
时间:2024-12-27 10:12
0
72
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
还没等到官宣,
Deepseek-v3
竟意外曝光了?!
据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。
在Aider多语言编程测试排行榜中,Deepseek-v3一举超越
Claude 3.5 Sonnet
,排在第1位的o1之后。
(相比Deepseek-v2.5,完成率从17.8%大幅上涨至48.4%。)
且在LiveBench测评中,它是当前
最强开源LLM
,并在非推理模型中仅次于gemini-exp-1206,排在第二。
目前Hugging Face上已经有了Deepseek-v3(Base)的开源权重,只不过还没上传模型介绍卡片。
综合网上多方爆料来看,Deepseek-v3相比前代v2、v2.5有了极大提升——
与v2、v2.5配置对比
首先,Deepseek-v3基本配置如下:
采用
685B参数
的MoE架构;包含256个专家,使用sigmoid函数作为路由方式,每次选取前8个专家 (Top-k=8);支持64K上下文,默认支持4K,最长支持8K上下文;约60个tokens/s;
BTW,在Aider测评中击败Claude 3.5 Sonnet的还是
Instruct版本
(该版本目前未发布)。
为了进一步了解Deepseek-v3的升级程度,机器学习爱好者Vaibhav (VB) Srivastav(以下简称瓦哥)还深入研究了配置文件,并总结出
v3与v2、v2.5的关键区别
。
与
v2
(今年5月6日官宣开源)比较的结果,经AI整理成表格如下:
可以看出,v3几乎是v2的放大版,在每一项参数上均有较大提升。
而且瓦哥重点指出了
模型结构的三个关键变化
:
第一
,在MOE结构中,v3使用了sigmoid作为门控函数,取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择,而不像softmax函数倾向于将输入分配给少数几个专家。
第二
,v3引入了一个新的Top-k选择方法noaux_tc,它不需要辅助损失。
简单理解,MoE模型通常需要一个辅助损失来帮助训练,主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。
而新方法能在不依赖辅助损失的情况下,直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。
对了,为便于理解,瓦哥用DeepSeek逐步解释了这一方法。
这是一种基于群体的专家选择算法,通过将专家划分为不同的小组,并在每个小组内部选择最优秀的k名专家。
第三
,v3增加了一个新参数e_score_correction_bias,用于调整专家评分,从而在专家选择或模型训练过程中获得更好的性能。
此外,v3与
v2.5
(本月10日官宣开源)的比较也出炉了,后者主要支持联网搜索功能,相比v2全面提升了各项能力。
同样经AI整理成表格如下:
具体而言,v3在配置上超越了v2.5,包括更多的专家数量、更大的中间层尺寸,以及每个token的专家数量。
看完上述结果,瓦哥连连表示,明年有机会一定要见见中国的开源团队。(doge)
网友实测Deepseek-v3
关于v3的实际表现,另一独立开发者Simon Willison(Web开发框架Django的创始人之一)也在第一时间上手测试了。
比如先来个自报家门。
我是DeepSeek-V3,
基于OpenAI的GPT-4架构
……
再考考图像生成能力,生成一张鹈鹕骑自行车的SVG图。
最终图形be like:
对了,在另一网友的测试中,Deepseek-v3也回答自己来自OpenAI??
该网友推测,这可能是因为在训练时使用了OpenAI模型的回复。
不过不管怎样,还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座,在一些网友心中,这比只搞期货的OpenAI遥遥领先。(手动狗头)
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部