切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
元象开源650亿参数高性能大模型,无条件免费商用 ...
菲龙网编辑部7
有 744 人收听 TA
147021
主题
147038
回复
173128
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/77
理财情报局 | 再现0费率!年末银行理财开启“花式”营销,头部理财公司发起自购含权理财
0/74
新希望金融科技曹滔滔:坚守边界,以科技力量助力中小商业银行数字化
0/44
友邦人寿总经理张晓宇升任友邦保险集团区域首席执行官,余宏拟任友邦人寿CEO
0/46
金价连续5日上涨 触及2700美元/盎司
0/48
对话汽车流通协会周伟:银行或将继续在汽车金融市场保持优势
0/53
用户比例达到88%!手机银行已成金融服务主导渠道
0/47
视频 从整个ETF持仓量的变化来看,投资者对黄金的一个热情和策略有哪些调整?
0/49
平安健康险亮相“乌镇峰会” 科技向善助力普惠金融发展
0/43
视频 丨 黄金振荡期,投资者可以采取什么样的交易策略?
查看TA的全部帖子>>
元象开源650亿参数高性能大模型,无条件免费商用
时间:2023-11-7 11:12
0
246
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
11月6日消息,元象XVERSE公司宣布,开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。
元象XVERSE创始人姚星表示:“面对研发时间紧、算力持续短缺等挑战,团队依靠丰富经验,三个月内研发出多款高性能7B、13B模型,并最早为社区献上一个‘大有可为’的65B模型,为研究、商业及生态创造三重价值。”
据介绍,XVERSE-65B底座模型在2.6万亿Tokens的高质量数据上从头训练,上下文窗口扩展至16K,支持中、英、俄、法等40多种语言。
元象坚持“高性能”定位,提升了65B三方面能力: 一、理解、生成、推理和记忆等基础能力,到模型的多样性、创造性和精度表现,从优异到强大;二、扩展了工具调用、代码解释、反思修正等能力,为构建智能体(AI Agent)奠定技术基础,提高模型实用性;三、显著缓解7B、13B中常见且可能很严重的幻觉问题,减少大模型“胡说八道”,提高准确性和专业度。
据悉,元象大模型系列均为全链条自研,涵盖多项关键技术与研发创新:
复杂分布式系统设计:借鉴团队研发腾讯围棋AI“绝艺”、王者荣耀AI“绝悟”等大系统上的丰富经验,自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术,打造高效稳定的训练系统, 千卡集群峰值算力利用率达58.5%。
全面提升性能:65B训练中采用FlashAttention2加速计算, 3D并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线产生过高气泡率,提升计算推理效率; 上下文窗口长度从8K逐步提升到16K,使其不仅能出色完成复杂任务,包括长文理解、长文生成和超长对话,还拓展了工具调用、代码解释及反思修正能力,能更好构建智能体(AI Agent)。
提升训练稳定性:因计算量庞大,通信拥塞、芯片过热或计算节点故障成为65B训练常态,初期出现过一周最高八次故障的情况。通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,元象打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至98.6%。
此外,在接近1.6万亿Tokens的模型训练中期,损失函数产生了NaN值,可能导致训练中断。通常情况下,业界一般会在分析后删除与之相关的数据区间。而团队根据经验判定这是模型自然演化,选择不删除数据,直接跳过相关参数更新,最终 NaN值 问题解决。后期对参数值、激活值、梯度值等中间状态的进一步分析表明,该问题可能 与模型最后一层transformer block激活值的最大值变化有关,并会随最大值的逐渐降低而自行解决。
为确保业界能对元象大模型性能有全面、客观、长期认知,研究人员参考了一系列权威学术测评,制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准,将持续使用并迭代。
XVERSE-65B在与国外标杆对比测评中,部分指标超越、综合性能媲美GPT3.5;全面超越开源标杆 Llama2-70B和Falcon-180B ;与GPT4仍有差距。
据介绍,元象大模型可在Github、Hugging Face、魔搭ModelScope等多平台搜索“XVERSE”下载,简单登记后即可无条件免费商用,能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。
元象同时提供模型训练、推理、部署、精调等全方位技术服务,赋能文娱、金融、医疗等各行各业,帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。2023年10月, 腾讯音乐宣布与元象大模型建立战略合作 ,共同推出lyraXVERSE加速大模型、全面升级其音乐助手“AI小琴”,未来还将持续探索AI与3D前沿技术。(一橙)
延伸阅读
摩尔线程创始人张建中:将进行岗位优化 中国GPU不存在“至暗时刻”
百世要私有化了,收购者联盟包括阿里和菜鸟
少林寺方丈释永信造访 Meta 总部,谈“禅宗遇到 AI”
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部