文心大模型日均调用量超7亿次，旗舰模型一年降价超90%

马上注册，结交更多好友

您需要登录才可以下载或查看，没有账号？立即注册

x

9月25日，2024百度云智大会在北京召开。为帮助企业更快、更好、更省地使用大模型，百度智能云分别针对算力、模型、AI应用，全面升级百舸AI异构计算平台4.0、千帆大模型平台3.0两大AI基础设施，并升级代码助手、智能客服、数字人三大AI原生应用产品。
“2024年大模型的产业落地正在加速，目前在千帆大模型平台上，文心大模型日均调用量超过7亿次，累计帮助用户精调了3万个大模型，开发出70多万个企业级应用。过去一年，文心旗舰大模型降价幅度超过90%，主力模型全面免费，最大限度降低了企业创新试错的成本。”百度集团执行副总裁、百度智能云事业群总裁沈抖说。

百度集团执行副总裁、百度智能云事业群总裁沈抖
升级百舸4.0
模型训练有效时长达99.5%
可高效管理十万卡集群
为满足企业落地大模型从集群创建、开发实验，到模型训练、推理的全旅程算力需求，应对超大规模GPU集群高成本、难运营两大挑战，百度智能云升级发布百舸AI异构计算平台4.0，面向万卡、十万卡集群全面升级算力管理能力。
首先，在集群创建阶段，企业通常需要进行大量复杂、琐碎的算力配置和调试工作。百舸4.0预置了主流的大模型训练工具，能够实现工具层面的秒级部署，并将万卡集群运行准备时间从几周缩减至1小时，极大地提升部署效率，缩短业务上线周期。

百度百舸AI异构计算平台4.0
在开发实验阶段，企业需要针对业务目标对不同架构、参数的模型进行多次测试，进而制定最佳模型训练策略，保障后续训练的性能和效果。百舸4.0全新升级的可观测大盘，能够对多芯适配、集群效能、任务自动容错等方面进行全方位监测，提供直观决策依据，帮助用户更好地把控整体项目。
在模型训练阶段，稳定和高效是衡量GPU集群水平的“金指标”、“硬通货”。
在稳定性方面，一张GPU出现故障就会导致集群整体停摆，大量时间、成本浪费在故障恢复和数据回滚上。百舸4.0能够自动筛查集群状态，并基于对GPU故障的精准预测，及时转移工作负载，降低故障发生频次。此外，百舸独有的故障秒级感知定位、Flash Checkpoint模型任务状态回滚等技术，能够大幅减少集群故障处置时间，实现接近无损的集群容错。
目前，百舸在万卡集群上实现了有效训练时长占比99.5%以上，业界领先，极大地节约了客户算力与时间成本。此外，百舸4.0通过在集群设计、任务调度、并行策略、显存优化等一系列创新，大幅提升了集群的模型训练效率，整体性能相比业界平均水平提升高达30%。
在模型推理环节，百舸则通过架构分离、KV Cache、负载分配等一系列加速方法，实现了模型推理的降本提效，尤其在长文本推理方面，推理效率提升超过1倍。
针对管理十万卡的难题，百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN高性能网络、10ms级别超高精度网络监控，以及面向十万卡集群的分钟级故障恢复能力。
对于自建智算中心的客户，百舸4.0此番还对“一云多芯”能力进行了升级。在万卡规模集群上，多芯混合训练效能高达95%，保持业界领先。“要建设更大的集群，同时确保供应链的安全和弹性，势必会存在不同芯片混合使用的情况，也就是说，对于自建智算中心的客户来说，一云多芯是必然选择。”沈抖说。
更多精彩敬请关注
@四川卫视
编辑：姚慧霖
责任编辑：周莎
审核：程昕

菲龙网编辑部7

本文来自

科技新闻

菲龙网编辑部7发布过的帖子

文心大模型日均调用量超7亿次，旗舰模型一年降价超90%

马上注册，结交更多好友

站长推荐 /1