收起左侧
发新帖

OpenAI推出o3-mini:对抗DeepSeek崛起的新利器?

时间:2025-2-2 01:34 0 41 | 复制链接 |

马上注册,结交更多好友

您需要 登录 才可以下载或查看,没有账号?立即注册

x
文 | 科技旋涡
为了应对开源竞争对手DeepSeek-R1的迅速崛起,OpenAI发布了新的专有AI模型——o3-mini。然而,这款新模型是否足以削弱DeepSeek的成功,仍然是一个疑问。
今天,OpenAI正式发布了o3-mini,这是其“推理者”系列中的第二款模型。该系列的模型需要更多时间进行“思考”,分析自己的过程,并反思自己的“思维链”,然后才能回答用户的提问。最终,这款模型能够在数学、科学、工程等多个领域提供类似博士生或学位持有者的解答。
o3-mini现已在ChatGPT和OpenAI的API中提供,包括免费的用户也可以使用。而且,它的性能比之前的高端模型o1以及其低参数版本o1-mini更优,且价格更低。
尽管o3-mini发布的时机被认为可能是对DeepSeek-R1的回应,但需要指出的是,o3和o3-mini早在2024年12月就已经宣布。OpenAI的CEO Sam Altman曾表示,由于开发者和研究人员的反馈,o3将在ChatGPT和OpenAI API上同时发布。
与DeepSeek-R1不同,o3-mini并不会以开源形式发布——这意味着用户无法下载代码进行离线使用,也不能像DeepSeek-R1那样进行高度定制,这可能会在某些应用场景下限制它的吸引力。
OpenAI没有提供关于更大版本o3模型的更多细节,这款模型早在2024年12月与o3-mini一同发布。当时,OpenAI表示o3模型的测试将会有几周的延迟,**测试需要等待一段时间。
性能与特点
类似于o1,o3-mini在数学、编程和科学推理方面表现出色。
在使用中等推理难度时,o3-mini的表现与o1相当,但它有以下几大优势:
·相比o1-mini,响应速度提高了24%(例如,o1-mini的响应时间为12.8秒,处理100个token的输出。而o3-mini的响应时间将缩短至约10.32秒)。
·准确性提升,外部测试者更倾向于选择o3-mini的回答,偏好率达到56%。
·复杂的现实问题中,错误率减少了39%。
·在编程和STEM任务中表现优异,尤其是在高推理难度时。
·提供三种推理难度级别(低、中、高),使得用户和开发者可以在准确性与速度之间找到最佳平衡。
o3-mini的上下文窗口为200,000个token,每次输出最多为100,000个token。这一性能与o1相同,并且优于DeepSeek-R1的上下文窗口(约128,000到130,000个token)。但这一数字仍然远低于Google Gemini 2.0 Flash Thinking的新上下文窗口,后者支持高达100万个token。
DSC0000.jpg

·GPQA Diamond: 这是一个评估模型在通用问题解答能力上的指标。
·AIME 2022-2024: 这是美国数学邀请赛(American Invitational Mathematics Examination)的一个分数段,用于评估模型在数学推理和解题能力上的表现。
·Codeforces ELO: 这是编程竞赛平台Codeforces上的一种评分系统,类似于国际象棋中的Elo评级系统,用于评估模型在编程任务上的表现。
虽然o3-mini专注于推理,但目前它还不具备视觉能力。如果开发者和用户需要上传图片或文件,仍然需要使用o1。
竞争加剧
o3-mini的发布标志着OpenAI首次向免费用户提供推理模型。此前,o1系列模型仅限于ChatGPT Plus、Pro等付费用户使用,或者通过OpenAI的付费API。
通过2022年11月推出ChatGPT,OpenAI开启了大语言模型(LLM)聊天机器人的新领域。而在2024年9月,OpenAI推出o1系列模型,正式开创了推理模型这一新类别,采用了新的训练机制和架构。
然而,OpenAI并没有将o1开源,这与其名称和最初的创立理念相悖。与之相对,DeepSeek的R1模型采用了开源方式,且完全免费,允许全球用户自由使用、修改和定制。R1模型的训练成本远低于o1和其他顶级实验室的模型,因此在消费市场和企业市场中获得了广泛应用,甚至OpenAI的投资方微软和Anthropic的支持者亚马逊也快速将其添加到自己的云市场中。
DeepSeek还推出了免费的应用和网站,并允许用户对R1模型进行修改和定制,这使得它在消费者和企业市场迅速崛起。DeepSeek的这种开源政策以及低成本训练,使其成为了一个强有力的竞争者。
ChatGPT中的可用性
o3现在在全球范围内推向ChatGPT Free、Plus、Team和Pro用户,Enterprise和Education版本将在下周推出。
免费用户可以通过选择聊天栏中的“reason(推理)”按钮或重新生成回答来首次体验o3-mini。
DSC0001.jpg

Plus和Team用户的消息限制提高了3倍,从每天50条增加到150条。
Pro用户将能够无限制使用o3-mini以及一个新的更高推理版本——o3-mini-high。
此外,o3-mini现在支持与搜索功能的集成,用户将能够获得包含相关网页链接的回答。这个功能仍处于初期阶段,OpenAI正在不断改进推理模型中的搜索能力。
DSC0002.jpg

API集成与定价
对于开发者,o3-mini已通过Chat Completions API、Assistants API和Batch API提供。该模型支持功能调用、结构化输出和开发者消息,便于开发者将其集成到实际应用中。
o3-mini的最大优势之一是其成本效益:它比o1-mini便宜63%,比完整的o1模型便宜93%,每百万token的进出费用分别为1.10美元/4.40美元(享有50%的缓存折扣)。
尽管如此,DeepSeek的R1模型的API价格仍然更具优势,仅为0.14美元/0.55美元每百万token进出。但考虑到DeepSeek总部位于中国,涉及到一些国外老生常谈的“用户数据流动的安全与地缘政治问题”,OpenAI可能仍将是美国和欧洲一些注重安全的客户和企业的首选。
开发者可以根据应用需求调整推理难度(低、中、高),以控制延迟和准确性之间的平衡。
安全性与隐私保护
OpenAI表示,在o3-mini中采用了“深思熟虑对齐”的方法。这意味着模型会思考并理解人类编写的安全指南,理解这些指南的意图和预防的危害,并且会提出自己的方法确保这些危害得到有效避免。OpenAI表示,这样可以使模型在讨论敏感话题时更加宽容,同时保持高安全性。
OpenAI称,o3-mini在处理安全性和越狱挑战时,优于GPT-4o。该模型在发布前进行了广泛的安全性测试。
最近有一些国外的**报道指出,DeepSeek的R1模型在50次越狱测试中“全部失败”,这将使得一些国外媒体宣传o3-mini在需要高安全性的场合更具优势。
结语:未来展望
o3-mini的发布标志着OpenAI进一步努力让先进的推理AI变得更加普及和高效,特别是在DeepSeek R1等竞争者的压力下。Google也在推出其竞争性推理模型Gemini 2 Flash Thinking,并扩展了输入上下文,支持高达100万个tokens。
OpenAI聚焦于STEM推理和成本效益,旨在扩大AI驱动的解决方案在消费者和开发者中的应用。
然而,随着OpenAI不断扩展雄心,最近宣布的一个由软银支持的5000亿美元数据中心基础设施项目Stargate,问题仍然存在:它的战略是否足以让这些巨额投资获得回报?随着开源模型不断接近OpenAI的性能并在成本上超越它,OpenAI是否能凭借其安全性、强大的能力、易用的API和用户友好的界面维持现有客户,特别是在企业市场上?我们将继续关注这些发展。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

扫码添加微信客服
快速回复 返回列表 返回顶部