OpenAI推出o3-mini：对抗DeepSeek崛起的新利器？

马上注册，结交更多好友

您需要登录才可以下载或查看，没有账号？立即注册

x

文 | 科技旋涡
为了应对开源竞争对手DeepSeek-R1的迅速崛起，OpenAI发布了新的专有AI模型——o3-mini。然而，这款新模型是否足以削弱DeepSeek的成功，仍然是一个疑问。
今天，OpenAI正式发布了o3-mini，这是其“推理者”系列中的第二款模型。该系列的模型需要更多时间进行“思考”，分析自己的过程，并反思自己的“思维链”，然后才能回答用户的提问。最终，这款模型能够在数学、科学、工程等多个领域提供类似博士生或学位持有者的解答。
o3-mini现已在ChatGPT和OpenAI的API中提供，包括免费的用户也可以使用。而且，它的性能比之前的高端模型o1以及其低参数版本o1-mini更优，且价格更低。
尽管o3-mini发布的时机被认为可能是对DeepSeek-R1的回应，但需要指出的是，o3和o3-mini早在2024年12月就已经宣布。OpenAI的CEO Sam Altman曾表示，由于开发者和研究人员的反馈，o3将在ChatGPT和OpenAI API上同时发布。
与DeepSeek-R1不同，o3-mini并不会以开源形式发布——这意味着用户无法下载代码进行离线使用，也不能像DeepSeek-R1那样进行高度定制，这可能会在某些应用场景下限制它的吸引力。
OpenAI没有提供关于更大版本o3模型的更多细节，这款模型早在2024年12月与o3-mini一同发布。当时，OpenAI表示o3模型的测试将会有几周的延迟，**测试需要等待一段时间。
性能与特点
类似于o1，o3-mini在数学、编程和科学推理方面表现出色。
在使用中等推理难度时，o3-mini的表现与o1相当，但它有以下几大优势：
·相比o1-mini，响应速度提高了24%(例如，o1-mini的响应时间为12.8秒，处理100个token的输出。而o3-mini的响应时间将缩短至约10.32秒)。
·准确性提升，外部测试者更倾向于选择o3-mini的回答，偏好率达到56%。
·复杂的现实问题中，错误率减少了39%。
·在编程和STEM任务中表现优异，尤其是在高推理难度时。
·提供三种推理难度级别(低、中、高)，使得用户和开发者可以在准确性与速度之间找到最佳平衡。
o3-mini的上下文窗口为200,000个token，每次输出最多为100,000个token。这一性能与o1相同，并且优于DeepSeek-R1的上下文窗口(约128,000到130,000个token)。但这一数字仍然远低于Google Gemini 2.0 Flash Thinking的新上下文窗口，后者支持高达100万个token。

·GPQA Diamond: 这是一个评估模型在通用问题解答能力上的指标。
·AIME 2022-2024: 这是美国数学邀请赛(American Invitational Mathematics Examination)的一个分数段，用于评估模型在数学推理和解题能力上的表现。
·Codeforces ELO: 这是编程竞赛平台Codeforces上的一种评分系统，类似于国际象棋中的Elo评级系统，用于评估模型在编程任务上的表现。
虽然o3-mini专注于推理，但目前它还不具备视觉能力。如果开发者和用户需要上传图片或文件，仍然需要使用o1。
竞争加剧
o3-mini的发布标志着OpenAI首次向免费用户提供推理模型。此前，o1系列模型仅限于ChatGPT Plus、Pro等付费用户使用，或者通过OpenAI的付费API。
通过2022年11月推出ChatGPT，OpenAI开启了大语言模型(LLM)聊天机器人的新领域。而在2024年9月，OpenAI推出o1系列模型，正式开创了推理模型这一新类别，采用了新的训练机制和架构。
然而，OpenAI并没有将o1开源，这与其名称和最初的创立理念相悖。与之相对，DeepSeek的R1模型采用了开源方式，且完全免费，允许全球用户自由使用、修改和定制。R1模型的训练成本远低于o1和其他顶级实验室的模型，因此在消费市场和企业市场中获得了广泛应用，甚至OpenAI的投资方微软和Anthropic的支持者亚马逊也快速将其添加到自己的云市场中。
DeepSeek还推出了免费的应用和网站，并允许用户对R1模型进行修改和定制，这使得它在消费者和企业市场迅速崛起。DeepSeek的这种开源政策以及低成本训练，使其成为了一个强有力的竞争者。
ChatGPT中的可用性
o3现在在全球范围内推向ChatGPT Free、Plus、Team和Pro用户，Enterprise和Education版本将在下周推出。
免费用户可以通过选择聊天栏中的“reason(推理)”按钮或重新生成回答来首次体验o3-mini。

Plus和Team用户的消息限制提高了3倍，从每天50条增加到150条。
Pro用户将能够无限制使用o3-mini以及一个新的更高推理版本——o3-mini-high。
此外，o3-mini现在支持与搜索功能的集成，用户将能够获得包含相关网页链接的回答。这个功能仍处于初期阶段，OpenAI正在不断改进推理模型中的搜索能力。

API集成与定价
对于开发者，o3-mini已通过Chat Completions API、Assistants API和Batch API提供。该模型支持功能调用、结构化输出和开发者消息，便于开发者将其集成到实际应用中。
o3-mini的最大优势之一是其成本效益：它比o1-mini便宜63%，比完整的o1模型便宜93%，每百万token的进出费用分别为1.10美元/4.40美元(享有50%的缓存折扣)。
尽管如此，DeepSeek的R1模型的API价格仍然更具优势，仅为0.14美元/0.55美元每百万token进出。但考虑到DeepSeek总部位于中国，涉及到一些国外老生常谈的“用户数据流动的安全与地缘政治问题”，OpenAI可能仍将是美国和欧洲一些注重安全的客户和企业的首选。
开发者可以根据应用需求调整推理难度(低、中、高)，以控制延迟和准确性之间的平衡。
安全性与隐私保护
OpenAI表示，在o3-mini中采用了“深思熟虑对齐”的方法。这意味着模型会思考并理解人类编写的安全指南，理解这些指南的意图和预防的危害，并且会提出自己的方法确保这些危害得到有效避免。OpenAI表示，这样可以使模型在讨论敏感话题时更加宽容，同时保持高安全性。
OpenAI称，o3-mini在处理安全性和越狱挑战时，优于GPT-4o。该模型在发布前进行了广泛的安全性测试。
最近有一些国外的**报道指出，DeepSeek的R1模型在50次越狱测试中“全部失败”，这将使得一些国外媒体宣传o3-mini在需要高安全性的场合更具优势。
结语：未来展望
o3-mini的发布标志着OpenAI进一步努力让先进的推理AI变得更加普及和高效，特别是在DeepSeek R1等竞争者的压力下。Google也在推出其竞争性推理模型Gemini 2 Flash Thinking，并扩展了输入上下文，支持高达100万个tokens。
OpenAI聚焦于STEM推理和成本效益，旨在扩大AI驱动的解决方案在消费者和开发者中的应用。
然而，随着OpenAI不断扩展雄心，最近宣布的一个由软银支持的5000亿美元数据中心基础设施项目Stargate，问题仍然存在：它的战略是否足以让这些巨额投资获得回报?随着开源模型不断接近OpenAI的性能并在成本上超越它，OpenAI是否能凭借其安全性、强大的能力、易用的API和用户友好的界面维持现有客户，特别是在企业市场上?我们将继续关注这些发展。

菲龙网编辑部7

本文来自

科技新闻

菲龙网编辑部7发布过的帖子

OpenAI推出o3-mini：对抗DeepSeek崛起的新利器？

马上注册，结交更多好友

浏览过的版块

站长推荐 /1