定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《信息服务行业报告-OpenAI o1初探:或能成为引领AI Phenomenal Ride的LLM新范式-240925(28页).pdf》由会员分享,可在线阅读,更多相关《信息服务行业报告-OpenAI o1初探:或能成为引领AI Phenomenal Ride的LLM新范式-240925(28页).pdf(28页珍藏版)》请在薪酬报告网上搜索。
1、 请务必阅读正文之后的信息披露和法律声明 Table_MainInfo 行业研究/信息服务 证券研究报告 行业专题报告行业专题报告 2024 年 09 月 25 日 Table_InvestInfo 投资评级 优于大市优于大市 维持维持 市场表现市场表现 Table_QuoteInfo 2995.454764.316533.188302.0510070.9211839.792023/92023/122024/32024/6信息服务海通综指 资料来源:海通证券研究所 相关研究相关研究 Table_ReportInfo 工业重点行业领域设备更新和技术改造指南发布,以设备更新为契机加速推进工业软件国
2、产化2024.09.22 计算机行业跟踪周报 355 期:华为全联接大会全面拥抱 AI,工信部印发设备更新指南2024.09.22 计算机行业跟踪周报 354 期:OpenAI 发布新模型,苹果华为新机同日推出2024.09.15 Table_AuthorInfo 分析师:杨林 Tel:(021)23183969 Email: 证书:S0850517080008 分析师:杨蒙 Tel:(021)23185700 Email: 证书:S0850523090001 分析师:魏宗 Tel:021-23180000 Email: 证书:S0850524040003 联系人:杨昊翊 Tel:(021)2
3、3185620 Email: OpenAI o1 初探初探:或能或能成为成为引领引领 AI Phenomenal Ride 的的 LLM 新范式新范式 Table_Summary 投资要点:投资要点:OpenAI 发布发布 o1 系列大模型系列大模型,AI 大模型进入新纪元大模型进入新纪元。9 月 12 日,OpenAI 宣布开发了一系列全新 AI 模型:OpenAI o1,与之前的模型相比,这些模型能够更好地进行推理,这是一项重大进展,代表了 AI 能力的新高度。o1 在物理、化在物理、化学和生物学等困难的基准任务中表现与博士生相似学和生物学等困难的基准任务中表现与博士生相似,此外,o1 在
4、数学和编程领域也表现优异。在国际数学奥林匹克竞赛的资格考试中,GPT-4o 仅正确解答了仅正确解答了13%的问题,而的问题,而 OpenAI o1 的正确率达到了的正确率达到了 83%。在 Codeforces 编程比赛中,OpenAI o1 的表现达到了第的表现达到了第 89 个百分位个百分位。OpenAI o1 系列的首个模型已被发布,这是一个预览版本,其被命名为 OpenAI o1-preview。此外,OpenAI 还发布了 OpenAI o1-mini,这是一款具有成本效益的推理模型。o1-mini 在 STEM领域表现出色,尤其是在数学和编程方面,几乎与 OpenAI o1 在评估
5、基准(如AIME 和 Codeforces)上的表现相当。o1-mini 成本比 o1-preview 便宜 80%,o1-mini 推理速度远超 o1-preview,OpenAI 预计,预计,o1-mini 将成为一个快速且将成为一个快速且经济高效的模型,适用于需要推理但不依赖广泛世界知识的应用经济高效的模型,适用于需要推理但不依赖广泛世界知识的应用。全新的推理范式:思维链条全新的推理范式:思维链条+自我对弈强化学习自我对弈强化学习。OpenAI o1 带来的是推理范式的全面革新,即利用大语言模型学习推理(即利用大语言模型学习推理(Learning to Reason with LLMs)
6、。OpenAI 的大规模强化学习算法通过高度数据高效的训练过程,教会模型如何通过思维链条进行有效推理。OpenAI 发现,发现,o1 模型的性能随着更多的强化学习模型的性能随着更多的强化学习(训练时的计算量)以及更多的思考时间(测试时的计算量)而持续提升。(训练时的计算量)以及更多的思考时间(测试时的计算量)而持续提升。与人类在回答难题前长时间思考的方式类似,o1 在尝试解决问题时也运用“思维链条(CoT,Chain of Thought)”。通过强化学习,o1 学会了优化其思维链条,并精炼所使用的策略。它能识别并纠正错误,学会将复杂的步骤拆解为更简单的部分,并在当前方法无效时尝试不同的方式。
7、这个过程极大地提升了模型的推理能力。我们认为,OpenAI o1 并非是颠覆式的技术革命,但是其在工程化上已经达到了领先的地位,其在自我对弈强化学习(自我对弈强化学习(Self-play RL)、思维链)、思维链条条(CoT)、)、过程过程奖励模型(奖励模型(PRM)等技术实践运用方面取得了显著的进步,并且在深度思考和复杂推理上展现出了较高的能力。我们认为,o1 代表着代表着 Scaling up 从预训练到推理的转变。从预训练到推理的转变。o1 带来的带来的大模型技术创新,正推动大模型技术创新,正推动 AI 向更深层次向更深层次的智能推理与问题解决能力发展的智能推理与问题解决能力发展。Ope
8、nAI o1,能给,能给 AI 带来什么?带来什么?我们认为,OpenAI o1 的命名,从某种意义上摆脱了 GPT(Generative Pre-trained Transformer)这一过去命名过分强调预训练(Pre-trained)的意味,而是让它更成为一个更强调推理能力训练的模型系列,从某种意义上,从某种意义上,OpenAI o1 确实是第一个确实是第一个“推理模型推理模型”。在推理密集型的任务类别中,如数据分析、编程和数学,o1 相较于 GPT-4o 有显著优势,在某种程度上,我们认为,可以说我们认为,可以说 o1 在部分细分领域已经接近了当前人类的天花板,在部分细分领域已经接近了
9、当前人类的天花板,这就使得 o1 在部分细分的应用场景,已经接近“替代大部分人类”这一目标已经接近“替代大部分人类”这一目标。当然值得注意的是,当然值得注意的是,o1 目前仍处于目前仍处于 AI 发展的初级阶段发展的初级阶段,不过,不过 o1 在最新门萨智商测试中,IQ 水平超过了 120 分,这也代表着 o1 这类大模型所蕴含的巨大潜能。o1 所采用业界前沿技术,我国大模型业界也在同步研究和实践应用中,o1 系列模型的发展也为我国大模型的发展指出了一条新路,有望助推相关技术在我国 AI 业界更快实践发展。我们相信我们相信,o1 代表的是全新的大模型推理范式,也许数十年后,回望如今,我们也能说
10、出,我们很幸运能够“at the right place at the right time”,这是属于 AI 的“Phenomenal Ride”。建议关注建议关注。算力:算力:英伟达、寒武纪-U、海光信息、景嘉微、龙芯中科、浪潮信息、中科曙光、神州数码、软通动力、中国长城;模型:模型:科大讯飞、中控技术、海康威视、大华股份、商汤-W;应用:应用:微软、金山办公、赛意信息、宝信软件、万兴科技、虹软科技、新致软件、新国都。风险提示风险提示。AI 技术发展不及预期,AI 商业落地不及预期,市场竞争加剧的风险。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 2 目目 录录 1.Ope
11、nAI 发布 o1 系列大模型,AI 大模型进入新纪元.4 2.o1-mini 同期发布,低价高速背景下细分领域性能优异.11 3.全新的推理范式:思维链条+自我对弈强化学习.16 4.OpenAI o1,能给 AI 带来什么?.24 5.建议关注与风险提示.27 行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 3 图目录图目录 图 1 OpenAI o1-preview 已经正式投入使用.4 图 2 o1 在具有挑战性的推理基准测试中相较于 GPT-4o 有显著提升.5 图 3 o1 在广泛的基准测试中相较于 GPT-4o 取得了显著提升.6 图 4 o1 及其改进型模型在编程
12、领域表现优异.7 图 5 按领域的人类偏好评估:o1-preview vs GPT-4o.7 图 6 o1 模型在多个领域的多个测试集中表现优异.8 图 7 OpenAI o1 安全评分表.9 图 8 o1-preview 和 GPT-4o 安全性对比.10 图 9 不同模型数学表现与推理成本对比.11 图 10 o1-mini 模型推理速度远超 o1-preview.11 图 11 o1-mini 在数学和编程方面表现出色.12 图 12 o1-mini 在需要推理的学术基准测试上表现优于 GPT-4o.13 图 13 按领域的人类偏好评估:o1-mini vs GPT-4o.14 图 14
13、 o1-mini 和 GPT-4o 安全性对比.14 图 15 o1 模型的性能随着训练时间和测试时间的计算量平稳提升.16 图 16 手工 CoT 方法可以让 LLM 在推理任务上大幅提升.17 图 17 自动化 CoT 方法简介.17 图 18 CoT 越长,能解决的问题越复杂.18 图 19 Self-Taught Reasoner 自学推理方法介绍.18 图 20 Quiet-STaR 方法原理介绍.19 图 21 未来大模型推理阶段的计算量或大大增加.19 图 22 利用两种方法测试优化 LLM 计算是否比扩大模型参数规模更高效.20 图 23 PRM 运作原理介绍.21 图 24
14、LLM 与 PRM 进行对弈的流程示意图.21 图 25 OpenAI“推理模型”的运作模式.22 图 26 不同的 PRM 方法介绍.22 图 27 OpenAI 对 AI 的划分了五个发展阶段.24 图 28 o1 在 IQ 测试中达到 120 分的水平.25 行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 4 1.OpenAI 发布发布 o1 系列大系列大模型模型,AI 大模型进入新纪元大模型进入新纪元 9 月 12 日,OpenAI 宣布开发了一系列全新 AI 模型,旨在在回应前投入更多时间思考。与之前的模型相比,这些模型能够更好地进行推理,并在科学、编程和数学等领域解决
15、更为复杂的问题。作为早期模型,它还没有许多 ChatGPT 上的实用功能,例如浏览网络信息或上传文件和图片。然而,对于复杂的推理任务而言,这是一项重大进展,代表了 AI 能力的新高度。因此,OpenAI 将计数器重臵为 1,并将该系列命名为 OpenAI o1。OpenAI 训练这些模型在做出响应前花更多时间思考问题,类似于人类的思维方式。通过训练,它们学会了优化思维过程、尝试不同策略并识别错误。在 OpenAI 的测试中,OpenAI o1 在物理、化学和生物学等困难的基准任务中表现与博士生相似。此外,OpenAI o1 在数学和编程领域也表现优异。在国际数学奥林匹克竞赛(IMO)的资格考试
16、中,GPT-4o 仅正确解答了 13%的问题,而 OpenAI o1 的正确率达到了 83%。在 Codeforces 编程比赛中,OpenAI o1 的表现达到了第 89 个百分位。在 OpenAI 看来,这些增强的推理能力可能对解决科学、编程、数学等领域的复杂问题特别有用。例如,o1 模型可以帮助医疗研究人员注释细胞测序数据,物理学家生成量子光学所需的复杂数学公式,开发者在各个领域构建和执行多步工作流。9 月 12 日,OpenAI 宣布在 ChatGPT 和 API 中推出了 OpenAI o1 系列的首个模型,这是一个预览版本,其被命名为 OpenAI o1-preview。图图1 O
17、penAI o1-preview 已经正式投入使用已经正式投入使用 资料来源:OpenAI 官网,海通证券研究所 为了突出相较于 GPT-4o 在推理能力上的提升,OpenAI 对模型进行了多样化的人类考试和机器学习基准测试。结果显示,o1 在绝大多数推理密集型任务中明显优于GPT-4o。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 5 图图2 o1 在具有挑战性的推理基准测试中相较于在具有挑战性的推理基准测试中相较于 GPT-4o 有显著提升有显著提升 资料来源:OpenAI 官网,海通证券研究所 注:实线柱表示 pass1 的准确率,阴影区域则显示了使用 64 个样本的多数
18、投票(共识)性能。在许多推理密集型的基准测试中,o1 的表现与人类专家相媲美。OpenAI 评估了 o1在 AIME 考试中的数学表现,该考试旨在挑战美国最优秀的高中数学学生。在 2024 年的 AIME 考试中,GPT-4o 平均仅能解答 12%的问题(即 1.8/15),而 o1 平均解答正确率为 74%(即 11.1/15),单次样本测试的结果为 83%(即 12.5/15)时通过 64 个样本的共识,若通过学习得分函数对 1000 个样本进行重新排名,其正确率达到了 93%(即13.9/15)。得分 13.9 足以让其跻身美国全国前 500 名学生,并超过参加美国数学奥林匹克竞赛(US
19、A Mathematical Olympiad)的分数线。OpenAI 还对 o1 在 GPQA-diamond 基准测试上的表现进行了评估,该测试是一个困难的智力基准,评估在化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,OpenAI 邀请了拥有博士学位的专家来回答 GPQA-diamond 的题目。结果显示,o1 超越了这些人类专家的表现,成为首个在该基准测试中表现优于人类专家的模型。这一结果并不意味着 o1 在所有方面都比博士更有能力,而仅表明模型在解决某些问题上比博士生预期的表现更为出色。在其他多个机器学习基准测试中,o1 也超越了当前的最先进水平。启用了视觉感知功能后,o
20、1 在 MMMU 测试中得分为 78.2%,成为首个在人类专家中具备竞争力的模型。此外,o1 在 MMLU 的 57 个子类别中,有 54 个超越了GPT-4o 的表现。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 6 图图3 o1 在广泛的基准测试中相较于在广泛的基准测试中相较于 GPT-4o 取得了显著提升取得了显著提升 资料来源:OpenAI 官网,海通证券研究所 o1 在编程领域表现优异,OpenAI 训练了一款模型,命名为 o1-ioi,这个模型在 2024年国际信息学奥林匹克竞赛(IOI)中获得了 213 分,排名在第 49 百分位。该模型基于o1 进行初始化,并进
21、一步训练以提升编程技能。o1-ioi 在 2024 年 IOI 比赛中与人类参赛者在相同条件下竞争,有 10 小时的时间解决 6 道复杂的算法问题,每题允许提交 50 次解答。对于每个问题,OpenAI 的系统生成了多个候选解答,并根据测试时的选择策略提交了 50 次解答。提交选择基于 IOI 公开测试案例、模型生成的测试案例以及学习到的评分函数。如果 OpenAI 随机提交解答,平均分数仅为 156 分,这表明该策略在比赛条件下贡献了近 60 分的提升。当放宽提交次数限制时,模型的表现显著提升。在每题允许提交 10000 次的情况下,o1-ioi 的得分达到 362.14 分,超过了金牌门槛
22、,且不需要任何测试时的选择策略。最后,OpenAI 模拟了 Codeforces 平台上举办的竞争性编程比赛,以展示 o1-ioi 的编程能力。OpenAI 的评估严格遵循比赛规则,并允许 10 次提交。GPT-4o 的 Elo 评分为 808,位于人类竞争者的第 11 百分位。而 o1-ioi 远远超越了 GPT-4o 和 o1,达到了1807 的 Elo 评分,表现超过了 93%的参赛者。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 7 图图4 o1 及其改进型模型在编程领域表现优异及其改进型模型在编程领域表现优异 资料来源:OpenAI 官网,海通证券研究所 除了考试和学
23、术基准测试外,OpenAI 还评估了在各种领域中 o1-preview与 GPT-4o在应对复杂、开放式问题上的人类偏好。在此评估中,人类训练师们会看到来自o1-preview 和 GPT-4o 的匿名响应,并投票选择他们更喜欢的回答。结果显示,在推理密集型的任务类别中,如数据分析、编程和数学,o1-preview 相较于 GPT-4o 有显著优势。然而,在某些自然语言任务中,o1-preview 的表现不如 GPT-4o,这表明它并不适合所有应用场景。不同领域的偏好差异表明,o1-preview 虽然在推理和计算密集型任务上表现优异,但在某些自然语言任务中仍未超越 GPT-4o。图图5 按领
24、域的人类偏好评估:按领域的人类偏好评估:o1-preview vs GPT-4o 资料来源:OpenAI 官网,海通证券研究所 o1 在 AI 推理方面取得了显著的突破,推动了技术的前沿发展。OpenAI 计划随着持续优化,发布该模型的改进版本。OpenAI 预期,这些新的推理能力将提升 OpenAI 将模型与人类价值观和原则对齐的能力。OpenAI 相信,o1 及其后续版本将为科学、编程、数学及相关领域的 AI 应用开启许多新的应用场景。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 8 图图6 o1 模型模型在多个领域的多个测试集中表现优异在多个领域的多个测试集中表现优异 资
25、料来源:OpenAI 官网,海通证券研究所 在模型的安全性方面,OpenAI 也做出了相当程度的提升。在将新模型部署到 ChatGPT 或 API 中之前,OpenAI 会彻底评估新模型是否存在潜在风险,并建立适当的保护措施。OpenAI 发布了 OpenAI o1 系统卡和准备框架评分表,以对 o1 进行严格的安全评估。作为开发这些新模型的一部分,OpenAI 提出了一种全新的安全培训方法,充分利用这些模型的推理能力,使其遵循安全和对齐的准则。通过能够在具体语境中推理OpenAI 的安全规则,模型可以更有效地应用这些规则。OpenAI 评估安全性的一种方式是测试模型在用户尝试绕过这些规则时(
26、俗称为“越狱”)能否继续遵循其安全规则。在 OpenAI 最难的越狱测试之一中,GPT-4o 的得分为 22(满分 100),而 o1-preview 模型得分为 84。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 9 图图7 OpenAI o1 安全安全评分表评分表 资料来源:OpenAI 官网,海通证券研究所 在基于过去模型的安全评估和缓解措施基础上,OpenAI 加大了对 o1 高级推理能力的关注。OpenAI 通过公开和内部评估,衡量了诸如不允许的内容、人口公平性、幻觉倾向和危险能力等风险。基于这些评估结果,OpenAI 在模型和系统层面都实施了相应的安全防护措施,例如
27、黑名单和安全分类器,以有效缓解这些风险。OpenAI 的研究表明,o1 的高级推理能力通过使模型能够更好地推理安全规则并在上下文中应用它们,增强了生成有害内容的抗风险能力。在“准备框架”体系下,o1的总体风险等级为“中等”,且被评估为安全可部署,因为它并未使现有资源之外的风险变得更为可能。其网络安全和模型自主性风险等级为“低”,而化学、生物、放射和核(CBRN)风险及说服性风险等级为“中等”。o1 系列模型通过大规模强化学习进行训练,采用链式推理来提升推理能力。这些先进的推理能力为提高模型的安全性和稳健性提供了新的途径。尤其是在回应潜在不安全提示时,模型可以在上下文中推理 OpenAI 的安全
28、政策,从而在生成非法建议、选择刻板印象化回应以及抵御已知的越狱攻击等风险基准测试中达到业内领先的表现。训练模型在回答之前进行链式推理不仅能够带来显著的好处,还可能因更高的智能性而增加潜在风险。OpenAI 的研究结果强调了构建稳健的对齐方法、广泛测试其有效性以及保持严谨风险管理协议的必要性。此外,o1 使用的“思维链条(CoT,Chain of Thought)”推理为模型的对齐和安全性带来了新的契机。OpenAI 发现,将模型行为的政策融入推理模型的思维链中,是 行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 10 一种有效且稳健的方式,可以传授人类的价值观和原则。通过教导模型
29、在具体情境中推理并遵循 OpenAI 的安全规则,OpenAI 的研究表明,推理能力直接提升了模型的稳健性:o1-preview 在关键的绕过安全限制评估和我们最严格的内部安全边界测试中表现显著提升。OpenAI 认为,使用链式思维推理能够为安全性和对齐带来重大进展,因为它一方面使 OpenAI 能够以可解释的方式观察模型的思维过程,另一方面使模型对安全规则的推理在处理分布外情况时更加稳健。图图8 o1-preview 和和 GPT-4o 安全性对比安全性对比 资料来源:OpenAI 官网,海通证券研究所 我们认为,OpenAI o1 的发布代表了 AI 大模型的发展进入了新纪元,其整体推理水
30、平相比较 GPT-4o 模型有了跨越式的提升,在复杂推理和科学计算等方面,o1 模型表现出了广阔的潜力,此外,o1 在推理准确性和安全性上有显著提升,有望推动 AI 技术的进一步发展。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 11 2.o1-mini 同期发布,低价高速背景下细分领域性能优异同期发布,低价高速背景下细分领域性能优异 此外,OpenAI 还发布了 OpenAI o1-mini,这是一款具有成本效益的推理模型。o1-mini 在 STEM 领域(Science,Technology,Engineering,and Mathematics,可泛指理工科领域)表现出
31、色,尤其是在数学和编程方面,几乎与 OpenAI o1 在评估基准(如AIME 和 Codeforces)上的表现相当。OpenAI 预计,o1-mini 将成为一个快速且经济高效的模型,适用于需要推理但不依赖广泛世界知识的应用。o1-mini 成本比 OpenAI o1-preview 便宜 80%。ChatGPT Plus、Team、Enterprise和 Edu 用户可以选择使用 o1-mini 作为 o1-preview 的替代方案,享受更高的速率限制和更低的延迟。图图9 不同模型不同模型数学表现与推理成本对比数学表现与推理成本对比 资料来源:OpenAI 官网,海通证券研究所 o1-
32、mini 推理速度远超 o1-preview。作为一个具体的例子,OpenAI 对比了 GPT-4o、o1-mini 和 o1-preview 在一个词汇推理问题上的回答。GPT-4o 没有给出正确答案,o1-mini 和 o1-preview 都回答正确。值得注意的是,o1-mini 达到正确答案的速度是o1-preview 的 3 到 5 倍左右。图图10 o1-mini 模型推理速度远超模型推理速度远超 o1-preview 资料来源:OpenAI 官网,海通证券研究所 行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 12 性能方面,像 o1 这样的大型语言模型在庞大的文本
33、数据集上进行预训练,虽然这些高容量模型具备广泛的世界知识,但在实际应用中可能成本高且运行速度较慢。相比之下,o1-mini 是一款针对 STEM 推理任务进行优化的较小模型。通过与通过与 o1 相同的高相同的高计算强化学习(计算强化学习(RL)流程训练,)流程训练,o1-mini 在许多有用的推理任务中达到了相当的性能,在许多有用的推理任务中达到了相当的性能,同时显著提高了成本效率。同时显著提高了成本效率。在需要智能和推理的基准测试中,o1-mini 的表现与 o1-preview 和 o1 相当。然而,在涉及非 STEM 事实知识的任务上,o1-mini 的表现较为逊色 数学数学:在高中 A
34、IME 数学竞赛中,o1-mini 的得分为 70.0%,与 o1(74.4%)具有竞争力,同时成本显著降低,并且优于 o1-preview(44.6%)。o1-mini 的得分(约 11/15题)使其位于全美大约前 500 名高中生之列。编程编程:在 Codeforces 竞赛网站上,o1-mini 的 Elo 评分为 1650,接近 o1 的 1673,且高于 o1-preview 的 1258。这个 Elo 评分使得 o1-mini 位于 Codeforces 平台上大约86%的程序员之上。此外,o1-mini 在 HumanEval 编程基准测试和高中级别的网络安全夺旗赛(CTFs)中
35、也表现出色。图图11 o1-mini 在数学和编程方面在数学和编程方面表现出色表现出色 资料来源:OpenAI 官网,海通证券研究所 STEM 领域领域:在一些需要推理的学术基准测试上,例如 GPQA(科学)和 MATH-500,o1-mini 的表现优于 GPT-4o。然而,o1-mini 在 MMLU 等任务上的表现不如 GPT-4o,并且由于缺乏广泛的世界知识,其在 GPQA 上的表现也落后于 o1-preview。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 13 图图12 o1-mini 在在需要推理的学术基准测试上表现优于需要推理的学术基准测试上表现优于 GPT-4
36、o 资料来源:OpenAI 官网,海通证券研究所 人类偏好评估人类偏好评估:OpenAI 让人类评审员在多个领域的复杂、开放式问题上对 o1-mini和 GPT-4o 进行了比较,使用与 o1-preview 对比 GPT-4o 相同的方法。与 o1-preview类似,o1-mini 在推理密集型领域中更受青睐,但在语言为主的领域中不如 GPT-4o 受欢迎。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 14 图图13 按领域的人类偏好评估:按领域的人类偏好评估:o1-mini vs GPT-4o 资料来源:OpenAI 官网,海通证券研究所 安全性方面,o1-mini 采用
37、与 o1-preview 相同的对齐和安全技术进行训练。在部署之前,OpenAI 对 o1-mini 的安全风险进行了全面评估,使用了与 o1-preview 相同的准备措施、外部测试和安全评估方法。根据内部版本的 StrongREJECT 数据集评估,o1-mini 的绕过安全限制的鲁棒性比 GPT-4o 提高了 59%。图图14 o1-mini 和和 GPT-4o 安全性对比安全性对比 资料来源:OpenAI 官网,海通证券研究所 由于 o1-mini 专注于 STEM 推理能力,其在非 STEM 主题(如日期、人物传记和冷 行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 1
38、5 知识)上的事实知识与较小的语言模型(如 GPT-4o mini)相当。OpenAI 将在未来版本中改进这些局限性,并尝试将模型扩展到其他模态和 STEM 之外的专业领域。我们认为,o1-mini 代表了大模型领域发展的一个新方向,其低成本但强大的性能为更多开发者和企业提供了高性价比的解决方案,与其他小模型不同的是,o1-mini 虽然并非是在所有领域都实现了突出的性能,但是它在编码和复杂任务的推理方面依然实现了一流的性能和安全性水平,这就降低了 AI 在这些细分领域的应用门槛,促进了更广泛的AI 技术普及和创新发展。行业研究信息服务行业 请务必阅读正文之后的信息披露和法律声明 16 3.全