• 首页 >  人工智能 >  AI产业
  • AI大模型系列报告二:OpenAI发布GPT-O1模型能力持续提升-241012(17页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《AI大模型系列报告二:OpenAI发布GPT-O1模型能力持续提升-241012(17页).pdf》由会员分享,可在线阅读,更多相关《AI大模型系列报告二:OpenAI发布GPT-O1模型能力持续提升-241012(17页).pdf(17页珍藏版)》请在薪酬报告网上搜索。

    1、请务必阅读正文之后的免责声明及其项下所有内容20242024年年1010月月1111日日AI大模型系列报告二大模型系列报告二OpenAIOpenAI发布发布GPT-O1GPT-O1,模型能力持续提升,模型能力持续提升行业研究行业研究 行业专题行业专题 计算机计算机 人工智能人工智能 投资评级:优于大市投资评级:优于大市证券分析师:熊莉证券分析师:艾宪021-617610670755-S0980519030002S0980524090001证券研究报告证券研究报告|请务必阅读正文之后的免责声明及其项下所有内容摘要 OpenAIOpenAI发布发布GPT-O1GPT-O1,模型能力持续提升,模型能

    2、力持续提升。1 1)思维链提升模型能力)思维链提升模型能力:GPT-O1在回复用户问题之前会生成一条较长的内部思维链,将复杂的问题拆分为更简单的步骤,且当前方法无效时,会进一步尝试其他方式,引入思维链将显著提升模型的推理能力;2 2)GPT-O1GPT-O1思考过思考过程消耗时间,答案更加细化程消耗时间,答案更加细化:新模型会在推理过程中生成隐藏的思维链,且思考过程消耗时间,GPT-O1在同样问题下,给出的结果更加详细;3 3)GPT-O1GPT-O1更适用于解决纵深问题更适用于解决纵深问题:OpenAI o1-preview和o1-mini模型用于解决困难问题,主要适用于研究、策略、编码、数

    3、学和科学等领域的复杂问题解决任务。GPT-O1GPT-O1有望拉动有望拉动ASICASIC芯片需求,适用于高价值场景芯片需求,适用于高价值场景。1 1)GPT-O1GPT-O1拉动推理算力增长,拉动推理算力增长,ASICASIC芯片或大有可为芯片或大有可为:一方面,思维链(CoT)需要多步推理进而大幅提升推理算力的需求,另一方面,ASIC芯片在推理领域具有明显优势,根据CSET数据,其效率和速度约为CPU的100-1000倍,相较于GPU和FPGA具备显著竞争力;2 2)GPT-O1GPT-O1适用于高价值场景:适用于高价值场景:随着大模型推理能力提升,其在多领域表现出色,例如科研场景、营销内

    4、容生成、制定计划、代码生成等。3 3)市场空间测算)市场空间测算:由于计算机语言相对规范,我们认为GPT-O1渗透率在编程领域有望率先提升;根据Evans Data CorporationData数据,22年全球有2690万软件开发者,根据CSDN发布的2021-2022中国开发者调查报告显示,大部分程序员平均每天会写200行左右的代码,假设每行代码10个单词,对应2000个单词,折合约2666个tokens,则假设终局下GPT-O1渗透率为75%,重复修改次数为10次/天,对应年度tokens消耗量为2690*75%*2666*300*10=1613596.5亿个tokens(假设每年工作3

    5、00天),对应市场空间为96.82亿美金(此处简化,仅计算模型输出Tokens,60美元/百万tokens)。随着其他领域渗透率的提升,GPT-O1的市场空间将持续增长。投资建议投资建议:GPT-01使用思维链等方法,进一步提升了大模型的能力。一方面,由于思维链在推理阶段的使用,GPT-O1提升了推理算力的消耗,建议关注国产算力芯片公司,例如海光信息等;另一方面,思维链提升大模型的能力,给予国产大模型公司启示,国产大模型能力有望进一步提升,建议关注国产AI应用公司,例如金山办公等。风险提示风险提示:AI大模型迭代不及预期风险、AI应用落地不及预期风险、AI芯片迭代不及预期的风险。请务必阅读正文

    6、之后的免责声明及其项下所有内容OpenAI发布GPT-O1,模型能力持续提升0101GPT-O1有望拉动Asic芯片需求,应用精度提升0202投资建议与风险提示0303目录目录请务必阅读正文之后的免责声明及其项下所有内容OpenAIOpenAI发布发布GPT-O1GPT-O1,思维链提升模型能力,思维链提升模型能力 2424年年9 9月月1212日,日,OpenAIOpenAI发布发布GPT-O1GPT-O1。同GPT-4O相比,GPT-O1在数学、代码、科学问题(PhD级别)评分显著提升;从测试结果来看,Plus用户的普通回复同GPT-4O感觉差别不大,但对于纵深的代码问题,GPT-O1的解

    7、答更为准确。技术路线:思维链(技术路线:思维链(CoTCoT)提升模型推理能力)提升模型推理能力。1 1)引入思维链()引入思维链(CoTCoT):GPT-O1在回复用户问题之前会生成一条较长的内部思维链,将复杂的问题拆分为更简单的步骤,且当前方法无效时,会进一步尝试其他方式,引入思维链将显著提升模型的推理能力;2 2)通过强化)通过强化学习训练思维链(学习训练思维链(CoT)CoT):OpenAI通过强化学习去训练思维链,其发现GPT-O1的表现会随强化学习(Train-time compute)和思考时间(Test-time Compute)的增加而提升,其中奖励模型的优化是关键。图:GP

    8、T-O1在数学、代码、科学问题(PhD级别)评分显著高于GPT-4o资料来源:OpenAI官网,国信证券经济研究所整理图:GPT-O1的表现随强化学习和思考时间的增加而提升资料来源:OpenAI官网,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容通过强化学习(通过强化学习(RLRL)和思维链()和思维链(CoTCoT)提升推理能力)提升推理能力 OpenAIOpenAI通过强化学习加强思维链(通过强化学习加强思维链(CoTCoT):基于标准的强化学习框架,智能体在环境中采取一个动作,然后更新环境状态,并会得到一个奖励(Reward,局部信号,可以为正向信号,也可以为负向信号

    9、);智能体唯一目标是长期期望奖励最大化,对“采取动作-查看奖励-观察新状态-采取另一动作”流程进行循环,在奖励函数等参数设置正确的情况下,智能体可以在每一步做出可靠的优秀决策。GPT-O1GPT-O1在推理阶段同传统在推理阶段同传统LLMsLLMs不同不同:对于绝大多数LLMs,其预训练(Pre-training)、后训练(Post-training)花费较长时间,但在推理(Inference)环节,模型仅用于做出预测或生成文本,过程较短;相比之下,GPT-O1在推理阶段需要更多的实时计算资源和时间进行更复杂的推理任务,这个阶段较长且关键。图:强化学习标准框架资料来源:Alexander Za

    10、i-深度强化学习实战-人民邮电出版社(2023年)-P30,国信证券经济研究所整理图:GPT-O1资料来源:JimFan(From X),国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容GPT-O1GPT-O1思考过程消耗时间,答案更加细化思考过程消耗时间,答案更加细化 GPT-O1GPT-O1思考过程消耗时间,答案更加细化思考过程消耗时间,答案更加细化:强化学习增强了GPT-O1中的思维链,新模型会在推理过程中生成隐藏的思维链,且思考过程消耗时间;GPT-O1在同样问题下,给出的结果更加详细,此外,在提示词不同的情况下,生成的思维链也会略有区别。图:GPT-O1思考过程消耗

    11、时间,答案更加细化资料来源:GPT-O1,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容GPT-4GPT-4O O与与O O1 1适用于不同下游需求适用于不同下游需求 GPT-OGPT-O1 1与与GPT-GPT-4 4O O模型适用的下游场景不同,新模型更适合解决复杂问题。模型适用的下游场景不同,新模型更适合解决复杂问题。OpenAI o1-preview和o1-mini模型用于解决困难问题,主要适用于研究、策略、编码、数学和科学等领域的复杂问题解决任务,使用场景包括策略制定、课程辅导、编码练习和评论等。目前OpenAI o1-preview和o1-mini模型无法访问网

    12、页、语音、文件上传、视觉等高级功能。GPT-4o在自然语言任务中表现更佳,且接受文本、音频、图像和视频的任意组合作为输入。因此对于大多数使用需求,尤其是那些涉及使用工具和视觉的用例,GPT-4o仍是最优选择。成本方面,成本方面,o1-previewo1-preview的的APIAPI调用输入价格为调用输入价格为GPT-4oGPT-4o的三倍。的三倍。调用o1-preview模型时,由于内部推理tokens的存在,生成的tokens总数可能会超过可见数量,为避免隐藏tokens影响成本,用户可设定max_tokens参数,控制生成的tokens数量和用户可见的tokens数量。图:OpenAI模

    13、型数据对比资料来源:OpenAI官网,国信证券经济研究所整理图:GPT-O1系列模型同GPT-4O模型对比资料来源:OpenAI官网,国信证券经济研究所整理在人类偏好评估中,O1-Preview在数据分析、编码和数学等推理密集型类别中优于GPT-4O。在自然语言任务中表现不及GPT-4O模型模型适用领域适用领域上下文范围(上下文范围(tokenstokens)最大输出最大输出tokenstokensAPIAPI调用价格(百万调用价格(百万tokenstokens)输入输入输出输出GPT-4o适用于复杂多步骤任务,接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像输出的任意组合

    14、1280004096515GPT-4o miniGPT-4o的简化版本,适用于快速、简单的任务,且具有视觉功能128000163840.150.6OpenAI o1-preview采用强化训练学习复杂推理,擅长解决需要额外思考的复杂问题,适用于研究、策略、编码、数学和科学等领域128000327681560OpenAI o1-mini快速、经济高效的推理模型,专为编码、数学和科学使用案例量身定制12800065536312请务必阅读正文之后的免责声明及其项下所有内容GPT-O1GPT-O1更适用于解决纵深问题更适用于解决纵深问题 GPT-O1GPT-O1更适用于解决纵深问题更适用于解决纵深问题

    15、。随着GPT-O1推理能力提升,处理复杂任务能力变强,coding能力比前代模型显著提高,具有生成详细计划能力;从测试结果看,Plus用户的普通问题回复和GPT-4o感官差别不大,但对于纵深的问题(比如代码问题)解答更为准确。图:GPT-O1更适用于解决纵深问题资料来源:GPT-O1,国信证券经济研究所整理使用o1-preview求解微分方程,经过10s的思考给出详细解题步骤请务必阅读正文之后的免责声明及其项下所有内容OpenAI发布GPT-O1,模型能力持续提升0101GPT-O1有望拉动ASIC芯片需求,适用于高价值场景0202投资建议与风险提示0303目录目录请务必阅读正文之后的免责声明

    16、及其项下所有内容GPT-O1GPT-O1拉动推理算力增长拉动推理算力增长推理轮次推理轮次&模型参数量模型参数量 思维链(思维链(CoTCoT)拉动推理算力增长)拉动推理算力增长:GPT-O1大模型显著特点是使用思维链(CoT)提升推理效果,思维链(CoT)需要多步推理进而大幅提升推理算力的需求,同时推理时间的增长亦是推理算力消耗增长的反映。思维链(思维链(CoTCoT)反向拉动了推理模型参数量增长,进一步提升推理算力需求)反向拉动了推理模型参数量增长,进一步提升推理算力需求。根据Jason Wei等人在23年发布的文章Chain-of-Thought Prompting Elicits Rea

    17、soning in Large Language Models,思维链仅对1000亿以上参数模型的推理有显著提升;此前,为节省推理算力消耗,大多数模型通过蒸馏等方式缩小模型参数量,而思维链反向限定模型参数量下限,进而拉动推理阶段算力需求增长。图:思维链多步推理提升推理阶段算力消耗资料来源:Shiyu Fang等著-Towards Interactive and Learnable Cooperative Driving Automation:a Large Language Model-Driven Decision-Making Framework-arXiv(2024)-P6,国信证券经济

    18、研究所整理图:思维链(CoT)在1000亿参数模型上才能带来显著提升资料来源:Jason Wei等著-Chain-of-Thought Prompting Elicits Reasoning in Large Language Models-arXiv(2023)-P5,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容GPT-O1GPT-O1拉动推理算力增长拉动推理算力增长ASICASIC芯片或大有可为芯片或大有可为 推理芯片更加关注功耗、时延、成本,且对精度要求相对较低推理芯片更加关注功耗、时延、成本,且对精度要求相对较低。深度学习由训练和推理两个任务组成,因为AI芯片的主

    19、要功能就是训练和推理。1)训练:对大量数据在平台上进行学习,并形成具备特定功能的神经网络模型。由于训练所需数据量巨大、算法复杂度高,对AI芯片有高算力、高容量、高精度和通用性要求。2)推理:指基于已经训练好的模型,针对输入数据计算结果,更加关注芯片功耗、时延、成本等因素,且对精度的要求相对较低。ASICASIC芯片在推理领域具有明显优势芯片在推理领域具有明显优势。根据CSET数据,ASIC芯片在推理领域优势明显,其效率和速度约为CPU的100-1000倍,相较于GPU和FPGA具备显著竞争力。图:ASIC芯片在推理领域具有明显优势资料来源:CSET,国信证券经济研究所整理图:ASIC芯片更多应

    20、用于推理领域资料来源:McKinsey Analysis,国信证券经济研究所整理训练训练推理推理通用性通用性推理推理准确率准确率效率速度效率速度CPU1x baseline很高98-99.7%GPU10-100 x10-1,000 x1-10 x1-100 x高98-99.7%FPGA-10-100 x10-100 x中95-99%ASIC100-1,000 x10-1,000 x100-1000 x10-1000 x低90-98%请务必阅读正文之后的免责声明及其项下所有内容GPT-O1GPT-O1适用于高价值场景适用于高价值场景 GPT-O1GPT-O1适用于高价值适用于高价值、低实时性、低

    21、实时性场景场景。GPT-O1使用思维链,大幅提升大模型的推理能力,根据GPT-O1的测试情况,其在多领域表现出色,例如科研场景、营销内容生成、制定计划、代码生成等。其中,在AIME(美国高等数学考试)中,GPT-4o平均解决了12%的题目,而o1在每道题采样一次的情况下平均解决了74%的题目,若采用64个样本的共识,解决率能达到83%。同时,GPT-O1由于使用思维链,单次推理时间相应增长,适用于对实时性相应要求较低的场景。图:GPT-O1在多领域表现出色,适用于高价值、低实时性要求场景资料来源:OpenAI官网,国信证券经济研究所整理对科学问题推理能力大幅度提升,可以应用在科研场景;语言测试

    22、、数学测试等能力提升,可用于教育场景、数学场景和编程场景;法律能力等也提升,未来可应用于法律场景;请务必阅读正文之后的免责声明及其项下所有内容GPT-O1GPT-O1市场空间测算市场空间测算 GPT-O1GPT-O1在某些场景下超越人类表现。在某些场景下超越人类表现。GPT-O1在PhD-Level Science Questions测试中,结果显示O1的表现超过了人类专家,成为第一个在该基准上超越人类表现的模型。随着AI的发展,未来有望在某些领域替代人类进行工作。GPT-O1GPT-O1市场空间测算市场空间测算:由于计算机语言相对规范,我们认为GPT-O1渗透率在编程领域有望率先提升;根据E

    23、vans Data CorporationData数据,22年全球有2690万软件开发者,根据CSDN发布的2021-2022中国开发者调查报告显示,大部分程序员平均每天会写200行左右的代码,假设每行代码10个单词,对应2000个单词,折合约2666个tokens,则假设终局下GPT-O1渗透率为75%,重复修改次数为10次/天,对应年度tokens消耗量为2690*75%*2666*300*10=1613596.5亿个tokens(假设每年工作300天),对应市场空间为96.82亿美金(此处简化,仅计算模型输出Tokens,60美元/百万tokens)。随着其他领域渗透率的提升,GPT-O

    24、1的市场空间将持续增长。图:OpenAI的不同模型(GPT-4o、o1-preview 和 o1)在多任务上的表现对比资料来源:OpenAI官网,国信证券经济研究所整理图:O1模型在编程和软件开发上具有潜力资料来源:OpenAI官网,国信证券经济研究所整理OpenAI基于o1模型开发了一个新的模型,在模拟的Codeforces编程比赛中表现优于93%的竞争者请务必阅读正文之后的免责声明及其项下所有内容OpenAI发布GPT-O1,模型能力持续提升0101GPT-O1有望拉动ASIC芯片需求,适用于高价值场景0202投资建议与风险提示0303目录目录请务必阅读正文之后的免责声明及其项下所有内容投

    25、资建议及风险提示 投资建议:投资建议:GPT-01使用思维链等方法,进一步提升了大模型的能力。一方面,由于思维链在推理阶段的使用,GPT-O1提升了推理算力的消耗,建议关注国产算力芯片公司,例如海光信息等;另一方面,思维链提升大模型的能力,给予国产大模型公司启示,国产大模型能力有望进一步提升,建议关注国产AI应用公司,例如金山办公等。风险提示风险提示AIAI大模型迭代不及预期风险。大模型迭代不及预期风险。本轮AI浪潮由AI大模型推动,AI大模型能力在一定程度上影响AI应用的落地效果,23-24年全球AI大模型快速迭代,例如OpenAI从GPT-3.5发展到GPT-4、GPT-4o等,谷歌也从P

    26、alm 2发展到Gemini、Gemini 1.5Pro等;但随着数据瓶颈、算力瓶颈等因素,AI大模型迭代速度可能放缓。AIAI应用落地不及预期风险应用落地不及预期风险。在本轮浪潮的初期,各厂商更关注自身模型的升级、迭代,AI应用仍处于落地的初期,目前各厂商在探索AI应用在B端、C端落地的场景及具体的方案,进而形成商业闭环,但仍存在一定不确定性。AIAI芯片迭代不及预期的风险芯片迭代不及预期的风险。受制于摩尔定律、HBM发展的客观规律,AI芯片的迭代速度可能不及预期。请务必阅读正文之后的免责声明及其项下所有内容免责声明免责声明分析师承诺分析师承诺作者保证报告所采用的数据均来自合规渠道;分析逻辑

    27、基于作者的职业理解,通过合理判断并得出结论,力求独立、客观、公正,结论不受任何第三方的授意或影响;作者在过去、现在或未来未就其研究报告所提供的具体建议或所表述的意见直接或间接收取任何报酬,特此声明。重要声明重要声明本报告由国信证券股份有限公司(已具备中国证监会许可的证券投资咨询业务资格)制作;报告版权归国信证券股份有限公司(以下简称“我公司”)所有。本报告仅供我公司客户使用,本公司不会因接收人收到本报告而视其为客户。未经书面许可,任何机构和个人不得以任何形式使用、复制或传播。任何有关本报告的摘要或节选都不代表本报告正式完整的观点,一切须以我公司向客户发布的本报告完整版本为准。本报告基于已公开的

    28、资料或信息撰写,但我公司不保证该资料及信息的完整性、准确性。本报告所载的信息、资料、建议及推测仅反映我公司于本报告公开发布当日的判断,在不同时期,我公司可能撰写并发布与本报告所载资料、建议及推测不一致的报告。我公司不保证本报告所含信息及资料处于最新状态;我公司可能随时补充、更新和修订有关信息及资料,投资者应当自行关注相关更新和修订内容。我公司或关联机构可能会持有本报告中所提到的公司所发行的证券并进行交易,还可能为这些公司提供或争取提供投资银行、财务顾问或金融产品等相关服务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中意见或建议不一致的投资决策。本报告仅供参考之用,不

    29、构成出售或购买证券或其他投资标的要约或邀请。在任何情况下,本报告中的信息和意见均不构成对任何个人的投资建议。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。投资者应结合自己的投资目标和财务状况自行判断是否采用本报告所载内容和信息并自行承担风险,我公司及雇员对投资者使用本报告及其内容而造成的一切后果不承担任何法律责任。证券投资咨询业务的说明证券投资咨询业务的说明本公司具备中国证监会核准的证券投资咨询业务资格。证券投资咨询,是指从事证券投资咨询业务的机构及其投资咨询人员以下列形式为证券投资人或者客户提供证券投资分析、预测或者建议等直接或者间接有偿咨询服务的活动:接受投资人或

    30、者客户委托,提供证券投资咨询服务;举办有关证券投资咨询的讲座、报告会、分析会等;在报刊上发表证券投资咨询的文章、评论、报告,以及通过电台、电视台等公众传播媒体提供证券投资咨询服务;通过电话、传真、电脑网络等电信设备系统,提供证券投资咨询服务;中国证监会认定的其他形式。发布证券研究报告是证券投资咨询业务的一种基本形式,指证券公司、证券投资咨询机构对证券及证券相关产品的价值、市场走势或者相关影响因素进行分析,形成证券估值、投资评级等投资分析意见,制作证券研究报告,并向客户发布的行为。国信证券投资评级国信证券投资评级投资评级标准投资评级标准类别类别级别级别说明说明报告中投资建议所涉及的评级(如有)分

    31、为股票评级和行业评级(另有说明的除外)。评级标准为报告发布日后6到12个月内的相对市场表现,也即报告发布日后的6到12个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指数(000300.SH)作为基准;新三板市场以三板成指(899001.CSI)为基准;香港市场以恒生指数(HSI.HI)作为基准;美国市场以标普500指数(SPX.GI)或纳斯达克指数(IXIC.GI)为基准。股票投资评级股票投资评级优于大市股价表现优于市场代表性指数10%以上中性股价表现介于市场代表性指数10%之间弱于大市股价表现弱于市场代表性指数10%以上无评级股价与市场代表性指数相比无明确观点行业投资评级行业投资评级优于大市行业指数表现优于市场代表性指数10%以上中性行业指数表现介于市场代表性指数10%之间弱于大市行业指数表现弱于市场代表性指数10%以上请务必阅读正文之后的免责声明及其项下所有内容国信证券经济研究所国信证券经济研究所深圳深圳深圳市福田区福华一路125号国信金融大厦36层邮编:518046 总机:0755-82130833上海上海上海浦东民生路1199弄证大五道口广场1号楼12楼邮编:200135北京北京北京西城区金融大街兴盛街6号国信证券9层邮编:100032