乐竟体育官网入口大语言模型复杂推理的自我进化机制:研究综述与前沿展望
2025-04-24 20:40:53
乐竟体育官网OpenAI的O1及其后续竞争者(如DeepSeek R1)的发布显著推动了大语言模型(Large Language Models,LLMs)在复杂推理方面的研究,引发学术界与工业界的双重关注。此项进展激发了相关技术成果的复现和在此基础上的创新。为系统构建该领域的研究框架,本文从自我进化(self-evolution)的角度系统地分类了现有技术。我们的调查发现分为三个相互关联的部分:数据进化(data evolution)、模型进化(model evolution)和自我进化(self-evolution)。
数据进化部分改进推理训练数据,这包括任务进化和增强思维链(Chain-of-Thought,CoT)推理的推理时间计算。
自我进化部分则探讨其进化策略和模式。包括自我进化的规模法则(scaling law)与对 O1 类研究工作的分析。
通过系统梳理相关研究,我们总结了前沿方法,并提供了对未来研究方向的前瞻性展望。本文旨在激励LLM复杂推理社区进一步研究,并促进对LLM推理能力提升的深入探索。
关键词:大语言模型、复杂推理、自我进化、数据进化、模型进化、专家迭代、推理计算、强化学习
OpenAI的O1及其后续竞争者(如DeepSeek R1)的发布显著推动了大语言模型(Large Language Models,LLMs)在复杂推理方面的研究,引发学术界与工业界的双重关注。此项进展激发了相关技术成果的复现和在此基础上的创新。为系统构建该领域的研究框架,本文从自我进化(self-evolution)的角度系统地分类了现有技术。我们的调查发现分为三个相互关联的部分:数据进化(data evolution)、模型进化(model evolution)和自我进化(self-evolution)。
数据进化部分改进推理训练数据,这包括任务进化和增强思维链(Chain-of-Thought,CoT)推理的推理时间计算。
自我进化部分则探讨其进化策略和模式。包括自我进化的规模法则(scaling law)与对 O1 类研究工作的分析。
通过系统梳理相关研究,我们总结了前沿方法,并提供了对未来研究方向的前瞻性展望。本文旨在激励LLM复杂推理社区进一步研究,并促进对LLM推理能力提升的深入探索。
近年来,大语言模型(LLMs)的发展令人瞩目。它们不仅在阅读理解、故事生成和对话能力等领域超出了预期,还在需要复杂逻辑推理的任务中表现出色,包括代码生成和数学问题解决。2024年下半年,LLM研究迎来了一个关键时刻,OpenAI发布了O1 [OpenAI, 2024a],这标志着复杂推理研究的一个重要里程碑。O1系列模型能够生成衍生的推理过程,灵活地分解问题,并在面临挑战时自主澄清、反思和纠正潜在错误,以及探索替代解决方案——模拟了人类思维特有的细致、反思性推理过程 [OpenAI, 2024b]。
在学术界,研究者从不同角度进行了多项复现研究。例如,O1 Journey [Qin等,2024; Huang等,2024] 广泛讨论了思维链格式化和蒸馏,但对持续优化方法的见解有限。与此同时,OpenR [Wang等,2024e]、O1-Coder [Zhang等,2024j]等工作主要通过强化学习的视角研究O1,但忽略了对反思和纠正推理操作的讨论。另一方面,Slow Thinking系列工作[Jiang等,2024a; Min等,2024]专注于推理时计算,尝试通过树搜索技术提升推理性能。此外,rStar-Math [Guan等,2025] 通过使用自我进化框架联合训练推理器和过程奖励模型(Process Reward Model, PRM),实现了接近O1的性能,突显了迭代优化在提升推理能力方面的潜力。
尽管这些技术报告提供了宝贵的见解,但它们往往仅聚焦于特定技术领域,缺乏整体性的技术架构和统一的分类标准。因此,我们需要对这些方法进行系统性的高层次综述。O1博客 [OpenAI, 2024a] 和系统卡片 [OpenAI, 2024b] 提示O1采用了强化学习(RL)和推理时计算。这使我们联想到另一个杰出的人工智能——AlphaGo Zero [Silver等,2017]。AlphaGo Zero通过自我对弈、蒙特卡洛树搜索(MCTS)和策略模型的迭代学习实现了自我进化 [Silver et al., 2017] 。这一过程在无人干预的情况下提升了其性能,启发我们采用类似技术或许能将复杂推理能力提升至超越人类的水平。在这个类比中,训练策略模型对应于推理优化,而MCTS搜索则对应于推理时计算。自我进化通过循环这两个阶段,实现推理能力的自主提升。此外,高质量数据的匮乏凸显了自动化数据合成框架的迫切需求 [Sutskever, 2024; Wang et al., 2024f],由于推理任务对逻辑严谨性要求更高,这一挑战尤为突出。因为推理任务对逻辑严谨性有更高要求。在无人干预的情况下,自我进化不仅能利用合成数据来增强系统能力,还可以利用改进的系统合成更高质量的数据,创造一个良性循环推进过程。
鉴于这些考虑,本文希望从自我进化的视角对大语言模型的复杂推理提供全面综述。大语言模型复杂推理的自我进化,亦称自我改进(self-improvement),其需要在闭环推理系统中自主合成训练数据并持续提升推理能力 [Tao等,2024; Hu等,2024]。专家迭代(Expert iteration)[Polu等,2022; Zhao等,2024b] 被视为典型的自我进化范式。其核心思想是:模型首先生成推理轨迹,再基于标准答案筛选出正确解决方案,最后利用这些解决方案对模型进行微调,以提升其推理能力。这一过程进行迭代,直至模型收敛。此外,在线强化学习框架同样体现了自我进化的理念。智能体首先进行探索并生成轨迹,然后利用这些轨迹进行自我优化,从而在后续的学习周期中发现更高质量的轨迹。
图1:大语言模型中自我进化复杂推理能力的概念框架。我们在完整的自我进化框架中识别出三个组成部分:数据进化、模型进化以及进化策略和模式。
如图 1 所示,本综述的结构由三个部分组成:数据进化、模型进化和自我进化。数据进化探索合成高质量数据,包含两个阶段:(1)任务进化生成推理系统尚未能有效处理的任务,(2)思维链(CoT)进化通过扩展推理时计算 [Snell等,2024] 扩展大语言模型的性能边界,并通过思维链(Chain-of-Thought, CoT)[Wei等,2022] 推理生成更好的解决方案。然而,性能的提升可能源于启发式搜索算法而非模型的固有能力,这从模型无法持续生成高质量思维链的证据可见一斑。模型进化通过提升系统模块来解决这些问题。一方面,模型专门针对它们曾经困难的任务进行训练;另一方面,它们从收集的数据中有选择地学习,以真正扩展其能力边界。前两种进化代表了探索性和发散性努力,旨在研究实现数据和模型进化的有前景技术和挑战。这为自我进化奠定了数据合成策略和优化方法的技术基础。在第三部分,我们专注于推理系统的自我进化框架。通过迭代进行数据进化和模型进化,推理系统实现自我进化:数据进化基于当前模型生成更有针对性、更高质量的数据,而模型进化则利用收集的数据进一步强化模型,为下一轮数据进化提供更坚实的基础。
我们的贡献可总结如下:(1)全面综述:这是首个聚焦于推理自我进化的大语言模型综述;(2)分类体系:我们在图2中构建了一个详细的分类体系;(3)理论基础:我们整理了相关的基础理论,并探讨了自我进化的规模法则;(4)前沿与未来:我们分析了自我进化框架内的最新开源研究,并为未来研究指明方向。
本综述聚焦于大语言模型促成的复杂推理任务。具体而言,我们关注思维链推理,即大语言模型在预测最终答案之前生成逐步推理过程(即思维链,Chain-of-Thought, CoT)。
给定任务 q,大语言模型 PLLM 首先生成逐步思维链 y,然后基于 y 预测最终答案 z。这一过程可以用数学表达式表示为:
由于在实践中 y 和 z 通常按顺序出现,我们有时会用 y 来表示解决方案,或者同时代表思维链和最终答案。
借鉴现有推理研究的见解,我们首先描述了闭环自我进化推理(closed-loop self-evolution reasoning)框架的基本组件。具体而言,我们确定了以下四个关键模块:
任务创建器(Task Creator):推理系统需要任务作为输入。任务创建器最直接的实现方式是从固定任务集中抽样乐竟体育官网入口。然而,与单轮推理改进不同,自我进化需要通过迭代优化持续提升推理能力。固定任务集可能导致性能快速收敛[Jiang等,2024a],因为系统学会识别针对特定任务的捷径,从而降低模型泛化能力。因此,生成多样化任务对缓解这一问题并促进自我进化至关重要。
推理器(Reasoner):推理器是系统的核心角色,负责接收来自任务创建器的输入并通过逐步推理生成解决方案。在本研究中,推理器由大语言模型实现。
评估器(Evaluator):评估器负责评估和验证推理器生成的推理过程。这一辅助模块有几个关键功能:在训练阶段,它提供基于分数的反馈来微调推理器,例如拒绝微调或强化学习;在推理阶段,它评估推理过程,从而指导推理时计算和后处理步骤。
后处理器(Post-Processor):后处理器基于评估器反馈,处理推理器生成的解决方案。最简单的操作是直接过滤掉错误的解决方案;然而,这种方法可能导致数据浪费,且与人类处理错误的方式不尽相同。后处理分为两个阶段:在生成过程中,它可以通过修正错误的步骤或回溯来优化部分思维链;在生成后,它利用系统的纠正能力来完善完整的解决方案。
值得注意的是,这些模块在逻辑上是不同的,而非物理上。由于大语言模型强大的指令遵循能力,单个模型可以在实现过程中同时履行多个角色。在接下来的章节中,我们将探讨它们在数据进化(共同生成高质量数据)、模型进化(优化每个模块)和自我进化(模块的联合进化)中的重要作用。
图3:数据进化流程由任务进化和思维链进化组成。在思维链进化中,我们定义了三种元操作符,使两种搜索范式能够生成更高质量的思维链。
如图3所示,数据进化分为两个不同阶段:任务进化和思维链进化。任务进化的核心是通过解决关键因素来提高推理任务的质量,如:难度、多样性和有效性等。通过优化这些维度,该系统不被局限于任务范围,从而显著提升泛化能力。思维链进化(推理时计算)旨在提高推理阶段的推理过程质量。这种提升主要体现在推理的准确性、逻辑连贯性以及系统自主评估和修正错误的能力上。
任务进化(Task evolution)专注于生成新任务,提高训练数据的多样性和难度,以增强模型的推理和泛化能力。这种方法类似于学生通过练习各种习题来提高技能。尽管任务进化至关重要,但我们观察到现有研究很少探索这一维度。因此,我们将任务进化作为起点。作为数据合成的关键组成部分,任务进化通常涉及创建新任务,例如利用更先进的大语言模型来制定新挑战 [Li等2024a]。在本节中,我们专注于增强任务多样性(task diversity)、复杂性(task complexity)和可靠性(task reliability),以有效支持任务进化。
任务多样性 :为了增强任务多样性,Haluptzok等[2022]、Madaan等[2023a]使用大语言模型修改参考问题的数据类型和逻辑操作,生成结构相似但逻辑不同的任务。Yu等[2023b]则使用大语言模型重新表述参考问题来创建新问题。然而,此类方法受限于对参考数据的依赖,从而限制了全新任务的生成,并削弱了多样性和创造性。为突破这一局限,有人提出从高方差分布中采样数据或引入聚焦多样性的提示词。例如,Liu等[2023]采用温度采样和注重多样性的提示词来生成多样化的问题,而Xu等[2023]则明确指示大语言模型创建罕见的、特定领域的问题。此外,Self-Instruct[Wang等,2022]通过结合人工编写和模型生成的任务来生成新的任务指令,并使用特定的提示模板引导生成过程。
任务复杂性:Xu等[2023]提出了几种基于示例问题生成复杂任务的方法:1) 添加约束:通过引入额外的约束或要求来提高任务难度,从而增强模型的灵活性和适应性;2) 深化:扩展示例中查询的深度和广度,以提升模型的推理能力;3) 具体化:将问题中的一般概念替换为具体概念,使指令更加清晰,从而提高响应的准确性和相关性;4) 增加推理步骤:重新制定简单问题,要求额外的推理步骤,从而增强模型的逻辑思维能力;5) 增加输入复杂性:通过修改问题条件,引入结构化数据或特定输入格式(如代码、表格、XML等),将问题从直接可计算转变为需要额外数据解析或操作的形式,从而提升模型的鲁棒性和泛化能力。
此外,Shi等[2023]通过引入无关条件来增加推理难度,迫使模型识别并聚焦于关键条件,而Mitra等[2024]则通过在问题中嵌入答案,将问题重新表述为陈述性语句,并借助自动化建议(如引入额外变量)来指导生成更复杂的问题。
任务可靠性:自动生成任务可能会产生无法解决的任务或不正确的答案。为解决这一问题,Li 等 [2023a] 采用微调的大语言模型(LLMs)对任务进行评分并筛选高质量任务。类似地,Liu 等 [2024a] 和 Xu 等 [2023] 基于原始问题生成多种任务,并通过验证答案来过滤不一致的任务。Haluptzok 等 [2022] 和 Liu 等 [2023] 则利用 Python 解释器和预定义规则(如检查任务长度或数值内容)来验证正确性,从而确保任务质量。Kreber 和 Hahn [2021] 提出了一种基于 Transformer 编码器的生成对抗网络(GAN)[Goodfellow 等,2014],通过随机噪声生成符号任务。评判器评估生成任务与真实数据之间的相似性,并提供反馈以优化生成器,从而提高任务可靠性。此外,Wei 等 [2023] 和 Lu 等 [2024b] 探索了反向任务生成方法,利用大语言模型从解决方案中推导问题。具体而言,Lu 等 [2024b] 从数学参考解决方案中迭代生成新答案,定义约束条件和逻辑关系,并将这些答案转化为任务,从而确保生成问题的可靠性。类似地,Wei 等 [2023] 利用高质量的开源代码,通过大语言模型生成编程任务乐竟体育官网入口。
在开始推理过程之前,需要构思推理链(Chain of Thoughts, CoT)的理想形态,以及它应该包含哪些元操作。推理链的格式决定了系统推理能力的上限。在本节中,我们首先定义三个元操作,以构建更强大的推理链,包括逐步推理(Step-by-Step Reasoning)、评估(Evaluation)和后处理(Post-Processing)。
我们回顾了推理中的计算方法,这些方法通常通过搜索生成更高质量的思维链,分为显式树搜索(explicit tree search)和隐式试错搜索(implicit trial-and-error search)两类。早期研究集中在显式树搜索上,但随着O1及其后续开源项目(如 R1 [DeepSeek-AI 等,2025]、Kimi k1.5 [Team 等,2025] 和 T1 [Hou 等,2025]),研究逐渐转向试错搜索。O1提供的思维链示例表明,它能在发现错误时自我纠正或回溯,并记录整个推理过程,模仿人类在回答前的深思熟虑。O1 Journey [Qin 等,2024] 早期探讨了这一点,提出了“捷径学习”(Shortcut Learning)[Geirhos 等,2020] 概念,描述追求每一步都正确的思维链,并通过“旅程学习”(Journey Learning)[Qin 等,2024] 表示推理过程中的自我验证、错误检测和修正。Kimi k1.5[Team 等,2025] 和Redstar[Xu 等,2025] 进一步研究这一概念,并称之为“长思维链”(Long CoT)。与此一致乐竟体育官网入口,我们将捷径学习的结果称为“短思维链”(Short CoT)。
思维链推理的潜力已被广泛探索。虽然普通思维链(vanilla CoT)在简单任务上表现良好,但在更复杂任务中表现不佳。增强思维链推理的一种方法是设计受人类认知启发的更复杂且高效的推理链。对类 O1 系统 [Qin 等,2024; Zeng 等,2024b] 的观察引发了对分解、逐步推理、自我评估、自我纠正和回溯等操作的讨论。因此,我们总结并归纳了三个关键元操作:逐步推理(Step-by-step Reasoning)、评估(Evaluation)和后处理(Post-processing)。
我们聚焦这三个元操作符,并回顾前一节(§2.2)中提到的模块,可以将思维链格式与推理系统模块相连接。推理器(Reasoner)通过逐步分解生成推理过程,搜索算法作为其扩展技术。评估器(Evaluator)和后处理器(Post-Processor)分别管理思维链中的评估和纠正过程。整合这三个模块后,我们可以构建一个全面且稳健的推理系统。
逐步推理将问题分解为依序步骤,这需要强大的规划能力,然后通过基于链的推理过程逐步解决问题 [Chu 等,2023]。此外,分解过程应该是递归的,从而使系统能够迭代地分解复杂的子问题。
[Wei 等,2022] 代表了一种直接的线性搜索方法,利用少样本(few-shot)或零样本(zero-shot)提示来逐步解决问题。Plan-and-Solve [Wang 等,2023b] 采用零样本提示引导模型在单一生成过程中生成计划,随后基于生成的计划进行链式推理。从少到多提示(Least-to-Most Prompting)[Zhou 等,2022] 采用两阶段方法:第一阶段,问题被明确分解为多个子问题;第二阶段,这些子问题被顺序解决。前一步的结果被添加至上下文,引导模型继续解决后续子问题。。与基于规划的方法不同,连续提示(Successive Prompting)[Dua 等,2022] 采用迭代分解过程。在每次迭代中,一个新的子问题被提出并在当前步骤中解决。这一两步过程重复进行,直到整个问题被解决。ReACT [Yao 等,2022] 将迭代推理与行动相结合。在每一步中,模型基于其推理生成一个行动。该行动可能涉及调用外部工具(如计算器)或与环境交互。随后,模型使用来自这些外部工具或环境的反馈进行下一步,直到达到最终目标。通过引入行动,ReACT 使模型能够与外部系统交互,从而增强大语言模型的推理过程。
一个稳健的推理系统须具备自我评估能力,使其能够在任务执行期间和之后评估其推理过程。在推理过程中,系统应识别并终止错误的探索路径以进行后处理。在启发式搜索中,评估结果进一步用于指导搜索。完成推理过程后,可能会生成多个候选答案,这就需要进行彻底评估,以有效地评估和验证不同的解决方案。我们从三个粒度回顾现有研究:结果级(outcome-level)、步骤级(step-level)和词元级(token-level)。
结果级评估 早期工作主要关注结果级评估,即在推理完成后对完整解决方案进行评估 [Cobbe 等,2021; Wang 等,2023c; Lee 等,2024a]。这些方法的主要区别在于评估的形式和目的。在训练阶段,当正确答案可用时,一些工作对照标准答案对解决方案进行直接的正确性评估 [Cobbe 等,2021; Hosseini 等,2024]。除了单纯的答案准确性外,R1 [DeepSeek-AI 等,2025] 和 T1 [Hou 等,2025] 还融入了基于格式的结果奖励来指导推理格式学习。在推理阶段,Cobbe 等 [2021]、Hosseini 等 [2024] 利用训练好的验证器对候选解决方案进行评分和排名,从而选择最优解。此外,一些方法使用大语言模型对解决方案提供自然语言反馈。例如,Madaan 等 [2023b]、Zhang 等 [2024b] 直接生成批评,而 Peng 等 [2023]、Shinn 等 [2023]、Gou 等 [2024] 在批评生成中包含内部和外部环境信息。此外,Ankner 等 [2024b]、Yu 等 [2024b] 将自然语言批评与评分机制相结合,以提高评估的可靠性和可解释性。一些研究还采用基于一致性的评估框架。例如,Wang 等 [2023c] 采用投票系统从多个解决方案候选中确定最终答案,而 Jiang 等 [2024b]、Weng 等 [2023] 通过确保前向和后向推理过程之间的一致性来评估答案质量。
步骤级评估 虽然结果级评估实施简单,但在实践中应用有限,往往需要更细致的评估。其中,步骤级评估已成为一种特别突出的方法,强调对单个推理步骤的评估 [Lightman 等,2024; Wang 等,2024g,m; Gao 等,2024a; Lu 等,2024a; Li 等,2023b]。在树搜索算法中,过程评估被广泛用于指导搜索轨迹。例如,Tian 等 [2024] 在蒙特卡洛树搜索(MCTS)中使用状态评分来指导搜索过程,而 Xie 等 [2023] 在束搜索中实现状态评分以优化路径选择。此外,步骤级评估在错误纠正和推理步骤总结方面都证明了其有效性。值得注意的是,Zheng 等 [2024]、Xi 等 [2024] 已开发出能够精确定位特定推理步骤中的不准确之处的方法,从而提供更精确和可操作的反馈,用于全面评估。
词元级评估 一些研究认为,步骤级评估的粒度对于全面的推理评估仍然不足 [Yoon 等,2024; Chen 等,2024h]。这促使了词元级评估框架的发展,提供了更高细粒度的分析。Yoon 等 [2024] 引入了一种方法,利用强大的大语言模型在词元级别上迭代修改思维链推理。他们的方法根据修改操作为词元分配不同的奖励,并利用这些奖励来训练词元级奖励模型。类似地,Chen 等 [2024h] 提出了一个两阶段框架,首先训练一个纠正模型来识别和纠正错误的推理步骤。通过将低生成概率与错误词元关联,将高概率与正确词元关联,他们的方法能够构建精确的词元级奖励信号。此外,Lee 等 [2024d] 提出了一个词元监督的价值模型,该模型监督单个词元以提供对解决方案正确性的更准确评估。同时,Yang 等 [2024b] 基于最大熵强化学习原理推导出了一种词元级评估方案。他们的方法通过基于排名的截断计算词元级价值,为每个词元分配 +1、0 或 -1 的离散奖励,从而实现对推理过程的细粒度优化。
基于评估反馈的呈现格式,现有的评估方法可分为两种不同范式:验证器(verifier)和评论器(critic)。验证器专注于通过标量评分量化解决方案质量,而评论器则以自然语言提供口头反馈。
验证器 验证器范式通过分配量化分数来评估解决方案的正确性。例如,Cobbe 等[2021]使用验证器来估计解决方案正确的概率,而Hosseini 等[2024]利用经过训练的DPO验证器生成反映解决方案有效性的似然分数。此外,[Lightman 等,2024; Wang 等,2024g; Lu 等,2024a]采用步骤级评分机制,对单个推理步骤分配分数乐竟体育官网入口,并使用最小值或平均值等指标聚合它们,以得出整体解决方案质量评估。[Tian 等,2024; Xie 等,2023]为树搜索过程中的每个状态分配分数,以优化搜索路径。为了更细的粒度,[Yoon 等,2024; Chen 等,2024h; Lee 等,2024d; Yang 等,2024b]引入了词元级评分机制,为单个词元分配连续或离散分数(如中性、正确或错误)。
评论器 评论器范式生成自然语言反馈,以促进错误澄清并提高评分机制的可解释性。例如,Madaan 等[2023b]利用模型固有的能力对其自身解决方案产生批判性反馈,实现迭代改进。同时,[Peng 等,2023; Shinn 等,2023; Gou 等,2024]通过结合内部模型状态和外部环境信息来扩展这种方法,生成全面的批评,不仅识别错误,还指导后续改进。进一步推进这一工作,[Zheng 等,2024; Xi 等,2024]进行粒度化、逐步的批判性分析,以更详细地定位和纠正错误。[Ankner 等,2024b; Yu 等,2024b]将批评生成与评分机制整合。通过在分配分数之前生成自然语言批评,这些方法增强了评估过程的透明度和可靠性,为评估解决方案质量提供了更可解释和稳健的框架。此外,MCTS-Judge Wang 等[2025b]也将自我评估建模为一系列子任务,并使用蒙特卡洛树搜索将问题分解为更简单的多角度评估任务。
图4:评估后的三种后处理方法:过滤(Filter)、总结(Summary)和纠正(Correction)。
评估的挑战:奖励欺骗 奖励欺骗被定义为策略模型利用奖励定义中的模糊性或漏洞获得高奖励,而实际上并未学习所需能力的情况 [Weng,2024]。针对特定阶段,有两条主要路径可以缓解奖励欺骗。在奖励建模阶段,设计更复杂的过程奖励可能有助于缓解这一问题。然而,过于复杂的奖励信号也可能改变收敛目标。另一种方法是放弃细粒度的过程奖励模型(PRM)而仅依赖结果奖励模型(ORM),这对推理任务尤为适用。例如,R1 [DeepSeek-AI 等,2025]和T1 [Hou 等,2025]仅采用基于答案正确性和格式合规性的规则型结果奖励,有效缓解了使用过程奖励模型时的奖励欺骗问题。此外,使用更大规模的大语言模型作为基础奖励模型可以提高其泛化能力并降低利用漏洞的风险。同时,在强化学习训练过程中,裁剪和奖励塑造等机制可以在一定程度上帮助缓解这一问题 [Gao 等,2024b]。
评估的挑战:泛化性 此外,奖励模型的泛化能力同样至关重要。参数化评估器(如奖励模型)通常在特定数据分布上训练,这限制了它们在分布外(out-of-distribution, OOD)任务上的适用性。这种限制可能导致对新任务的评估出现偏差或不稳定,进一步阻碍任务泛化 [DeepSeek-AI 等,2025; Cui 等,2025]。因此,增强奖励模型的泛化能力,以在更广泛的任务范围内提供可靠反馈,对于提高任务泛化至关重要。一方面,可以优先考虑非参数化评估器,如答案正确性或格式准确性,以缓解这些问题 [DeepSeek-AI 等,2025; Hou 等,2025]。另一方面,如果必须使用参数化评估器,确保其持续更新至关重要。一个关键挑战在于高效且经济地构建这些评估器的训练数据。
尽管像 R1 [DeepSeek-AI 等,2025] 这样的工作通过基于规则的结果奖励规避了现有评估器中的奖励欺骗和泛化限制问题,但也暴露了新的挑战,如过长的思维链、低效的反思和过度思考。这些问题表明,仅依赖结果奖励可能不足。更高细粒度的步骤级评估可能有助于解决这些缺点。结合过程奖励模型(PRMs)和结果奖励模型(ORMs)的优势,既能缓解奖励欺骗并确保泛化,又能实现细粒度评估,仍然是未来研究中的重要挑战。
如图4所示,评估后的推理解决方案可以进一步处理以提高其质量和可靠性。首先,可以使用总结知识(Summary Knowledge)从推理过程中提炼和总结关键信息。对于低质量的推理解决方案,常见的处理方法包括过滤(Filtering)和纠正(Correcting)。过滤直接移除不可靠的解决方案,而纠正通过修正错误或恢复到正确状态来优化推理过程。这两种方法各有优势,其中纠正在提高推理准确性的同时特别有效地保留有用信息。通过纳入这些后处理操作,系统可以有效避免陷入逻辑死角和重复失败的推理路径,从而在复杂问题解决场景中增强整体稳健性和可靠性。以下讨论将更详细地深入探讨这些核心策略。
为提高模型在推理任务中的表现,一些研究专注于总结先前解决方案的经验来指导后续推理。例如,Zhang 等[2024k]在训练实例中纳入反思组件,如通过类比和推理的替代解决方案或问题扩展,引导模型从不同角度理解问题并积累多样化的推理经验。而Wang 等[2024l]通过训练对齐将反思见解整合到代码本模块中,使模型能够主动检索相关反思来辅助推理过程。在树搜索推理中,Hui 等[2024]识别重要节点并反思后续行动和结果,生成任务级指导方针以优化搜索效率并避免重复错误。同时,Liu 等[2024c]引入了用于行动选择的文本原则,通过迭代反思不断完善这些原则,灵活指导行动执行。此外,Zhang 等[2025a]提出了基于思维链的合成器(CoT-based Synthesizer),通过结合多个候选解决方案的互补信息来改进推理,即使所有候选解决方案都有缺陷也能生成更好的解决方案。
当在评估阶段识别出低质量解决方案时,最简单的方法是直接过滤。例如,当标准答案可用时,可以基于答案正确性过滤低质量解决方案 [Singh 等,2023; Gulcehre 等,2023]。在没有标准答案的情况下,过滤策略可以基于一致性进行完善,如困惑度(perplexity)[Min 等,2024]、基于投票的一致性 [Wang 等,2023c; Chen 等,2023a]、前向-后向一致性 [Jiang 等,2024b; Weng 等,2023],或通过构建针对多项选择题性质的后续问题来评估解决方案一致性 [Ankner 等,2024a; Lee 等,2024b]。此外,可学习的验证器 [Cobbe 等,2021; Yu 等,2023a; Stiennon 等,2020]可以用来进一步增强过滤过程。虽然简单过滤既高效又易于实施,但通常会导致大量推理数据浪费。
除了直接过滤外,纠正不正确的解决方案有助于最大限度地利用已有数据,因此低质量解决方案的改进已成为研究的关键方向。早期研究主要依赖模型的内在能力对解决方案进行优化。例如,Madaan 等 [2023b] 使用自生成反馈对初始输出进行迭代优化;Zhang 等 [2024g] 则通过大语言模型比较多个方案,并将差异整理为对照清单,以增强自我反思过程的一致性与可靠性。然而,仅依赖内在纠正方法往往难以充分优化结果,表明引入外部信息对于提升改进效果至关重要。
最近的研究提出多种策略增强纠正性能。Ferraz 等[2024]、Wu 等[2024b]通过细粒度约束分解和后向推理优化纠正过程。Gou 等[2024]利用外部工具反馈,Li 等[2024b]、Gao 等[2024c]、Chen 等[2023b]、Yuan 等[2024a]借助Python解释器迭代执行代码,直至成功评估。Ramji 等[2024]采用策略指标作为质量反馈,迭代优化答案。Wu 等[2024c]训练PSV模型识别并纠正错误步骤,确保准确性。Shridhar 等[2024]训练提问者模型生成子问题以辅助纠正。为增强模型的批评与改进能力,Zheng 等[2024]、Xi 等[2024]、Yan 等[2024]、Zhang 等[2024i]提出训练模型提供批评以推动改进。
从理论角度看,迭代纠正方法可视为通过线性搜索进行的马尔可夫决策过程(Markov Decision Process, MDP),其中解决方案为状态,纠正操作则为状态转移的行动。简单的线性搜索通常效果平平,但更复杂的树搜索方法理论上能获得更优结果。例如,Zhang 等[2024e,d]将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与自我进化机制结合,优化复杂数学推理任务的解决方案。该算法初始化根节点,并通过价值函数 Q 选择最具潜力的节点进行扩展。在自我进化阶段,模型通过反馈纠正答案并生成更优解,随后通过自我评估打分,这些分数用于更新树中节点的价值评估。节点的树上置信上界(Upper Confidence Bound for Trees,UCT)值通过改进的公式进行更新。该过程持续进行,直到满足终止条件,既提升了解决方案质量,也不断探索新的可能性。
除上述纠正、过滤与总结操作外,还可采用其他后处理方式,如回溯机制 [Qin 等,2024;Yang 等,2025b]。当系统检测到错误时,可回溯至先前状态,重新探索替代的推理路径。
在本小节中,我们将“短思维链”(Short CoT)定义为仅包含逻辑推理步骤、不涉及评估与纠正等行为的思维链。短思维链体现了一种从任务提示直接通向标准答案的精简推理过程,要求每个中间步骤均为正确。针对传统思维链准确率较低的问题,研究者提出基于启发式搜索(尤其是树搜索)的增强方法,以提高对短思维链的搜索效率。我们将此类方法统一归纳为“显式树搜索”(Explicit Tree Search)框架。
尽管短思维链本身不包含评估等行为,但在搜索过程中仍可引入评估机制辅助推理。搜索过程中,评估函数用于引导探索方向并执行剪枝,从而优先保留最具潜力的路径。该方法在提升搜索效率的同时,亦保持了所生成思维链的准确性与简洁性。根据底层搜索策略的不同,显式树搜索算法可分为若干类型:朴素的广度优先/深度优先搜索(naive BFS/DFS)、束搜索(Beam Search)、A*算法以及蒙特卡洛树搜索(MCTS)。
广度优先/深度优先搜索:思维树(Tree-of-Thoughts, ToT)[Yao 等,2023] 将问题分解为多个思维节点,并利用经典搜索算法——广度优先搜索(BFS)和深度优先搜索(DFS)——探索多样化的推理路径,显著增强了语言模型在复杂任务中的问题解决能力。Qin 等 [2023] 将搜索过程与工具使用相结合,采用 DFS 处理工具组合与错误管理,从而提升模型在真实任务中的表现。上述方法依赖外部程序(如 Python 代码)定义搜索逻辑。然而,这些被动搜索方法效率较低,灵活性有限。自主树搜索(Autonomous Tree-Search)[Zhang 等,2023b] 通过提示直接引导大语言模型独立执行 BFS 或 DFS,自主探索多条解决路径,提升推理灵活性。思维算法(Algorithm-of-Thought, AoT)[Sel 等,2023] 则利用 BFS/DFS 的整个搜索路径作为提示,整合思维链与思维树的优势,使模型在推理过程中能动态调整路径,从而更高效地发现解法。此外,AoT 避免了 ToT 所需的多轮查询,降低了推理开销。
束搜索:束搜索作为广度优先搜索的一种变体,在搜索过程中维护k个候选序列(称为束),实现了搜索准确性和计算效率之间的有效平衡。其与大语言模型自回归生成的契合使其特别适合在解码过程中指导前向搜索。根据搜索的粒度,束搜索可分为三个层次:词元级(token-level)、步骤级(step-level)和解决方案级(solution-level)。
词元级束搜索在模型生成的最小单位上操作,直接与大语言模型解码过程对齐。虽然传统束搜索基于词元对数概率对序列进行排序,但这种方法优先考虑自然语言流畅性而非推理质量。为解决这一局限性,Lee 等[2024c]引入了词元监督价值模型,对词元进行评分以提高数学推理的准确性。此外,为缓解生成序列多样性不足的问题,Vijayakumar 等[2016]提出多样化束搜索,将束分成多个组,在每个组内独立优化,并在组间引入多样性惩罚,以鼓励生成更多样的推理路径。
步骤级束搜索将多步推理分解为子步骤,对每个子步骤进行评分和验证,以维持高质量的候选路径。例如,Wang 等[2024i]、Ma 等[2023]使用过程奖励模型(PRM)对子步骤进行打分,利用这些分数引导搜索朝有希望的推理路径发展。类似地,Chen 等[2024b]、Yu 等[2023a]利用学习的价值模型在步骤级别增强搜索效率,避免了蒙特卡洛树搜索的计算开销。Setlur 等[2024]进一步结合过程优势来完善搜索过程。与外部评估方法不同,Xie 等[2023]利用模型本身进行自我验证,提示它验证步骤正确性,同时通过温度调整的随机化引入多样性。
解决方案级束搜索独立评估整个推理路径,通过避免中间操作提供更快的推理。例如,Best-of-N(BoN)采样生成多个完整解决方案,并使用奖励模型选择评分最高的解。然而,Wang 等[2024i]强调了奖励模型在区分相似推理过程方面的局限性,提出了一种成对偏好模型以实现更有效的排名。同时,Wang 和 Zhou [2024]观察到模型可以通过采样自动生成思维链推理,而基于思维链得出的答案表现出更高的置信度。利用这一见解,他们引入了思维链解码(CoT-decoding),这是一种通过改变解码过程隐式执行思维链推理的方法,通过top-k采样生成多个序列,并基于答案置信度选择最佳序列。
A*搜索:A*算法通过使用评估函数f(n) = g(n) + h(n) 扩展最具潜力的节点,从而提升搜索效率。其中,g(n) 表示从初始状态到当前节点的累积代价,h(n) 是用于估计从当前节点到目标状态的启发式代价函数。该框架已被改造以增强大语言模型的多步推理能力,在搜索效率方面优于传统的思维树(ToT)方法。
已有多项研究将 A* 原则整合进大语言模型的推理过程。Zhuang 等 [2023] 提出 ToolChain*,为特定任务维护一套“长期记忆”机制,用于存储推理经验。该记忆系统初始由示例数据预置,并在推理过程中不断吸收正确的解路径,从而实现动态扩展。ToolChain* 通过最长公共子序列(Longest Common Subsequence)将新任务与历史经验匹配,进而估计累积与未来成本,实现对复杂规划与推理任务中最优解的高效识别。相比之下,Wang 等 [2024a] 引入了 Q*,该方法采用训练得到的 Q 值模型为每个状态计算启发式值 h(x),从而使 A* 算法可扩展至数学、编程等领域。
进一步的研究利用大语言模型的固有能力对 A* 搜索进行优化。Meng 等 [2024a] 提出 LLM-A*,该方法利用大语言模型的全局理解生成中间引导点(waypoints),以引导 A* 搜索方向并减少冗余状态的探索。Gupta 和 Li [2024] 训练大语言模型学习真实代价 h∗(n) 与启发式估计 h(x) 之间的残差(差),通过减少迭代次数加快搜索收敛。Lehnert 等 [2024] 提出 Searchformer,将 A* 的执行轨迹转化为标记序列,进而引导 Transformer 模型迭代采样更短路径。类似地,Su 等 [2024] 提出 Dualformer,在 A* 搜索过程中引入随机信息丢弃机制,使模型在搜索过程中实现快思维与慢思维的动态平衡,从而优化搜索策略。
蒙特卡洛树搜索:蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)是一种在探索与利用之间实现平衡的搜索算法,在以马尔可夫决策过程(Markov Decision Process, MDP)建模的任务中表现出色[Chen 等,2024b; Wu 等,2024a]。这类任务通常要求 MCTS 在庞大的状态-行动空间中发挥其探索与利用平衡的优势,以发现高价值的行动轨迹。 AlphaGo Zero [Silver 等,2017]是其中代表,该系统基于 MCTS 实现,在围棋任务中搜索高质量的落子序列,不断优化策略网络的性能。受 AlphaGo Zero 启发,研究者提出了在复杂行动空间中使用 MCTS 搜索高质量推理路径的思路。经典MCTS通常包含以下四个步骤[Browne 等,2012]:
。其中Q(s,a)表示从状态 s 采取行动 a 后的累积奖励,πprior(as) 为在状态 s 下选择行动 a 的先验概率, N(s) 是当前上下文中状态 s 被探索的次数, N(s,a) 是行动 a 在状态 s 被探索的次数。权重函数同时考虑探索(未访问节点将获得更高探索值)与利用(历史上高回报节点获得更高利用值)。每轮选择会推进到得分最高的子节点,直至到达叶节点。
扩展 (Expansion) 一旦到达叶节点,若该节点不是终止状态(例如尚未得出最终答案),MCTS 将基于当前状态执行新的行动,扩展生成多个子节点。扩展质量主要取决于行动空间的定义。在围棋中,行动为落子;而在大语言模型推理中,不同任务需定义不同的行动空间。即使在同一任务下,不同粒度的行动空间也可能导致完全不同的搜索行为和结果。
评估(Evaluation) 到达叶节点后,需对其状态值进行评估。常见方法包括: 1)蒙特卡洛采样估值:将从根到当前节点的状态-行动路径作为上下文,采样多个完整轨迹,并基于其统计指标(如成功率)计算状态值。该方法无偏但方差高、计算成本大,难以用于采样代价高的任务; 2)训练价值模型估值:利用预训练模型直接估计状态值,但训练价值模型比奖励模型更具挑战,因为它需预测未来的预期累积奖励。
反向传播(Backpropagation) 一旦完成状态值评估,MCTS 将从叶节点向根节点回传该值,更新路径中所有节点的状态估计。随着模拟次数的增加,这些估值愈发精确。该过程重复执行,直到达到设定的最大模拟次数,最终形成一棵记录每个节点状态值与访问次数的搜索树。由于不同任务和方法的设计差异,MCTS 在大语言模型推理中的实现方式也有所不同。
在前一节中,我们介绍了基于短思维链(Short CoT)的方法,其特点是每一步推理均为正确。所有被判定为“无前途”(unpromising)的推理步骤将由算法控制进行剪枝,使搜索聚焦于更有希望的分支,确保最终仅保留通向正确解的推理轨迹。
与此相对,长思维链(Long CoT)[DeepSeek-AI 等,2025;Team 等,2025;Hou 等,2025;Xu 等,2025] 并不要求每一步都正确,而是允许模型在推理过程中通过试错进行探索。我们将长思维链定义为模拟人类认知过程的思维链。与短思维链不同,长思维链不仅包含逐步逻辑推理,还在整个推理过程中集成了自我评估和自我纠正等行为。相应地,我们将R1和类似工作用于探索长思维链的过程称为隐式试错搜索(Implicit Trial-and-Error Search)。在此过程中,不需要外部评估器或精炼器;大语言模型自主触发其自我评估机制,并利用自我纠正和回溯能力来调整推理路径,这对提高推理性能至关重要。 尽管长思维链在表面上呈现为线性结构,但由于纠错与回溯机制的存在,其本质逻辑形态更接近于树状结构。因此,我们将其称为隐式搜索。
为实现 Long CoT 的生成,O1 项目 [Huang 等,2024] 提出了基于蒸馏的训练方法。然而,该方法仅模仿了试错行为的模式,未能真正赋予模型深入思考的能力。为此,多个团队陆续引入基于强化学习的优化策略。DeepSeek-R1 在 PPO [Schulman 等,2017] 的基础上采用 GRPO [Shao 等,2024] 进行改进;Kimi k1.5 借助在线策略镜像变体 [Lazic 等,2019];T1 应用了 RLOO 算法 [Ahmadian 等,2024] 进行优化。这些优化将在 §4 详细讨论。
值得注意的是,这些开源研究普遍选择以结果奖励模型(Outcome Reward Model, ORM)替代过程奖励模型(Process Reward Model, PRM),以指导大语言模型自主探索解空间。这一策略性转变使模型在性能上达到了与 O1 相当甚至超越的水平。放弃 PRM 的决定,主要源于其泛化能力有限以及奖励欺骗(reward hacking)问题严重,相关内容已在 §3.2.1 中详尽讨论。 随着强化学习训练的不断推进,模型生成的思维链显著延长,推理准确性与泛化能力持续提升。在此过程中,模型甚至展现出“顿悟时刻”[DeepSeek-AI 等,2025]:能够自主完成解的验证与替代推理路径的探索,表现出接近人类“灵感式”认知的推理能力。
在深入比较之前,我们简要总结显式树搜索用于短思维链和试错搜索用于长思维链在程序上的区别:
图5:两种搜索范式的说明。显式树搜索通过同时扩展多个步骤并优先处理最有希望的步骤来提高搜索效率,从而识别逻辑连贯的短思维链。相比之下,隐式试错搜索通过逐步推理、试错和回溯到过去的状态来探索替代思路,模仿人类思考。
如图5所示,显式树搜索采用启发式搜索算法(如蒙特卡洛树搜索、A*和束搜索)来探索解决方案空间。在每个状态,都会扩展多个行动以获得候选状态,形成树结构的搜索过程。在此过程中,推理系统被动调用评估和剪枝等操作。生成的思维链中的每个推理步骤都保证是正确的,而评估、剪枝和错误纠正等行为不会在短思维链(Short CoT)中呈现。
相比之下,隐式试错搜索不依赖启发式算法。相反,大语言模型在推理过程中主动调用自我评估和自我纠正等能力,并用自然语言表达这些操作。因此,试错搜索中的长思维链不仅包含逐步推理,还融合自我评估、自我纠正与回溯操作,使整体推理过程更加透明且具有动态调整能力。
在性能方面,树搜索也有成功的实现,如rStar-Math [Guan 等,2025],它使用蒙特卡洛树搜索和过程奖励模型以及自我进化训练,使小型大语言模型在性能上达到与O1相当的水平。然而,最近的开源项目,包括DeepSeek R1 [Team, 2024a]和Kimi k1.5 [Team 等,2025],都选择了试错搜索路线,获得了显著的泛化能力[Yeo 等,2025]。这些开源项目放弃使用短思维链的显式树搜索,转而采用长思维链的试错搜索的原因可以从其技术报告中推断:
首先,树搜索通常依赖奖励模型或价值模型等验证器提供评分,以实现细粒度的评估指导。然而,这些验证器普遍存在泛化能力弱与奖励欺骗严重的问题。这可能导致中间评估不准确,甚至因 LLM 利用捷径最大化奖励而引发训练崩溃。相比之下,R1、Kimi k1.5和T1在搜索过程中利用自我评估能力,并在训练过程中采用基于规则的结果奖励,显著减轻了奖励欺骗并提高了泛化能力。
此外,树搜索中验证器的分数仅反映推理的相对质量,未能指出错误或原因,导致评估质量有限。相比之下,R1和类似项目通过自我评估生成口头评估反馈,提供更丰富和更有信息的反馈。
最后,虽然树搜索可以同时探索多条路径,但这些路径是独立的。因此,中间经验无法在它们之间共享,降低了并行推理过程的利用率。这使得树搜索与人类推理有显著差异,因为在人类推理中,过去错误的见解指导后续推理,这在长思维链(Long CoT)的试错搜索中可以看到。
虽然上述讨论强调了与试错搜索相比,显式树搜索的弱点,但并不意味着试错搜索没有缺点。
在试错搜索中应用长思维链可能在两个关键方面引入效率低下。1) 对于简单任务,长思维链方法往往表现出过度思考。正如[Chen 等,2024f]所指出的,QwQ [Team, 2024b]和R1 [DeepSeek-AI 等,2025]等方法通常会探索多个潜在解决方案,即使初始解决方案通常已经足够。这种过度探索行为会引入显著的计算资源消耗。2) 对于复杂任务,Wang 等[2025a]观察到QwQ和R1容易思考不足。这些方法往往在未充分验证当前推理路径有效性前即过早放弃,导致策略频繁切换,导致搜索过程不稳定且效率低下,伴随着不必要的冗长推理链。相比之下,基于短思维链的方法产生更简洁的推理路径,提供明显的效率优势。[Wu 等,2025b; Xie 等,2025a]进一步论证,更长的思维链不一定能改善推理性能;相反,每个模型和任务都存在最佳思维链长度。因此,试错搜索的低效率不仅增加了词元使用和计算成本,还降低了性能。
此外,隐式试错搜索严重依赖大语言模型的自我评估和自我纠正能力。一方面,这些能力的背景机制仍是需要进一步研究的领域;另一方面,这些能力在大语言模型的学习过程中尚未被特别优化。R1 [DeepSeek-AI 等,2025]、kimi k1.5 [Team 等,2025]和T1 [Hou 等,2025]等模型在同一行动空间中仅使用结果级奖励同时学习推理、评估、反思和错误纠正,但缺乏专门的奖励信号来指导评估、反思和纠正能力的学习。结果,大语言模型中的这些能力没有得到特别优化,一个后果是,即使大语言模型在早期阶段进行低质量的反思或错误纠正,只要最终答案正确,它们仍然可以获得积极奖励。此外,自我评估能力的不足是R1等方法经常无法准确评估推理路径,从而过早放弃有希望路径的原因之一。
为解决效率低下问题,Kimi k1.5 [Team 等,2025]引入了长度惩罚作为长度奖励的一部分,用于控制响应长度。Yeo 等[2025]设计了余弦奖励函数,对于正确响应,奖励随着长度缩短而增加,而对于错误响应,奖励随着长度增加而增加。Luo 等[2025]提出长度协调奖励,抑制过长的响应。除引入新的奖励函数外,Chen 等[2024f]采用偏好学习,将最短响应视为正例,最长响应视为负例,从而鼓励大语言模型生成更短的思维链,抑制过长思维链的生成。我们在表1中简要总结了这两种搜索方法的差异。
显式树搜索与隐式试错搜索的统一这两种搜索策略——树搜索和试错搜索——各自提供独特优势,引发一个关键问题:它们之间的关系是什么,能否统一?我们从两个角度探讨这个问题。首先,我们从行动空间的角度分析这两种搜索的相关性,重点关注不同元操作符的角色。
然而,两种策略在评估机制上有显著差异。显式树搜索通常需要学习过程奖励模型或价值模型来评估推理质量,由于这些模型泛化能力差而引入高偏差。相比之下,试错搜索依靠大语言模型的内在自我评估能力来评估推理状态。
关于后处理,我们以纠正为例进行分析。树搜索通常缺乏直接纠正操作,尽管分支间切换可被视为一种形式上的错误纠正。然而,这种纠正无法利用先前尝试的内容,因为它们仅是在先前扩展阶段预先采样的,不同尝试彼此独立。例如,在蒙特卡洛树搜索的扩展阶段,同时采样多个子候选行动。在随后的选择阶段,当前状态中选择的行动可能与前一模拟中的不同,这可视为一种纠正。然而,此次模拟中选择的新行动并非基于前一模拟中所选行动的评估反馈生成;相反,两种行动都是在扩展阶段独立采样的。
因此,与试错搜索相比,当前树搜索方法的主要限制主要在于其受限的行动空间。如果扩展树搜索的行动空间以纳入评估和纠正等行动,理论上它也可以促进长思维链的探索[Lin 等,2025]。
从推理能力进化的角度看,长思维链是解决新问题的有效方法,而短思维链代表通过对长思维链的持续训练实现的最终目标。具体而言,人类在面对复杂任务时,通常先通过试错探索,最终归纳出高效的求解路径。可以学习这些有效途径以减少不必要的试错,从而缩短长思维链。因此,长思维链可视为处理复杂任务的初始和中间解决方案。一旦解决任务,从长思维链提炼的知识可用于学习短思维链,而短思维链又作为先验知识,在处理更复杂任务时减少长思维链的试错迭代。总之,强大的推理系统应具备动态切换长思维链与短思维链的能力,以实现探索性与高效性的自适应平衡。
在收集高质量推理数据后,下一步是提升系统中各模型能力,为后续数据优化打下基础。由于任务创建器研究较少,本文聚焦于推理器、评估器和后处理器的训练方法,并从强化学习视角总结现有工作,涵盖行为克隆(Behavior Cloning)、偏好优化(Preference Optimization)和强化学习(Reinforcement Learning)。
奖励建模(Rewarding):收集偏好数据训练奖励模型 rθ。早期方法通过人工标注同一提示下的多个响应,并按质量排序以表示人类偏好关系
策略优化(Policy Optimization):将大语言模型微调为策略模型 πref ,目标是最大化其所获奖励。过程包括生成内容、通过奖励模型评分,并使用 PPO [Schulman 等,2017] 进行优化:
尽管 RLHF 最初用于对齐任务,该框架也可用于优化推理能力。通过构建基于推理正确性的偏好数据,可引导模型偏向生成正确推理路径乐竟体育官网入口,抑制错误路径,从而提升推理表现。
尽管 RLHF 使用 PPO 进行优化,但在实际应用中,经典 RLHF 通常被视为一种赌博机(bandit)方法,即将整句话视为一个整体动作 [Zhong 等,2024]。这是因为 RLHF 仅依赖结果级奖励,缺乏细粒度的优化信号。
相较于密集奖励,稀疏奖励会显著增加学习难度 [Andrychowicz 等,2017],在复杂推理任务中尤为明显。例如,在多步推理中,解答失败并不意味着每一步都出错,可能前几步是正确的,仅后续步骤有误。而仅使用结果奖励,会在训练中抑制那些正确的中间推理。为充分发挥强化学习潜力,需引入步骤级甚至词元级奖励作为更细粒度的优化信号。要实现这一点,需要重新审视 PPO 算法的设计。
PPO [Schulman 等,2017] 是一种经典的 on-policy 算法,在多个领域表现出良好的稳定性与效果。其通用训练目标为:
其中 y 表示策略模型生成的文本, y 表示其字符数。优势函数定义为 At = Q(st, yt) - V(st) 是优势函数,即将动作值函数 Q(st, yt) 归一化至状态值基线 V(st) ,以降低方差、提高学习稳定性。实际训练中常用广义优势估计势函数(Generalized Advantage Estimation, GAE)形式,以平衡偏差与方差:
其中 γ 是折扣因子,λ 是位于区间 [0, 1]的超参数。当 γ = 0 时,
尽管 PPO 在 RLHF 中表现良好,但其对训练资源的高要求限制了其在推理优化中的应用。完整 PPO 框架包含四个模块:策略模型(policy model)、参考模型(reference model)、价值模型(value model)和奖励模型(reward model)。后两者的初始化更进一步增加了训练复杂度,并影响策略模型稳定性。为简化 PPO 框架,已有研究提出多种改进方法,如跳过对价值模型 [Shao 等,2024] 或奖励模型 [Rafailov 等,2023] 的显式建模与训练。下面将介绍若干代表性工作,展示如何简化 PPO 训练流程以支持更高效的推理优化。
为降低训练资源开销,近期研究重新审视了 REINFORCE [Sutton 等,1999] 在大语言模型优化中的潜力 [Li 等,2023d;Ahmadian 等,2024]。REINFORCE 是一种经典的策略梯度算法,其传统优化目标为:
然而,REINFORCE存在高方差问题,尤其体现在 R(st,at) 上,导致训练过程不稳定。为降低方差,常通过替换为动作值函数 Q(st,at) 或优势函数 A(st,at)(如 PPO 所采用),或引入基线项实现修正:
基线 b(st) 有多种实现方式。为避免额外训练价值模型,ReMax [Li 等,2023d] 采用概率最高动作的奖励作为基线:
在仅有结果级奖励的 Bandit 场景中,Ahmadian 等 [2024] 发现 RLOO 优于 PPO。其原因可能在于,经过大规模预训练与微调的大语言模型本身就是强初始化策略,采样轨迹的句子级方差较小。同时,RLOO 通过采样估计价值函数,减少了方差,并避免了显式学习价值函数所带来的偏差。
然而,这一优势主要体现在 bandit 设置中。对于多跳推理等需步骤级或词元级密集奖励的任务,RLOO 可能因方差过大而表现不佳。虽然 REINFORCE 简化了结构并降低成本,但其稳定性仍受限于奖励信号的稀疏程度。
表 2:五种强化学习算法对比:PPO、RLOO、GRPO、DPO、PRIME (VM:价值模型;RM:奖励模型;RefM:参考模型)
在具备步骤级或词元级奖励的场景下,PPO 是微调策略模型的理想选择,因其通过优势函数与裁剪操作保障训练稳定性。但如公式(5)所示,计算优势函数
需同时依赖奖励模型与价值模型 V(st) 。通常,价值模型规模与推理器相当,训练困难、易不稳定,且大幅增加资源负担。
为此,Shao 等 [2024] 提出 GRPO,利用蒙特卡洛(MC)采样替代价值模型,对 PPO 进行改造。具体而言,对每个任务 q,GRPO 同时采样 G 个完整解 y1, y2,…,yG,根据奖励函数对每个解给予奖励。
无论使用哪种模型,GRPO都将组内奖励标准化,以平均值替代价值模型作为基线,从而在训练中抑制低质量行为,强化高质量行为。
是上一轮的参考模型。此外,为提高稳定性,GRPO 在 PPO 基础上加入 KL 散度项,但采用 Schulman [2020] 提出的无偏估计方法:
总结,GRPO 通过 MC 采样估算优势函数,无需引入价值模型,简化了训练架构,仅需策略模型、参考模型和奖励模型。它继承了 PPO 的稳定性,同时利用 LLM 的强先验性弱化了方差问题。MC 采样带来无偏估计,组内标准化强化高质量轨迹,显著提升训练稳定性。GRPO 已在多个类 O1 的开源项目中成功应用,如 [Shao 等,2024;Yang 等,2024a;Wang 等,2024e;DeepSeek-AI 等,2025]。
RLHF 需显式建模并预训练奖励模型,增加了计算资源消耗与训练复杂度。为此,DPO 首先指出了等式(3)的闭式解:
该结论说明,最优策略模型 π*(yx) 与奖励模型 r( x, y) 紧密耦合。即设定奖励模型即可对应一个最优策略,最大化其隐含的最优轨迹概率。DPO 将等式(14)变换为:
这意味着,奖励函数 r( x, y) 可由策略模型 π(yx) 表达。因此,Rafailov 等 [2023] 提出:与其先训练奖励模型 r( x, y) 再优化策略 π(yx),不如直接优化策略模型 π(yx) 来的高效。在 RLHF 中,奖励模型训练通常基于 Bradley-Terry 偏好建模:
将等式(15)代入等式(16)后,DPO 可直接将该目标转化为策略学习目标:
虽然 DPO 省去了奖励模型建模,简化 RLHF,降低了 LLM 优化门槛。但后续研究也揭示了若干问题:
优化粒度粗糙 原始 DPO 只在响应级别优化偏好,难以精细区分复杂推理中的正确与错误步骤,容易将部分正确的响应也标记为负例。为此,后续提出了 step-DPO、token-DPO 等细粒度方法(详见 §4.2.2)。
数据分布偏移:DPO 通常在离线场景训练,先使用参考模型 πref 收集一批固定的偏好数据集,再用 DPO 训练策略模型 πΦ 。该方法虽具有较高的训练效率,但完全依赖静态离线数据可能限制模型的持续学习能力 [Chen 等,2024a]。为缓解此问题,有研究将 DPO 拓展到在线学习框架。具体做法是:每轮先收集一批偏好数据,使用 DPO 训练策略模型,然后将新训练得到的模型 πΦ 替换为下一轮数据收集的参考模型 πref,实现策略的持续迭代优化。
正样本被抑制 DPO 在训练中不仅会降低负样本概率,也可能误伤正样本,尤其当正负差异不显著时。为解决该问题,研究者引入正则化项以强化对正负样本质量差异的建模 [Azar 等,2023;Le 等,2024]。
奖励信号利用不足 DPO 未对偏好程度进行显式建模,在奖励数值可用的情况下,仅通过比较奖励高低构造偏好对,而未直接利用奖励信号本身,导致信息利用不足。同时,对偏好对数据的依赖也提高了训练数据的构造成本。为解决这一问题,OREO [Wang 等,2024b] 提出一种全新的离线强化学习算法,仅依赖奖励信号进行优化,完全无需偏好对数据。
尽管 DPO 简化了训练流程,但其泛化能力仍不如 PPO [Li 等,2023c],甚至某些任务中不如直接 SFT [Yuan 等,2024b;Chen 等,2024d]。因此,多项扩展方法被提出:
fDPO:引入散度约束,增强偏好表达能力与鲁棒性 [Wang 等,2023a]
GPO:用凸函数族参数化损失函数,统一偏好学习框架 [Tang 等,2024]
ORPO:去除参考模型,仅使用偏好信息优化策略,进一步简化流程 [Hong 等,2024]
Rafailov 等[2024]认为,DPO 所训练的策略模型实质上充当了一个词元级奖励函数,其中每个词元的奖励正是由该公式定义的隐式奖励。这一机制的有效性已在多项工作中得到验证 [Zhong 等,2024;Chen 等,2024a]。
,则所得的 ORM 可直接用于计算词元级奖励。换句话说,按此格式训练出的 ORM 本质上也可作为过程奖励模型(PRM)使用。具体而言,PRIME [Cui 等,2025] 包含四个核心组件:策略模型 πΦ、结果奖励验证器 ro、过程奖励模型 πθ 及其对应的参考模型 πref。在生成响应 y 后,PRIME首先获取结果级奖励 ro(y) ,并通过交叉熵损失训练 rθ(y):
其中 rθ(y) 被优化以逼近真实的结果奖励。该训练过程中,过程奖励模型 πθ 也同步更新,并可用于为每个词元 yt 提供词元级奖励:
这正是隐式奖励的计算形式。基于训练好的 πθ,PRIME 可为策略模型 πΦ 提供精细的词元级奖励,从而与如 RLOO 等多种强化学习算法无缝对接(如原论文所示)。
PRIME 的核心思想是将整体结果奖励分解到每个词元,借助大规模采样过程学习词元级奖励。对最终结果贡献较大的词元将获得更高奖励。该方法无需人工标注,可同时训练策略模型与奖励模型,既避免了奖励欺骗问题,也提升了奖励模型的泛化能力。
在收集推理过程数据后,最直接的优化方式是行为克隆(Behavior Cloning, BC),即监督微调(Supervised Fine-Tuning, SFT)。然而,从理论上讲,BC只能在正确的数据上进行。Yuan 等[2023a]和 Tong 等[2024]提出了拒绝微调(Rejection Fine-Tuning),通过答案标签过滤错误的推理轨迹,仅在正确轨迹上进行微调。尽管这种方法能保证训练数据的质量,但会造成大量数据浪费。
为提升正确样本的数量,Zelikman 等[2022]提出在错误解的基础上引入“合理化(Rationalization)”步骤来重生成推理过程。Zhang 等[2023a]提出HIR(Hindsight Instruction Relabeling),通过重标指令使错误解可用,例如将“生成正确答案”改为“生成错误答案”,从而无需引入额外参数即可复用失败样本。同时,Zhang 等[2024c]和 Wang 等[2024k]使用蒙特卡洛树搜索(MCTS)提高发现正确轨迹的效率。Chen 等[2024e]则通过构造逆向问题并对其进行SFT,使模型具备逆向推理能力。
尽管上述方法提升了有效样本比例,或通过修改指令利用错误数据,但在最大化数据利用率与挖掘负样本方面仍存在局限。
偏好优化(Preference Optimization)是提升大语言模型推理能力的主流方法。其核心思想是:提升高质量思维链(CoT)的概率,同时压低劣质思维链的概率,从而增强目标模型的推理能力。
早期方法如 RRHF [Yuan 等,2023b] 从排序角度进行偏好学习。该方法使用奖励模型对不同来源采样的响应
其他偏好优化算法,以 DPO [Rafailov 等,2023] 为代表的偏好优化方法进一步简化了 RLHF 流程,突破了 SFT 的限制,并因其实现简便而广泛应用于各类任务。
下文将按偏好数据粒度,将现有研究划分为解决方案级(solution-level)、步骤级(step-level)和词元级(token-level)优化三类:
该层级偏好数据最易获取,因而早期研究多集中于此。Pang 等[2024]与 Jiang 等[2024a]基于答案标签将解划分为“正确”与“错误”组,构造偏好对进行优化。在答案标签缺失的自我进化场景中,可借助 LLM-as-a-Judge [Gu 等,2024] 或预训练奖励模型 [Yu 等,2024a; Ouyang 等,2022]生成偏好数据。例如,Yuan 等[2024d]利用模型自评能力对其生成的解打分。但自评能力有限,奖励函数泛化性弱,导致评估易受噪声干扰。Wang 等[2024c]提出“基于不确定性的偏好优化”框架,使用贝叶斯神经网络量化每个偏好对的不确定性,并将其融入 DPO 训练,提升鲁棒性。
相较于粗粒度的解级优化,步骤级偏好优化可更精准地引导模型学习。例如,在一条错误解中,前半部分推理正确,仅后续出错。如果直接按解级优化,可能会误伤前面正确的部分。为解决这一问题,研究人员探索了步骤级偏好优化。相关工作可分为两类:主动构建和树搜索。
主动构建方法(active construction approach)的核心思想是:在具有相同前缀的推理轨迹中,有针对性地采样正确或错误的子轨迹。Hwang 等人 [2024] 首先使用蒙特卡洛采样定位缺陷轨迹 y- 中的首个错误步骤。从该步骤起,将每个步骤与其前置上下文拼接,并对其进行多轮采样。若某一步骤生成的所有推理过程均失败,则将该步骤判定为错误。接着,以此前的步骤为上下文,构造出一条新的正确轨迹 y+ 。由 y+ 和 y- 构成的偏好对具有相同前缀,可用于训练。随后,采用如 DPO 等偏好对齐算法对模型进行优化,使其聚焦于改进决定正误的轨迹后缀。Lai 等人 [2024] 提出类似策略,使用 GPT-4 检测错误步骤,并结合 DPO 实现步骤级偏好优化(Step-DPO)。相比之下,Lu 等人 [2024c] 从一条正确轨迹出发,通过调高采样温度诱导生成错误的后续步骤,从而构建失败轨迹。类似方法,利用GPT-4作为监视器检测不正确步骤,随后应用DPO进行步骤级偏好优化,称为Step-DPO。相比之下,Lu 等[2024c]采用不同策略:从正确轨迹开始,通过设置高温度生成不正确的后续步骤,诱导失败后缀。
树搜索方法(Tree search-based methods)则直接从搜索树中提取偏好对。Zhang 等人 [2024h] 使用思维树(Tree-of-Thought, ToT)[Yao 等,2023]进行搜索,并在过程中通过自我评估对节点进行打分。一旦找到正确的推理路径,即可基于该路径上的节点构造偏好对。在广度优先搜索中,若某节点在从正确路径延展时被剪枝,则其对应步骤可视为负例,与正确路径节点构成偏好对。相较 ToT,许多工作更偏好使用 MCTS 进行搜索,因其能更好地平衡探索与利用。Xie 等人 [2024] 和 Chen 等人 [2024c] 便在 MCTS 基础上构造偏好对。前者选择同一层级中 Q 值最高与最低的节点组成偏好对;后者则从同一父节点的子节点中选取 Q 值差异较大的节点对,作为优化目标。
近期研究开始探索词元级偏好优化,以支持更细粒度的推理能力提升。该方法的核心挑战在于获取词元级偏好对。Rafailov 等人 [2024] 与 Zhong 等人 [2024] 指出,通过直接偏好优化(DPO)训练的策略模型可以隐式学习词元级奖励信号,形式为“隐式奖励”:
这一发现为构建词元级 DPO 算法提供了理论基础。Yang 等人 [2024b] 在此基础上进一步对隐式奖励进行了改进,以提升优化效果。
作为补充方法,Lin 等人 [2024] 提出 cDPO 算法,从另一个视角标注词元级重要性。其方法是在正确与错误解上分别微调两个语言模型,并计算两者在每个词元上的概率差异,从而估计该词元在错误推理中所承担的责任。对于差异分数较低的词元 st ,意味着其对推理失败影响更大,可据此对关键词元进行加权优化。
尽管基于 DPO 的方法因实现简单而得到广泛应用,但其在推理增强方面仍存在局限,如 4.1.5 节所述。值得关注的是,O1 博客 [OpenAI, 2024b] 与 R1 报告 [DeepSeek-AI 等,2025] 均强调:若要实现复杂推理能力的显著跃升,最终仍可能需要引入在线强化学习技术,凸显更高级优化框架的重要性。
对于数学推理等任务,其环境动态具有确定性,因为推理过程中并不涉及对外部环境的感知或交互。每执行一个动作(如生成一个词元或推理步骤),模型的推理状态便会自动更新,例如通过将新生成的词元追加至已有上下文中形成新的推理状态。随着大语言模型推理效率的提升,从模型中采样生成完整推理路径已变得高效且低成本。因此,在此类任务中,通常无需构建环境模型,仅依赖无模型(model-free)在线强化学习算法即可实现有效优化。
“无模型”是指不对环境进行显式建模,而是通过策略直接与环境交互来学习;“在线”则意味着训练数据来源于当前策略与环境的实时交互,而非依赖固定的历史数据集(即“离线”学习)。在线与离线学习方式的差异,会显著影响强化学习过程中的数据分布偏移问题。
在大语言模型(LLM)训练中,常用的在线强化学习方法包括REINFORCE [Sutton 等,1999]、PPO [Schulman 等,2017]和GRPO [Shao 等,2024]。Li 等[2023d]和Ahmadian 等[2024]发现,在没有结果奖励模型(ORM)和价值模型的情况下,直接应用REINFORCE取得了良好效果。Ylfeng 等[2024]受人类反馈强化学习(RLHF)的启发,使用PPO在解决方案层面提升了LLM的推理能力。Zhang 等[2024j]学习了过程奖励模型(PRM),并在步骤层面利用其指导PPO训练。Zhong 等[2024]利用直接偏好优化(DPO)的隐式奖励,在词元层面进一步指导PPO训练。诸如deepseek-math [Shao 等,2024]、qwen-math [Yang 等,2024a]和OpenR [Wang 。