您说:

这是 deepseek R1 推理模型的训练流程图。请详细深入解读。

howie你好,这张图其实完整展示了 DeepSeek R1 模型(他们称为“推理模型”)从最初基座到最终成型的多阶段训练与数据构建流程。我觉得它相当复杂,但也能看出他们在构建推理能力上非常注重多轮迭代与精调。下面我会分几个部分,结合图中节点与箭头顺序来深入解读。

1. 基础模型与初始数据

  • DeepSeek-V3 Base (67B/37B Activated)
    这是整个流程的起点:一个大规模预训练模型,拥有 67B 或 37B 参数。这一步并不是空白的模型,它已经在通用数据上做过训练,只是尚未进行更深入的推理、对话、格式化等方面的强化。
  • Cold Start Long CoT Data(~k samples)
    这里的“Cold Start”通常指他们在还未针对“推理链路(Chain of Thought, CoT)”进行太多微调的情况下,先收集到的一个比较小规模(文中写“~k”,可能是几千到几万)的长推理链路示例数据。
  • Supervised Fine-Tuning (SFT)
    将 DeepSeek-V3 Base 与“Cold Start Long CoT Data”放在一起,通过监督微调(SFT)进行第一轮训练。这样做能让模型学到:在回答较复杂问题时,如何在回答中显式或隐式呈现中间推理步骤、如何形成有条理的思路等。

在此阶段之后得到的模型,可能会在图中所示的“Reasoning Oriented RL (GRPRO) + CoT Language Consistency Reward”那一块继续加强。

2. 推理取向的强化学习(Reasoning Oriented RL)

  • GRPRO(Rule-based Reward:Accuracy, Formatting)
    这是一个基于规则的奖励机制(可能会内置一些判断回答正确性、格式合规性的规则脚本),通过策略梯度或类似RLHF(人类反馈强化学习)的方式来提升模型的回答质量和推理逻辑。
  • CoT Language Consistency Reward
    这部分进一步给模型加“语言一致性”的奖励。例如保证回答的“思路连贯、上下文一致、推理有逻辑闭环”等,也可能是奖惩模型的思维链是否清晰通顺,以及最终答案是否和推理过程匹配。

最终,这一系列(SFT + RORL)训练使得模型进化成:
DeepSeek-V3 Base + CS SFT + RORL
这时我们可以认为模型在推理与回答格式上,已经比原始 DeepSeek-V3 Base 强很多。

3. 构造大规模推理数据

  • Reasoning Prompts + Rejection Sampling (Rule-based & DS-V3 as judge)
    他们用一系列“推理型提示 + 拒绝采样”机制(即同时生成多条回答,结合规则以及现有模型DS-V3对回答进行打分、过滤),来构建“Reasoning Data (600k samples)”。
    • “Reasoning Prompts”大概是各种引导模型进行深度思考、分步推理的问题/场景;
    • “Rejection Sampling”则意味着自动或半自动地丢弃糟糕或错误回答,最终得到的都是相对优质的“推理样例”。
  • DeepSeek-V3 SFT Data
    这可能是之前监督微调阶段累积下来的数据集,也就是普通回答+一些推理标注的全集。
  • Non-Reasoning Data (200k samples)
    这部分是非推理类的数据,也许是一些简要问答、短回答、提要式文档翻译等,并不需要复杂的思维链。

接着他们将Reasoning Data(600k)Non-Reasoning Data(200k) 以及中间的其他数据源一起合并,形成Combined SFT Data(800k samples)。这是一个规模更大的、既包含推理场景也包含普通对话场景的混合训练集。

4. 综合SFT及RL后的主干模型产出

  • SFT 2 epochs (800k samples)
    这一步是对上述 80 万条多样化数据进行进一步的监督微调。因为有了 80 万规模的数据量,模型会更“通才”,不仅会做复杂推理,也能应付一般性对话。
  • DeepSeek-R1
    经过这次大规模SFT之后,得到的模型称作“DeepSeek-R1”。此时的 R1 相当于一次大融合:整合了推理、知识、对话等多方面能力。
  • RL (Reasoning + Preference Reward, Diverse Training Prompts)
    图里又提到在 SFT 2 epochs 后,还要用 RL 的方式,对“推理”和“用户偏好”进行强化。这和常见的 RLHF 思路类似:用多样的训练提示,引入人类或规则的偏好反馈,来对 R1 进行最后一步打磨和提升。这就形成了最终的“DeepSeek-R1”。

5. 蒸馏分支(Distillation)

在图的底部,有一个单独的“Distillation”区域,用来说明他们如何将R1的能力提炼到更小或不同架构的模型中。这里列出了:

  • Qwen2.5-Math 系列 (1.5B, 7B, 14B, 32B)
  • Llama 系列 (3.3-70B-Instruct, 3.1-8B)

他们将“Reasoning Data(600k samples)”等数据结合起来,也进行2 epochs、同样约 80 万样本的SFT,然后产生了一系列“DeepSeek-R1-Distill-{Qwen/Llama}-{*B}”。
这意味着在保留 DeepSeek-R1 的推理能力核心的同时,把它“蒸馏”到更小参数规模(或者换另一种架构)。这样既能在推理效果上接近R1,又能显著降低推理计算量和部署门槛。

6. DeepSeek-R1-Zero

图左下角还标注了DeepSeek-R1-Zero,似乎与主干流程分离。看上去它可能是一个更早期或轻量级版本,或者是一个不带附加微调和RL的 baseline,用于对比试验或做快速推理测试之用。由于它没有更多线索,推测只是一个在大流程外的衍生/对照模型。

总体看法

从这张图可以看出,DeepSeek R1 的整体训练逻辑就是:

  1. 从大型预训练模型出发;
  2. 针对推理链(CoT)进行冷启动微调;
  3. 逐步加入“基于规则+模型自检”的拒绝采样机制,打造大规模推理数据;
  4. 和非推理数据融合做大规模SFT;
  5. 再通过 RL(可能是类似RLHF)的方式进行推理及偏好优化;
  6. 最终形成一个集“推理能力、对话能力”于一身的 DeepSeek-R1;
  7. 之后还通过蒸馏把它迁移到多种规模或架构,满足不同场景需求。

就我个人观点,这个训练流程非常“全能型”:能看到他们对高质量推理数据的精细化准备(60万条推理数据 + 20万非推理数据,以及更早阶段的多轮RL),并且让模型在“正确性”“格式化”“思考过程”“用户偏好”多个维度都得到强化。这样的多阶段链路,很可能也是目前大型语言模型的主流做法:先SFT,再RLHF,最后蒸馏。这么一套闭环,对模型泛用性和成本效率都有帮助。

希望这样的解读能帮你更好地理解 DeepSeek R1 推理模型的训练思路和数据管线。如果还有其他疑问,欢迎再探讨。