Justin Huang

Back

LLM Post-training Notes

static page

系统整理 SFT、distillation、OPD、RL 以及它们在 agentic tasks 里的适配问题。

Current Focus 2026 in-progress
#llm-post-training#sft#distillation#opd#reinforcement-learning#coding-agent

Why I keep these notes#

我最近在系统补 LLM post-training。对我来说,这不是为了把 SFT、DPO、RLHF、RLAIF、distillation、OPD 这些词背熟,而是为了理解它们在 Agent 场景里到底能解决什么问题。

Coding Agent 和传统 chat model 的后训练不完全一样。Agent 的输出不是单轮回答,而是一个长程过程:规划、调用工具、执行、观察结果、修复错误、再次执行。数据质量、环境反馈和奖励设计都会直接影响模型学到什么。

Current focus#

我现在主要整理:

  • SFT 数据到底应该如何构造;
  • distillation 在 coding / terminal agent 中能蒸馏什么;
  • OPD / on-policy distillation 类方法和 agentic rollout 的关系;
  • RL 在长程任务里的 reward design;
  • Verifier 如何作为可执行奖励信号;
  • 失败轨迹是否应该进入训练数据;
  • 多轮工具调用和 long-horizon credit assignment。

What I want to understand#

我希望最后能形成一个自己的判断框架:

  1. 什么任务适合 SFT?
  2. 什么任务适合 distillation?
  3. 什么任务必须靠环境反馈和 RL?
  4. 什么样的数据会让 Agent 学会“修 bug”,而不是只学会“输出像答案的文本”?
  5. 对 Coding Agent 来说,测试通过率、resolve rate、轨迹质量之间是什么关系?

Future writing#

这个项目目前更像一个持续增长的研究笔记。后续我会把它整理成一组文章,尽量用第一性原理解释每类 post-training 方法在 Agent 场景中的位置。