LLM Post-training Notes
static page
系统整理 SFT、distillation、OPD、RL 以及它们在 agentic tasks 里的适配问题。
Current Focus 2026 in-progress
#llm-post-training#sft#distillation#opd#reinforcement-learning#coding-agent
Why I keep these notes#
我最近在系统补 LLM post-training。对我来说,这不是为了把 SFT、DPO、RLHF、RLAIF、distillation、OPD 这些词背熟,而是为了理解它们在 Agent 场景里到底能解决什么问题。
Coding Agent 和传统 chat model 的后训练不完全一样。Agent 的输出不是单轮回答,而是一个长程过程:规划、调用工具、执行、观察结果、修复错误、再次执行。数据质量、环境反馈和奖励设计都会直接影响模型学到什么。
Current focus#
我现在主要整理:
- SFT 数据到底应该如何构造;
- distillation 在 coding / terminal agent 中能蒸馏什么;
- OPD / on-policy distillation 类方法和 agentic rollout 的关系;
- RL 在长程任务里的 reward design;
- Verifier 如何作为可执行奖励信号;
- 失败轨迹是否应该进入训练数据;
- 多轮工具调用和 long-horizon credit assignment。
What I want to understand#
我希望最后能形成一个自己的判断框架:
- 什么任务适合 SFT?
- 什么任务适合 distillation?
- 什么任务必须靠环境反馈和 RL?
- 什么样的数据会让 Agent 学会“修 bug”,而不是只学会“输出像答案的文本”?
- 对 Coding Agent 来说,测试通过率、resolve rate、轨迹质量之间是什么关系?
Future writing#
这个项目目前更像一个持续增长的研究笔记。后续我会把它整理成一组文章,尽量用第一性原理解释每类 post-training 方法在 Agent 场景中的位置。