LLM Post-training Notes • Justin Huang

系统整理 SFT、distillation、OPD、RL 以及它们在 agentic tasks 里的适配问题。

Current Focus 2026 in-progress

#llm-post-training#sft#distillation#opd#reinforcement-learning#coding-agent

Why I keep these notes#

我最近在系统补 LLM post-training。对我来说，这不是为了把 SFT、DPO、RLHF、RLAIF、distillation、OPD 这些词背熟，而是为了理解它们在 Agent 场景里到底能解决什么问题。

Coding Agent 和传统 chat model 的后训练不完全一样。Agent 的输出不是单轮回答，而是一个长程过程：规划、调用工具、执行、观察结果、修复错误、再次执行。数据质量、环境反馈和奖励设计都会直接影响模型学到什么。

我现在主要整理：

我希望最后能形成一个自己的判断框架：

这个项目目前更像一个持续增长的研究笔记。后续我会把它整理成一组文章，尽量用第一性原理解释每类 post-training 方法在 Agent 场景中的位置。