Coding Agent / Terminal-Bench
static page
长程 Coding Agent、terminal 环境、数据合成、Verifier、SFT/RL 数据质量和 credit assignment。
Current Focus 2026 in-progress
#coding-agent#terminal-bench#llm-post-training#data-synthesis#verifier#reinforcement-learning
Why I care#
我最近主要投入 Coding Agent 和 Terminal-Bench 相关方向。相比普通代码生成,我更关心一个 Agent 在真实 terminal 环境里完成长程任务的能力:它要读文件、改代码、跑测试、看日志、定位错误、修复失败,再不断迭代。
这类任务的难点不只是“模型会不会写代码”。很多时候,真正决定训练和评测质量的是环境、任务、Verifier 和数据轨迹。
What I am working on#
我现在重点关注几件事:
- 大规模 coding task 的数据合成;
- skill-based task synthesis;
- sandbox 级别的真实环境构造;
- Verifier 设计和可执行验证;
- resolve rate 作为评测信号;
- SFT / RL 数据质量;
- 长程任务里的 credit assignment;
- terminal 场景下 agentic behavior 的训练和诊断。
My current questions#
我现在最关心的问题包括:
- 什么样的任务才算真实的长程 Coding Agent 任务?
- 数据合成如何避免只生成“看起来像任务”的 toy examples?
- Verifier 应该验证最终答案,还是验证执行轨迹中的关键状态?
- SFT 数据应该强调 expert trajectory,还是强调错误恢复过程?
- RL 里长程 credit assignment 应该如何处理中间步骤的贡献?
- 当 Agent 失败时,是模型能力问题、工具问题、环境问题,还是 reward / verifier 问题?
这些问题都还没有完全想清楚,需要实践出真知🤔
Notes#
我会把这个方向拆成一组博客来写:
- Terminal-Bench 2:长程 Coding Agent 的核心不是多跑几轮;
- Verifier 不是评测脚本;
- Skill-based Data Synthesis for Coding Agents;
- SFT / OPD / RL:Coding Agent 后训练的数据质量问题;
- 长程任务里的 credit assignment 为什么难。