Justin Huang

Back

Coding Agent / Terminal-Bench

static page

长程 Coding Agent、terminal 环境、数据合成、Verifier、SFT/RL 数据质量和 credit assignment。

Current Focus 2026 in-progress
#coding-agent#terminal-bench#llm-post-training#data-synthesis#verifier#reinforcement-learning

Why I care#

我最近主要投入 Coding Agent 和 Terminal-Bench 相关方向。相比普通代码生成,我更关心一个 Agent 在真实 terminal 环境里完成长程任务的能力:它要读文件、改代码、跑测试、看日志、定位错误、修复失败,再不断迭代。

这类任务的难点不只是“模型会不会写代码”。很多时候,真正决定训练和评测质量的是环境、任务、Verifier 和数据轨迹。

What I am working on#

我现在重点关注几件事:

  • 大规模 coding task 的数据合成;
  • skill-based task synthesis;
  • sandbox 级别的真实环境构造;
  • Verifier 设计和可执行验证;
  • resolve rate 作为评测信号;
  • SFT / RL 数据质量;
  • 长程任务里的 credit assignment;
  • terminal 场景下 agentic behavior 的训练和诊断。

My current questions#

我现在最关心的问题包括:

  1. 什么样的任务才算真实的长程 Coding Agent 任务?
  2. 数据合成如何避免只生成“看起来像任务”的 toy examples?
  3. Verifier 应该验证最终答案,还是验证执行轨迹中的关键状态?
  4. SFT 数据应该强调 expert trajectory,还是强调错误恢复过程?
  5. RL 里长程 credit assignment 应该如何处理中间步骤的贡献?
  6. 当 Agent 失败时,是模型能力问题、工具问题、环境问题,还是 reward / verifier 问题?

这些问题都还没有完全想清楚,需要实践出真知🤔

Notes#

我会把这个方向拆成一组博客来写:

  • Terminal-Bench 2:长程 Coding Agent 的核心不是多跑几轮;
  • Verifier 不是评测脚本;
  • Skill-based Data Synthesis for Coding Agents;
  • SFT / OPD / RL:Coding Agent 后训练的数据质量问题;
  • 长程任务里的 credit assignment 为什么难。