Blog Curated Publications Projects About Contact Studio Admin

Back

Coding Agent / Terminal-Bench

static page

长程 Coding Agent、terminal 环境、数据合成、Verifier、SFT/RL 数据质量和 credit assignment。

Current Focus 2026 in-progress

#coding-agent#terminal-bench#llm-post-training#data-synthesis#verifier#reinforcement-learning

Why I care#

我最近主要投入 Coding Agent 和 Terminal-Bench 相关方向。相比普通代码生成，我更关心一个 Agent 在真实 terminal 环境里完成长程任务的能力：它要读文件、改代码、跑测试、看日志、定位错误、修复失败，再不断迭代。

这类任务的难点不只是“模型会不会写代码”。很多时候，真正决定训练和评测质量的是环境、任务、Verifier 和数据轨迹。

What I am working on#

我现在重点关注几件事：

大规模 coding task 的数据合成；
skill-based task synthesis；
sandbox 级别的真实环境构造；
Verifier 设计和可执行验证；
resolve rate 作为评测信号；
SFT / RL 数据质量；
长程任务里的 credit assignment；
terminal 场景下 agentic behavior 的训练和诊断。

My current questions#

我现在最关心的问题包括：

什么样的任务才算真实的长程 Coding Agent 任务？
数据合成如何避免只生成“看起来像任务”的 toy examples？
Verifier 应该验证最终答案，还是验证执行轨迹中的关键状态？
SFT 数据应该强调 expert trajectory，还是强调错误恢复过程？
RL 里长程 credit assignment 应该如何处理中间步骤的贡献？
当 Agent 失败时，是模型能力问题、工具问题、环境问题，还是 reward / verifier 问题？

这些问题都还没有完全想清楚，需要实践出真知🤔

Notes#

我会把这个方向拆成一组博客来写：

Terminal-Bench 2：长程 Coding Agent 的核心不是多跑几轮；
Verifier 不是评测脚本；
Skill-based Data Synthesis for Coding Agents；
SFT / OPD / RL：Coding Agent 后训练的数据质量问题；
长程任务里的 credit assignment 为什么难。