Justin Huang

Back

About

static post

Coding Agents · AI Infra · AI-native Builder

我是黄振庭,也可以叫我 Justin。目前在北航读计算机方向的研究生。 我最近主要在做 Coding Agent、LLM 后训练和长程任务评测相关的事情。

过去一段时间,我在深势科技参与过一些 Agent 和 AI Infra 产品的建设: 从 Agent runtime、MCP tool、sandbox,到 OpenAPI gateway、memory service、 prompt evaluation 和线上可观测性。那些经历让我对 Agent 有了一个很具体的理解: 它不只是一次模型调用,而是一整套需要被运行、记录、恢复、评测和持续改进的系统。

Now

我现在更想把工程里见过的问题,转化成研究问题。 比如:长程 Coding Agent 的训练数据应该怎么合成?一个 terminal 任务怎样才算真实? Verifier 应该验证什么?SFT 和 RL 的数据质量到底影响了什么? 一个 Agent 在很长的轨迹里失败时,我们应该怎样定位原因?

这些问题很吸引我,因为它们同时需要算法、系统和工程直觉。 只从 paper 里看会觉得抽象,只从工程里看又容易变成修补具体 bug。 我希望自己能在这两者之间多走几步。

Systems

我很喜欢理解系统是怎么真正跑起来的。很多设计在 demo 阶段看起来都很顺, 但一旦进入多用户、长链路、异步工具调用、计费、限流和线上日志,就会暴露出完全不同的问题。

  • Agent Runtime
    我关心任务状态、工具调用、异步执行、失败恢复和 trace。Agent 跑起来以后,最重要的是系统能不能接住它的中间状态。
  • MCP Tool / Sandbox
    工具不是把 API 包一层就结束了。真正给 Agent 用的工具,需要考虑输出协议、执行环境、权限边界、可复现性和失败可诊断性。
  • OpenAPI Gateway
    我做过面向内部 Agent 产品的网关层能力,包括鉴权、计费、限流、工具路由、日志、trace、fallback 和 prompt regression。
  • Memory Service
    我也做过多租户 memory service 的一些尝试。Memory 不只是向量库检索,还涉及写入、更新、冲突、权限、回收和业务适配。

Research

研究上,我目前最关注 Coding Agent 和 LLM post-training。 我会重点看 Terminal-Bench、SWE-bench、agentic SFT/RL、数据合成、Verifier、长程 credit assignment 这些方向。

我也做过一些偏可解释性的工作,例如围绕 TopK Sparse Autoencoder 的 feature sensitivity。 这部分经历让我开始思考一个更长远的问题:可解释性工具能不能真正帮助我们理解长程 Agent 的失败? 现在这个问题还没有答案,但我会继续沿着这个方向看。

Writing

我希望这个博客能记录一些真实的学习和工程过程,而不只是整理漂亮的结论。 我会写论文阅读、工程复盘、debug 经验、算法学习,也会写一些还没有完全想清楚的问题。

有些文章可能会比较完整,有些可能只是阶段性笔记。 但我希望它们都能回答一个问题:这个东西为什么重要,我当时是怎么理解它的, 后来又是怎么被真实问题修正的。

A note to myself

我希望自己不要只积累经历,而是能逐渐形成清楚的主线: 做能被真实使用的 AI-native 系统,也做能经得起评测和复现的研究。

This Site

这个网站会放我的博客、项目、论文和外部资料收藏。 Blog 主要写我自己的文章;Projects 记录我做过的项目;Curated 会放我觉得值得反复看的论文、博客和开源项目。

我很喜欢这个主题的 terminal 风格, 对我来说,这个网站不只是简历页,更像一个长期整理自己的地方。 多回头看看...