About • Justin Huang

Coding Agents · AI Infra · AI-native Builder

我是黄振庭，也可以叫我 Justin。目前在北航读计算机方向的研究生。我最近主要在做 Coding Agent、LLM 后训练和长程任务评测相关的事情。

过去一段时间，我在深势科技参与过一些 Agent 和 AI Infra 产品的建设：从 Agent runtime、MCP tool、sandbox，到 OpenAPI gateway、memory service、 prompt evaluation 和线上可观测性。那些经历让我对 Agent 有了一个很具体的理解：它不只是一次模型调用，而是一整套需要被运行、记录、恢复、评测和持续改进的系统。

Now

我现在更想把工程里见过的问题，转化成研究问题。比如：长程 Coding Agent 的训练数据应该怎么合成？一个 terminal 任务怎样才算真实？ Verifier 应该验证什么？SFT 和 RL 的数据质量到底影响了什么？一个 Agent 在很长的轨迹里失败时，我们应该怎样定位原因？

这些问题很吸引我，因为它们同时需要算法、系统和工程直觉。只从 paper 里看会觉得抽象，只从工程里看又容易变成修补具体 bug。我希望自己能在这两者之间多走几步。

Systems

我很喜欢理解系统是怎么真正跑起来的。很多设计在 demo 阶段看起来都很顺，但一旦进入多用户、长链路、异步工具调用、计费、限流和线上日志，就会暴露出完全不同的问题。

Agent Runtime
我关心任务状态、工具调用、异步执行、失败恢复和 trace。Agent 跑起来以后，最重要的是系统能不能接住它的中间状态。
MCP Tool / Sandbox
工具不是把 API 包一层就结束了。真正给 Agent 用的工具，需要考虑输出协议、执行环境、权限边界、可复现性和失败可诊断性。
OpenAPI Gateway
我做过面向内部 Agent 产品的网关层能力，包括鉴权、计费、限流、工具路由、日志、trace、fallback 和 prompt regression。
Memory Service
我也做过多租户 memory service 的一些尝试。Memory 不只是向量库检索，还涉及写入、更新、冲突、权限、回收和业务适配。

Research

研究上，我目前最关注 Coding Agent 和 LLM post-training。我会重点看 Terminal-Bench、SWE-bench、agentic SFT/RL、数据合成、Verifier、长程 credit assignment 这些方向。

我也做过一些偏可解释性的工作，例如围绕 TopK Sparse Autoencoder 的 feature sensitivity。这部分经历让我开始思考一个更长远的问题：可解释性工具能不能真正帮助我们理解长程 Agent 的失败？现在这个问题还没有答案，但我会继续沿着这个方向看。

Writing

我希望这个博客能记录一些真实的学习和工程过程，而不只是整理漂亮的结论。我会写论文阅读、工程复盘、debug 经验、算法学习，也会写一些还没有完全想清楚的问题。

有些文章可能会比较完整，有些可能只是阶段性笔记。但我希望它们都能回答一个问题：这个东西为什么重要，我当时是怎么理解它的，后来又是怎么被真实问题修正的。

A note to myself

我希望自己不要只积累经历，而是能逐渐形成清楚的主线：做能被真实使用的 AI-native 系统，也做能经得起评测和复现的研究。

This Site

这个网站会放我的博客、项目、论文和外部资料收藏。 Blog 主要写我自己的文章；Projects 记录我做过的项目；Curated 会放我觉得值得反复看的论文、博客和开源项目。

我很喜欢这个主题的 terminal 风格，对我来说，这个网站不只是简历页，更像一个长期整理自己的地方。多回头看看...

Framework & Theme: Astro + Astro Theme Pure