Justin Huang

Back

OpenAPI Gateway for Agent Products

static page

面向内部 Agent 产品的鉴权、计费、限流、工具路由、trace、fallback 和 Prompt 批量评测。

Agent Infra 2025 done
#openapi#gateway#agent-infra#billing#rate-limiting#observability#prompt-evaluation

Context#

OpenAPI Gateway 是面向内部 AI / Agent 产品的一层统一网关。它负责把内部模型服务、工具能力、解析服务和科研工作区能力暴露给上层产品,同时处理权限、额度、计费、限流、日志和观测。

它不是 BohrClaw。BohrClaw 是上层科研 Agent 产品,而 OpenAPI Gateway 是底层基础设施。

What it handled#

我参与和主导过其中一部分网关能力,包括:

  • 鉴权;
  • 产品分层;
  • 计费和后扣费;
  • Redis 滑动窗口限流;
  • Coding Plan 配额;
  • 工具路由;
  • 日志和 trace;
  • 灰度;
  • fallback;
  • Prompt 版本管理;
  • Prompt 批量回归评测;
  • 巡检和告警。

Billing and deadlocks#

一个很真实的问题是高频扣费。

某些解析服务或工具调用需要按量计费。如果每一次请求都实时扣费,在大客户高频调用时,中台数据库事务锁会变成瓶颈,甚至可能出现死锁风险。

后来我们引入更偏账单聚合的方式,把实时高频扣费压力转化为可统计、可审计、可核销的账单流。这件事让我意识到:AI 产品上线以后,系统问题经常不在模型本身,而在计费、限流、日志、事务和链路治理这些地方。

Observability#

Agent 产品链路很长。一个请求可能经过网关、模型服务、工具服务、计费服务、解析服务和业务服务。

如果没有统一 trace,很难知道到底是哪一层慢了、哪一层失败了、哪一层重试了。线上排障时,日志和 trace 不是锦上添花,而是基本生存工具。

Prompt evaluation#

我也参与过轻量级 Prompt 版本管理和批量回归评测能力。

Prompt 改动看起来像“改一句话”,但实际上它会影响真实产品效果。我们希望产品和运营同学在改 Prompt 后,能跑一批固定样例,看线上回答是否变好、是否引入新的失败模式。

这件事让我形成了一个判断:Prompt 也应该被当成工程资产管理,而不是只靠手感迭代。

What I learned#

Agent Gateway 真正难的不是转发请求,而是承接一个 AI 产品上线后会遇到的治理问题:权限、计费、限流、trace、fallback、prompt regression 和用户计划。

这些问题不一定出现在论文里,但会真实决定产品能否长期运行。