XRAG • Justin Huang

面向高级 RAG 系统的模块化评测框架，关注组件级对比、统一评价和检索-生成链路中的失效诊断。

accepted 2026 ICDE 2026 contributor

#rag#evaluation#benchmark#retrieval#generation#icde

Overview#

XRAG 是一个面向高级 RAG 系统的模块化评测框架，关注 RAG 系统中不同组件的作用、组合和失效模式。

这篇工作已被 ICDE 2026 接收。

RAG 系统看起来是一条简单链路：检索，再生成。但真正做系统时，影响结果的组件很多：

如果只看最终回答，很难知道问题来自检索、排序、上下文拼接，还是生成模型本身。

XRAG 更关注组件级的评测和诊断：

XRAG 是我参与过的重要论文工作，但它不是我现在最核心的研究身份。我会把它作为 publication 展示，同时也会把从中学到的评测思想迁移到 Agent evaluation 上。

对我来说，XRAG 最大的启发是：复杂 AI 系统不能只看最终输出，还需要拆解组件、定位失效，并让评测结果能反过来指导系统改造。

这个工作让我更重视 evaluation 的结构化设计。

后面我看 Coding Agent、Terminal-Bench 和 Verifier 时，也会带着类似问题：如果一个 Agent 最终失败了，我们能否知道它到底失败在理解任务、检索信息、调用工具、执行环境、还是验证器定义？