Justin Huang

Back

XRAG

static page

面向高级 RAG 系统的模块化评测框架,关注组件级对比、统一评价和检索-生成链路中的失效诊断。

accepted 2026 ICDE 2026 contributor
#rag#evaluation#benchmark#retrieval#generation#icde

Overview#

XRAG 是一个面向高级 RAG 系统的模块化评测框架,关注 RAG 系统中不同组件的作用、组合和失效模式。

这篇工作已被 ICDE 2026 接收。

Why it matters#

RAG 系统看起来是一条简单链路:检索,再生成。但真正做系统时,影响结果的组件很多:

  • query rewriting;
  • retriever;
  • reranker;
  • chunking;
  • context selection;
  • generator;
  • evaluation metric;
  • failure diagnosis。

如果只看最终回答,很难知道问题来自检索、排序、上下文拼接,还是生成模型本身。

What XRAG tries to do#

XRAG 更关注组件级的评测和诊断:

  • 统一比较不同 RAG 组件;
  • 分析检索和生成阶段的失效;
  • 支持模块化替换;
  • 为 advanced RAG pipeline 提供更可控的 benchmark。

My relation to this work#

XRAG 是我参与过的重要论文工作,但它不是我现在最核心的研究身份。我会把它作为 publication 展示,同时也会把从中学到的评测思想迁移到 Agent evaluation 上。

对我来说,XRAG 最大的启发是:复杂 AI 系统不能只看最终输出,还需要拆解组件、定位失效,并让评测结果能反过来指导系统改造。

What I learned#

这个工作让我更重视 evaluation 的结构化设计。

后面我看 Coding Agent、Terminal-Bench 和 Verifier 时,也会带着类似问题:如果一个 Agent 最终失败了,我们能否知道它到底失败在理解任务、检索信息、调用工具、执行环境、还是验证器定义?