XRAG
static page
面向高级 RAG 系统的模块化评测框架,关注组件级对比、统一评价和检索-生成链路中的失效诊断。
accepted 2026 ICDE 2026 contributor
#rag#evaluation#benchmark#retrieval#generation#icde
Overview#
XRAG 是一个面向高级 RAG 系统的模块化评测框架,关注 RAG 系统中不同组件的作用、组合和失效模式。
这篇工作已被 ICDE 2026 接收。
Why it matters#
RAG 系统看起来是一条简单链路:检索,再生成。但真正做系统时,影响结果的组件很多:
- query rewriting;
- retriever;
- reranker;
- chunking;
- context selection;
- generator;
- evaluation metric;
- failure diagnosis。
如果只看最终回答,很难知道问题来自检索、排序、上下文拼接,还是生成模型本身。
What XRAG tries to do#
XRAG 更关注组件级的评测和诊断:
- 统一比较不同 RAG 组件;
- 分析检索和生成阶段的失效;
- 支持模块化替换;
- 为 advanced RAG pipeline 提供更可控的 benchmark。
My relation to this work#
XRAG 是我参与过的重要论文工作,但它不是我现在最核心的研究身份。我会把它作为 publication 展示,同时也会把从中学到的评测思想迁移到 Agent evaluation 上。
对我来说,XRAG 最大的启发是:复杂 AI 系统不能只看最终输出,还需要拆解组件、定位失效,并让评测结果能反过来指导系统改造。
What I learned#
这个工作让我更重视 evaluation 的结构化设计。
后面我看 Coding Agent、Terminal-Bench 和 Verifier 时,也会带着类似问题:如果一个 Agent 最终失败了,我们能否知道它到底失败在理解任务、检索信息、调用工具、执行环境、还是验证器定义?