这是一个基于《三国演义》小说内容的问答(QA)数据集,专为评测检索增强生成(RAG)系统而设计。数据集包含1300个精心设计的问题和答案,涵盖了《三国演义》全书120回的内容。
数据集主要文件为qa-1300.csv
(同时提供qa-1300.json
格式),包含了1300个问答对,按照问题复杂度分为三种类型:
- 特点:短答案型问题,答案可直接从小说单一段落中找到
- 答案长度:不超过50字
- 示例:
- 问:"汉灵帝欲立哪个儿子为太子?"
- 答:"皇子协(刘协)。"
- 评测目的:检验RAG系统的基础检索能力,考察系统能否准确定位和提取文本中的明确信息
- 特点:需要跨章节内容整合,需要分析才能得出答案
- 答案长度:不超过150字
- 示例:
- 问:"吕布在《三国演义》前十章中的形象是怎样的?他为何反复无常?"
- 答:"吕布形象是'人中吕布'的无双猛将,但勇而无谋,见利忘义。他为赤兔马和富贵杀丁原,为貂蝉和私愤杀董卓。其反复无常源于重利轻义、缺乏政治远见和道德底线。"
- 评测目的:检验RAG系统的多文本整合能力和信息关联分析能力
- 特点:需要进行人物性格分析、战役综合分析、历史推演等,部分答案可能超出原文但基于文本逻辑推理
- 答案长度:不超过300字
- 示例:
- 问:"若曹操在荥阳被杀,汉末历史走向可能有何不同?试推演。"
- 答:"曹操若亡于荥阳,将失去一位重要的政治家和军事家。北方可能由袁绍主导,但袁绍优柔寡断,恐难迅速统一。关东诸侯混战局面或将持续更久。刘备可能失去重要的对手和参照,发展轨迹难料。孙坚、孙策在江东的发展可能不受影响。整体而言,北方统一进程会大大延缓,三国鼎立的局面可能不会形成,或以完全不同的形式出现,历史进程将充满更多变数。"
- 评测目的:检验RAG系统的推理能力、文本理解深度以及生成合理推断的能力
该数据集设计理念遵循RAG系统评测的关键维度,通过三种不同难度的问题类型,全面评估RAG系统的:
- 基础检索精确度
- 多文本整合能力
- 深度理解与逻辑推理能力
- 复杂信息合成能力
此数据集不仅适用于三国演义相关的RAG系统评测,其分层设计思路也可作为其他领域RAG系统评测的参考。
数据集中的问答对由大语言模型基于完整的《三国演义》120回内容生成,保证问题覆盖全书核心情节和人物。
- 可按问题类型分别评测RAG系统的不同能力维度
- 建议将评测结果分类统计,以发现系统在哪类问题上表现较好或较差
- 在深度问题评测中,关注系统回答的合理性和逻辑性,而非与标准答案的完全匹配度