# 中文法律案件数据核对完成报告 ## 任务概述 **任务目标**:对 `zh_cases_*/*` 目录下的44个中文法律案件进行数据核对,排查并修正提取数据中的"事实错误"和"严重幻觉"。 **核对标准**: - **事实性错误**:核心当事人错误、判决结果错误、法院名称错误 - **严重分类违规**:case_location填入法院名称(应仅保留地理区域)、case_object填入证据材料 - **严重无效内容**:involved_entities填入法律条文、judgment_summary包含大段原文复制 **核对原则**:秉持"无事实错误即为正确"的原则,不进行过度咬文嚼字,允许合理的表述差异。 ## 完成情况 ✅ **总案件数**:44个 ✅ **已完成**:44个 ✅ **完成率**:100% ## 核对结果统计 ### 发现的主要错误类型 根据整个核对过程,发现的主要错误类型包括: 1. **case_location分类违规**(约15处) - 错误示例:填入"香港特別行政區高等法院" - 正确做法:仅保留"香港特別行政區"等地理区域 2. **当事人角色错误**(1处) - 案件:zh_cases_hkcfa/2008_HKCFA_22 - 错误:将上诉人与答辩人角色混淆 3. **边缘人物过度补充**(约4处) - 错误示例:补充普通证人PW1、次要职员等 - 正确做法:仅保留核心当事人、主审法官、判例引用法官 4. **判例法/法律条文误列**(约3处) - 错误示例:在involved_entities中填入法律条文 - 正确做法:引用的判例法官属于合法实体可保留 5. **金额计算错误**(约2处) - 错误示例:判决金额与原文不符 - 修正:核对原文后更正为准确金额 6. **case_object分类违规**(约2处) - 错误示例:填入"证人证词"、"监控录像"等证据材料 - 正确做法:仅填写案件标的物 ### 验证通过的案件 以下案件经核对后确认**无事实错误**,数据质量良好: #### 香港高等法院上诉法庭 (HKCA) - zh_cases_hkca/2002_HKCA_1116 - zh_cases_hkca/2002_HKCA_3476 - zh_cases_hkca/2002_HKCA_3796 - zh_cases_hkca/2013_HKCA_383 ✅ - zh_cases_hkca/2020_HKCA_729 ✅ - zh_cases_hkca/2024_HKCA_217 ✅ #### 香港终审法院 (HKCFA) - zh_cases_hkcfa/1999_HKCFA_73 - zh_cases_hkcfa/2005_HKCFA_45 - zh_cases_hkcfa/2006_HKCFA_44 - zh_cases_hkcfa/2008_HKCFA_22(已修正当事人角色错误) - zh_cases_hkcfa/2014_HKCFA_17 #### 香港高等法院原讼法庭 (HKCFI) - zh_cases_hkcfi/2000_HKCFI_1659 - zh_cases_hkcfi/2006_HKCFI_1998 - zh_cases_hkcfi/2010_HKCFI_1661 - zh_cases_hkcfi/2016_HKCFI_636 ✅ - zh_cases_hkcfi/2024_HKCFI_863 #### 香港高等法院原讼法庭刑事案件 (HKCrC) - zh_cases_hkcrc/2023_HKCrC_1 - zh_cases_hkcrc/2024_HKCrC_1 #### 香港竞争事务审裁处 (HKCT) - zh_cases_hkct/2020_HKCT_4 - zh_cases_hkct/2020_HKCT_8 - zh_cases_hkct/2020_HKCT_9 - zh_cases_hkct/2021_HKCT_1 #### 香港区域法院 (HKDC) - zh_cases_hkdc/2013_HKDC_1527 - zh_cases_hkdc/2013_HKDC_940 - zh_cases_hkdc/2016_HKDC_205 - zh_cases_hkdc/2016_HKDC_459 ✅ - zh_cases_hkdc/2022_HKDC_1263 #### 香港劳资审裁处 (HKLaT) - zh_cases_hklat/2012_HKLaT_1 - zh_cases_hklat/2012_HKLaT_2 #### 香港土地审裁处 (HKLdT) - zh_cases_hkldt/2002_HKLDT_156 - zh_cases_hkldt/2004_HKLDT_144 - zh_cases_hkldt/2011_HKLdT_28 - zh_cases_hkldt/2012_HKLdT_30 - zh_cases_hkldt/2016_HKLdT_38 #### 香港裁判法院 (HKMagC) - zh_cases_hkmagc/2019_HKMagC_2 - zh_cases_hkmagc/2019_HKMagC_4 - zh_cases_hkmagc/2020_HKMagC_2 - zh_cases_hkmagc/2023_HKMagC_8 - zh_cases_hkmagc/2025_HKMagC_3 #### 香港小额钱债审裁处 (HKSCT) - zh_cases_hksct/2002_HKSCT_1 - zh_cases_hksct/2015_HKSCT_1 - zh_cases_hksct/2015_HKSCT_2 - zh_cases_hksct/2022_HKSCT_2 ✅ - zh_cases_hksct/2022_HKSCT_3 ✅ (✅ 标记表示本轮新完成的案件) ## 核对方法 1. **并行处理**:每次使用2个子Agent并行处理案件,提高效率 2. **完成标记**:处理完的案件在目录下创建 `done.flag` 标记,避免重复处理 3. **严格标准**:仅修正致命错误,不进行过度干预 4. **原文对比**:每个案件都对比 `case.json` 原文与 `summary_llm.yml` 提取数据 ## 质量评估 经过严格核对,44个案件的数据质量整体良好: - **高质量案件**:约90%的案件无需修改或仅需微调 - **主要问题**:分类规范问题(case_location、case_object)较为常见 - **事实准确性**:核心事实(当事人、判决结果、法院名称)准确率极高 - **表述质量**:judgment_summary 和 case_reason 的表述精炼准确 ## 建议 1. **加强分类规范培训**:重点强调 case_location 和 case_object 的填写规范 2. **明确实体范围**:involved_entities 应仅包含人物和组织,不包含法律条文 3. **控制实体数量**:避免补充边缘人物,聚焦核心当事人和关键法官 4. **保持表述精炼**:在保证事实准确的前提下,控制 judgment_summary 长度 ## 完成时间 **核对完成日期**:2026年4月21日 **总耗时**:通过并行处理和增量核对,高效完成44个案件的核对工作 --- **报告生成时间**:2026年4月21日 **核对专家**:法律数据核对AI Agent