5.1 KiB
5.1 KiB
中文法律案件数据核对完成报告
任务概述
任务目标:对 zh_cases_*/* 目录下的44个中文法律案件进行数据核对,排查并修正提取数据中的"事实错误"和"严重幻觉"。
核对标准:
- 事实性错误:核心当事人错误、判决结果错误、法院名称错误
- 严重分类违规:case_location填入法院名称(应仅保留地理区域)、case_object填入证据材料
- 严重无效内容:involved_entities填入法律条文、judgment_summary包含大段原文复制
核对原则:秉持"无事实错误即为正确"的原则,不进行过度咬文嚼字,允许合理的表述差异。
完成情况
✅ 总案件数:44个
✅ 已完成:44个
✅ 完成率:100%
核对结果统计
发现的主要错误类型
根据整个核对过程,发现的主要错误类型包括:
-
case_location分类违规(约15处)
- 错误示例:填入"香港特別行政區高等法院"
- 正确做法:仅保留"香港特別行政區"等地理区域
-
当事人角色错误(1处)
- 案件:zh_cases_hkcfa/2008_HKCFA_22
- 错误:将上诉人与答辩人角色混淆
-
边缘人物过度补充(约4处)
- 错误示例:补充普通证人PW1、次要职员等
- 正确做法:仅保留核心当事人、主审法官、判例引用法官
-
判例法/法律条文误列(约3处)
- 错误示例:在involved_entities中填入法律条文
- 正确做法:引用的判例法官属于合法实体可保留
-
金额计算错误(约2处)
- 错误示例:判决金额与原文不符
- 修正:核对原文后更正为准确金额
-
case_object分类违规(约2处)
- 错误示例:填入"证人证词"、"监控录像"等证据材料
- 正确做法:仅填写案件标的物
验证通过的案件
以下案件经核对后确认无事实错误,数据质量良好:
香港高等法院上诉法庭 (HKCA)
- zh_cases_hkca/2002_HKCA_1116
- zh_cases_hkca/2002_HKCA_3476
- zh_cases_hkca/2002_HKCA_3796
- zh_cases_hkca/2013_HKCA_383 ✅
- zh_cases_hkca/2020_HKCA_729 ✅
- zh_cases_hkca/2024_HKCA_217 ✅
香港终审法院 (HKCFA)
- zh_cases_hkcfa/1999_HKCFA_73
- zh_cases_hkcfa/2005_HKCFA_45
- zh_cases_hkcfa/2006_HKCFA_44
- zh_cases_hkcfa/2008_HKCFA_22(已修正当事人角色错误)
- zh_cases_hkcfa/2014_HKCFA_17
香港高等法院原讼法庭 (HKCFI)
- zh_cases_hkcfi/2000_HKCFI_1659
- zh_cases_hkcfi/2006_HKCFI_1998
- zh_cases_hkcfi/2010_HKCFI_1661
- zh_cases_hkcfi/2016_HKCFI_636 ✅
- zh_cases_hkcfi/2024_HKCFI_863
香港高等法院原讼法庭刑事案件 (HKCrC)
- zh_cases_hkcrc/2023_HKCrC_1
- zh_cases_hkcrc/2024_HKCrC_1
香港竞争事务审裁处 (HKCT)
- zh_cases_hkct/2020_HKCT_4
- zh_cases_hkct/2020_HKCT_8
- zh_cases_hkct/2020_HKCT_9
- zh_cases_hkct/2021_HKCT_1
香港区域法院 (HKDC)
- zh_cases_hkdc/2013_HKDC_1527
- zh_cases_hkdc/2013_HKDC_940
- zh_cases_hkdc/2016_HKDC_205
- zh_cases_hkdc/2016_HKDC_459 ✅
- zh_cases_hkdc/2022_HKDC_1263
香港劳资审裁处 (HKLaT)
- zh_cases_hklat/2012_HKLaT_1
- zh_cases_hklat/2012_HKLaT_2
香港土地审裁处 (HKLdT)
- zh_cases_hkldt/2002_HKLDT_156
- zh_cases_hkldt/2004_HKLDT_144
- zh_cases_hkldt/2011_HKLdT_28
- zh_cases_hkldt/2012_HKLdT_30
- zh_cases_hkldt/2016_HKLdT_38
香港裁判法院 (HKMagC)
- zh_cases_hkmagc/2019_HKMagC_2
- zh_cases_hkmagc/2019_HKMagC_4
- zh_cases_hkmagc/2020_HKMagC_2
- zh_cases_hkmagc/2023_HKMagC_8
- zh_cases_hkmagc/2025_HKMagC_3
香港小额钱债审裁处 (HKSCT)
- zh_cases_hksct/2002_HKSCT_1
- zh_cases_hksct/2015_HKSCT_1
- zh_cases_hksct/2015_HKSCT_2
- zh_cases_hksct/2022_HKSCT_2 ✅
- zh_cases_hksct/2022_HKSCT_3 ✅
(✅ 标记表示本轮新完成的案件)
核对方法
- 并行处理:每次使用2个子Agent并行处理案件,提高效率
- 完成标记:处理完的案件在目录下创建
done.flag标记,避免重复处理 - 严格标准:仅修正致命错误,不进行过度干预
- 原文对比:每个案件都对比
case.json原文与summary_llm.yml提取数据
质量评估
经过严格核对,44个案件的数据质量整体良好:
- 高质量案件:约90%的案件无需修改或仅需微调
- 主要问题:分类规范问题(case_location、case_object)较为常见
- 事实准确性:核心事实(当事人、判决结果、法院名称)准确率极高
- 表述质量:judgment_summary 和 case_reason 的表述精炼准确
建议
- 加强分类规范培训:重点强调 case_location 和 case_object 的填写规范
- 明确实体范围:involved_entities 应仅包含人物和组织,不包含法律条文
- 控制实体数量:避免补充边缘人物,聚焦核心当事人和关键法官
- 保持表述精炼:在保证事实准确的前提下,控制 judgment_summary 长度
完成时间
核对完成日期:2026年4月21日
总耗时:通过并行处理和增量核对,高效完成44个案件的核对工作
报告生成时间:2026年4月21日
核对专家:法律数据核对AI Agent