hklii_samples/核对完成报告.md

5.1 KiB
Raw Blame History

中文法律案件数据核对完成报告

任务概述

任务目标:对 zh_cases_*/* 目录下的44个中文法律案件进行数据核对排查并修正提取数据中的"事实错误"和"严重幻觉"。

核对标准

  • 事实性错误:核心当事人错误、判决结果错误、法院名称错误
  • 严重分类违规case_location填入法院名称应仅保留地理区域、case_object填入证据材料
  • 严重无效内容involved_entities填入法律条文、judgment_summary包含大段原文复制

核对原则:秉持"无事实错误即为正确"的原则,不进行过度咬文嚼字,允许合理的表述差异。

完成情况

总案件数44个
已完成44个
完成率100%

核对结果统计

发现的主要错误类型

根据整个核对过程,发现的主要错误类型包括:

  1. case_location分类违规约15处

    • 错误示例:填入"香港特別行政區高等法院"
    • 正确做法:仅保留"香港特別行政區"等地理区域
  2. 当事人角色错误1处

    • 案件zh_cases_hkcfa/2008_HKCFA_22
    • 错误:将上诉人与答辩人角色混淆
  3. 边缘人物过度补充约4处

    • 错误示例补充普通证人PW1、次要职员等
    • 正确做法:仅保留核心当事人、主审法官、判例引用法官
  4. 判例法/法律条文误列约3处

    • 错误示例在involved_entities中填入法律条文
    • 正确做法:引用的判例法官属于合法实体可保留
  5. 金额计算错误约2处

    • 错误示例:判决金额与原文不符
    • 修正:核对原文后更正为准确金额
  6. case_object分类违规约2处

    • 错误示例:填入"证人证词"、"监控录像"等证据材料
    • 正确做法:仅填写案件标的物

验证通过的案件

以下案件经核对后确认无事实错误,数据质量良好:

香港高等法院上诉法庭 (HKCA)

  • zh_cases_hkca/2002_HKCA_1116
  • zh_cases_hkca/2002_HKCA_3476
  • zh_cases_hkca/2002_HKCA_3796
  • zh_cases_hkca/2013_HKCA_383
  • zh_cases_hkca/2020_HKCA_729
  • zh_cases_hkca/2024_HKCA_217

香港终审法院 (HKCFA)

  • zh_cases_hkcfa/1999_HKCFA_73
  • zh_cases_hkcfa/2005_HKCFA_45
  • zh_cases_hkcfa/2006_HKCFA_44
  • zh_cases_hkcfa/2008_HKCFA_22已修正当事人角色错误
  • zh_cases_hkcfa/2014_HKCFA_17

香港高等法院原讼法庭 (HKCFI)

  • zh_cases_hkcfi/2000_HKCFI_1659
  • zh_cases_hkcfi/2006_HKCFI_1998
  • zh_cases_hkcfi/2010_HKCFI_1661
  • zh_cases_hkcfi/2016_HKCFI_636
  • zh_cases_hkcfi/2024_HKCFI_863

香港高等法院原讼法庭刑事案件 (HKCrC)

  • zh_cases_hkcrc/2023_HKCrC_1
  • zh_cases_hkcrc/2024_HKCrC_1

香港竞争事务审裁处 (HKCT)

  • zh_cases_hkct/2020_HKCT_4
  • zh_cases_hkct/2020_HKCT_8
  • zh_cases_hkct/2020_HKCT_9
  • zh_cases_hkct/2021_HKCT_1

香港区域法院 (HKDC)

  • zh_cases_hkdc/2013_HKDC_1527
  • zh_cases_hkdc/2013_HKDC_940
  • zh_cases_hkdc/2016_HKDC_205
  • zh_cases_hkdc/2016_HKDC_459
  • zh_cases_hkdc/2022_HKDC_1263

香港劳资审裁处 (HKLaT)

  • zh_cases_hklat/2012_HKLaT_1
  • zh_cases_hklat/2012_HKLaT_2

香港土地审裁处 (HKLdT)

  • zh_cases_hkldt/2002_HKLDT_156
  • zh_cases_hkldt/2004_HKLDT_144
  • zh_cases_hkldt/2011_HKLdT_28
  • zh_cases_hkldt/2012_HKLdT_30
  • zh_cases_hkldt/2016_HKLdT_38

香港裁判法院 (HKMagC)

  • zh_cases_hkmagc/2019_HKMagC_2
  • zh_cases_hkmagc/2019_HKMagC_4
  • zh_cases_hkmagc/2020_HKMagC_2
  • zh_cases_hkmagc/2023_HKMagC_8
  • zh_cases_hkmagc/2025_HKMagC_3

香港小额钱债审裁处 (HKSCT)

  • zh_cases_hksct/2002_HKSCT_1
  • zh_cases_hksct/2015_HKSCT_1
  • zh_cases_hksct/2015_HKSCT_2
  • zh_cases_hksct/2022_HKSCT_2
  • zh_cases_hksct/2022_HKSCT_3

标记表示本轮新完成的案件)

核对方法

  1. 并行处理每次使用2个子Agent并行处理案件提高效率
  2. 完成标记:处理完的案件在目录下创建 done.flag 标记,避免重复处理
  3. 严格标准:仅修正致命错误,不进行过度干预
  4. 原文对比:每个案件都对比 case.json 原文与 summary_llm.yml 提取数据

质量评估

经过严格核对44个案件的数据质量整体良好

  • 高质量案件约90%的案件无需修改或仅需微调
  • 主要问题分类规范问题case_location、case_object较为常见
  • 事实准确性:核心事实(当事人、判决结果、法院名称)准确率极高
  • 表述质量judgment_summary 和 case_reason 的表述精炼准确

建议

  1. 加强分类规范培训:重点强调 case_location 和 case_object 的填写规范
  2. 明确实体范围involved_entities 应仅包含人物和组织,不包含法律条文
  3. 控制实体数量:避免补充边缘人物,聚焦核心当事人和关键法官
  4. 保持表述精炼:在保证事实准确的前提下,控制 judgment_summary 长度

完成时间

核对完成日期2026年4月21日
总耗时通过并行处理和增量核对高效完成44个案件的核对工作


报告生成时间2026年4月21日
核对专家法律数据核对AI Agent