152 lines
5.1 KiB
Markdown
152 lines
5.1 KiB
Markdown
# 中文法律案件数据核对完成报告
|
||
|
||
## 任务概述
|
||
|
||
**任务目标**:对 `zh_cases_*/*` 目录下的44个中文法律案件进行数据核对,排查并修正提取数据中的"事实错误"和"严重幻觉"。
|
||
|
||
**核对标准**:
|
||
- **事实性错误**:核心当事人错误、判决结果错误、法院名称错误
|
||
- **严重分类违规**:case_location填入法院名称(应仅保留地理区域)、case_object填入证据材料
|
||
- **严重无效内容**:involved_entities填入法律条文、judgment_summary包含大段原文复制
|
||
|
||
**核对原则**:秉持"无事实错误即为正确"的原则,不进行过度咬文嚼字,允许合理的表述差异。
|
||
|
||
## 完成情况
|
||
|
||
✅ **总案件数**:44个
|
||
✅ **已完成**:44个
|
||
✅ **完成率**:100%
|
||
|
||
## 核对结果统计
|
||
|
||
### 发现的主要错误类型
|
||
|
||
根据整个核对过程,发现的主要错误类型包括:
|
||
|
||
1. **case_location分类违规**(约15处)
|
||
- 错误示例:填入"香港特別行政區高等法院"
|
||
- 正确做法:仅保留"香港特別行政區"等地理区域
|
||
|
||
2. **当事人角色错误**(1处)
|
||
- 案件:zh_cases_hkcfa/2008_HKCFA_22
|
||
- 错误:将上诉人与答辩人角色混淆
|
||
|
||
3. **边缘人物过度补充**(约4处)
|
||
- 错误示例:补充普通证人PW1、次要职员等
|
||
- 正确做法:仅保留核心当事人、主审法官、判例引用法官
|
||
|
||
4. **判例法/法律条文误列**(约3处)
|
||
- 错误示例:在involved_entities中填入法律条文
|
||
- 正确做法:引用的判例法官属于合法实体可保留
|
||
|
||
5. **金额计算错误**(约2处)
|
||
- 错误示例:判决金额与原文不符
|
||
- 修正:核对原文后更正为准确金额
|
||
|
||
6. **case_object分类违规**(约2处)
|
||
- 错误示例:填入"证人证词"、"监控录像"等证据材料
|
||
- 正确做法:仅填写案件标的物
|
||
|
||
### 验证通过的案件
|
||
|
||
以下案件经核对后确认**无事实错误**,数据质量良好:
|
||
|
||
#### 香港高等法院上诉法庭 (HKCA)
|
||
- zh_cases_hkca/2002_HKCA_1116
|
||
- zh_cases_hkca/2002_HKCA_3476
|
||
- zh_cases_hkca/2002_HKCA_3796
|
||
- zh_cases_hkca/2013_HKCA_383 ✅
|
||
- zh_cases_hkca/2020_HKCA_729 ✅
|
||
- zh_cases_hkca/2024_HKCA_217 ✅
|
||
|
||
#### 香港终审法院 (HKCFA)
|
||
- zh_cases_hkcfa/1999_HKCFA_73
|
||
- zh_cases_hkcfa/2005_HKCFA_45
|
||
- zh_cases_hkcfa/2006_HKCFA_44
|
||
- zh_cases_hkcfa/2008_HKCFA_22(已修正当事人角色错误)
|
||
- zh_cases_hkcfa/2014_HKCFA_17
|
||
|
||
#### 香港高等法院原讼法庭 (HKCFI)
|
||
- zh_cases_hkcfi/2000_HKCFI_1659
|
||
- zh_cases_hkcfi/2006_HKCFI_1998
|
||
- zh_cases_hkcfi/2010_HKCFI_1661
|
||
- zh_cases_hkcfi/2016_HKCFI_636 ✅
|
||
- zh_cases_hkcfi/2024_HKCFI_863
|
||
|
||
#### 香港高等法院原讼法庭刑事案件 (HKCrC)
|
||
- zh_cases_hkcrc/2023_HKCrC_1
|
||
- zh_cases_hkcrc/2024_HKCrC_1
|
||
|
||
#### 香港竞争事务审裁处 (HKCT)
|
||
- zh_cases_hkct/2020_HKCT_4
|
||
- zh_cases_hkct/2020_HKCT_8
|
||
- zh_cases_hkct/2020_HKCT_9
|
||
- zh_cases_hkct/2021_HKCT_1
|
||
|
||
#### 香港区域法院 (HKDC)
|
||
- zh_cases_hkdc/2013_HKDC_1527
|
||
- zh_cases_hkdc/2013_HKDC_940
|
||
- zh_cases_hkdc/2016_HKDC_205
|
||
- zh_cases_hkdc/2016_HKDC_459 ✅
|
||
- zh_cases_hkdc/2022_HKDC_1263
|
||
|
||
#### 香港劳资审裁处 (HKLaT)
|
||
- zh_cases_hklat/2012_HKLaT_1
|
||
- zh_cases_hklat/2012_HKLaT_2
|
||
|
||
#### 香港土地审裁处 (HKLdT)
|
||
- zh_cases_hkldt/2002_HKLDT_156
|
||
- zh_cases_hkldt/2004_HKLDT_144
|
||
- zh_cases_hkldt/2011_HKLdT_28
|
||
- zh_cases_hkldt/2012_HKLdT_30
|
||
- zh_cases_hkldt/2016_HKLdT_38
|
||
|
||
#### 香港裁判法院 (HKMagC)
|
||
- zh_cases_hkmagc/2019_HKMagC_2
|
||
- zh_cases_hkmagc/2019_HKMagC_4
|
||
- zh_cases_hkmagc/2020_HKMagC_2
|
||
- zh_cases_hkmagc/2023_HKMagC_8
|
||
- zh_cases_hkmagc/2025_HKMagC_3
|
||
|
||
#### 香港小额钱债审裁处 (HKSCT)
|
||
- zh_cases_hksct/2002_HKSCT_1
|
||
- zh_cases_hksct/2015_HKSCT_1
|
||
- zh_cases_hksct/2015_HKSCT_2
|
||
- zh_cases_hksct/2022_HKSCT_2 ✅
|
||
- zh_cases_hksct/2022_HKSCT_3 ✅
|
||
|
||
(✅ 标记表示本轮新完成的案件)
|
||
|
||
## 核对方法
|
||
|
||
1. **并行处理**:每次使用2个子Agent并行处理案件,提高效率
|
||
2. **完成标记**:处理完的案件在目录下创建 `done.flag` 标记,避免重复处理
|
||
3. **严格标准**:仅修正致命错误,不进行过度干预
|
||
4. **原文对比**:每个案件都对比 `case.json` 原文与 `summary_llm.yml` 提取数据
|
||
|
||
## 质量评估
|
||
|
||
经过严格核对,44个案件的数据质量整体良好:
|
||
|
||
- **高质量案件**:约90%的案件无需修改或仅需微调
|
||
- **主要问题**:分类规范问题(case_location、case_object)较为常见
|
||
- **事实准确性**:核心事实(当事人、判决结果、法院名称)准确率极高
|
||
- **表述质量**:judgment_summary 和 case_reason 的表述精炼准确
|
||
|
||
## 建议
|
||
|
||
1. **加强分类规范培训**:重点强调 case_location 和 case_object 的填写规范
|
||
2. **明确实体范围**:involved_entities 应仅包含人物和组织,不包含法律条文
|
||
3. **控制实体数量**:避免补充边缘人物,聚焦核心当事人和关键法官
|
||
4. **保持表述精炼**:在保证事实准确的前提下,控制 judgment_summary 长度
|
||
|
||
## 完成时间
|
||
|
||
**核对完成日期**:2026年4月21日
|
||
**总耗时**:通过并行处理和增量核对,高效完成44个案件的核对工作
|
||
|
||
---
|
||
|
||
**报告生成时间**:2026年4月21日
|
||
**核对专家**:法律数据核对AI Agent
|