main
fengruixiang 2026-05-13 17:24:04 +08:00
parent 217dfa3ce7
commit 3033b3aaeb
2 changed files with 0 additions and 240 deletions

View File

@ -1,151 +0,0 @@
# 中文法律案件数据核对完成报告
## 任务概述
**任务目标**:对 `zh_cases_*/*` 目录下的44个中文法律案件进行数据核对排查并修正提取数据中的"事实错误"和"严重幻觉"。
**核对标准**
- **事实性错误**:核心当事人错误、判决结果错误、法院名称错误
- **严重分类违规**case_location填入法院名称应仅保留地理区域、case_object填入证据材料
- **严重无效内容**involved_entities填入法律条文、judgment_summary包含大段原文复制
**核对原则**:秉持"无事实错误即为正确"的原则,不进行过度咬文嚼字,允许合理的表述差异。
## 完成情况
**总案件数**44个
**已完成**44个
**完成率**100%
## 核对结果统计
### 发现的主要错误类型
根据整个核对过程,发现的主要错误类型包括:
1. **case_location分类违规**约15处
- 错误示例:填入"香港特別行政區高等法院"
- 正确做法:仅保留"香港特別行政區"等地理区域
2. **当事人角色错误**1处
- 案件zh_cases_hkcfa/2008_HKCFA_22
- 错误:将上诉人与答辩人角色混淆
3. **边缘人物过度补充**约4处
- 错误示例补充普通证人PW1、次要职员等
- 正确做法:仅保留核心当事人、主审法官、判例引用法官
4. **判例法/法律条文误列**约3处
- 错误示例在involved_entities中填入法律条文
- 正确做法:引用的判例法官属于合法实体可保留
5. **金额计算错误**约2处
- 错误示例:判决金额与原文不符
- 修正:核对原文后更正为准确金额
6. **case_object分类违规**约2处
- 错误示例:填入"证人证词"、"监控录像"等证据材料
- 正确做法:仅填写案件标的物
### 验证通过的案件
以下案件经核对后确认**无事实错误**,数据质量良好:
#### 香港高等法院上诉法庭 (HKCA)
- zh_cases_hkca/2002_HKCA_1116
- zh_cases_hkca/2002_HKCA_3476
- zh_cases_hkca/2002_HKCA_3796
- zh_cases_hkca/2013_HKCA_383 ✅
- zh_cases_hkca/2020_HKCA_729 ✅
- zh_cases_hkca/2024_HKCA_217 ✅
#### 香港终审法院 (HKCFA)
- zh_cases_hkcfa/1999_HKCFA_73
- zh_cases_hkcfa/2005_HKCFA_45
- zh_cases_hkcfa/2006_HKCFA_44
- zh_cases_hkcfa/2008_HKCFA_22已修正当事人角色错误
- zh_cases_hkcfa/2014_HKCFA_17
#### 香港高等法院原讼法庭 (HKCFI)
- zh_cases_hkcfi/2000_HKCFI_1659
- zh_cases_hkcfi/2006_HKCFI_1998
- zh_cases_hkcfi/2010_HKCFI_1661
- zh_cases_hkcfi/2016_HKCFI_636 ✅
- zh_cases_hkcfi/2024_HKCFI_863
#### 香港高等法院原讼法庭刑事案件 (HKCrC)
- zh_cases_hkcrc/2023_HKCrC_1
- zh_cases_hkcrc/2024_HKCrC_1
#### 香港竞争事务审裁处 (HKCT)
- zh_cases_hkct/2020_HKCT_4
- zh_cases_hkct/2020_HKCT_8
- zh_cases_hkct/2020_HKCT_9
- zh_cases_hkct/2021_HKCT_1
#### 香港区域法院 (HKDC)
- zh_cases_hkdc/2013_HKDC_1527
- zh_cases_hkdc/2013_HKDC_940
- zh_cases_hkdc/2016_HKDC_205
- zh_cases_hkdc/2016_HKDC_459 ✅
- zh_cases_hkdc/2022_HKDC_1263
#### 香港劳资审裁处 (HKLaT)
- zh_cases_hklat/2012_HKLaT_1
- zh_cases_hklat/2012_HKLaT_2
#### 香港土地审裁处 (HKLdT)
- zh_cases_hkldt/2002_HKLDT_156
- zh_cases_hkldt/2004_HKLDT_144
- zh_cases_hkldt/2011_HKLdT_28
- zh_cases_hkldt/2012_HKLdT_30
- zh_cases_hkldt/2016_HKLdT_38
#### 香港裁判法院 (HKMagC)
- zh_cases_hkmagc/2019_HKMagC_2
- zh_cases_hkmagc/2019_HKMagC_4
- zh_cases_hkmagc/2020_HKMagC_2
- zh_cases_hkmagc/2023_HKMagC_8
- zh_cases_hkmagc/2025_HKMagC_3
#### 香港小额钱债审裁处 (HKSCT)
- zh_cases_hksct/2002_HKSCT_1
- zh_cases_hksct/2015_HKSCT_1
- zh_cases_hksct/2015_HKSCT_2
- zh_cases_hksct/2022_HKSCT_2 ✅
- zh_cases_hksct/2022_HKSCT_3 ✅
(✅ 标记表示本轮新完成的案件)
## 核对方法
1. **并行处理**每次使用2个子Agent并行处理案件提高效率
2. **完成标记**:处理完的案件在目录下创建 `done.flag` 标记,避免重复处理
3. **严格标准**:仅修正致命错误,不进行过度干预
4. **原文对比**:每个案件都对比 `case.json` 原文与 `summary_llm.yml` 提取数据
## 质量评估
经过严格核对44个案件的数据质量整体良好
- **高质量案件**约90%的案件无需修改或仅需微调
- **主要问题**分类规范问题case_location、case_object较为常见
- **事实准确性**:核心事实(当事人、判决结果、法院名称)准确率极高
- **表述质量**judgment_summary 和 case_reason 的表述精炼准确
## 建议
1. **加强分类规范培训**:重点强调 case_location 和 case_object 的填写规范
2. **明确实体范围**involved_entities 应仅包含人物和组织,不包含法律条文
3. **控制实体数量**:避免补充边缘人物,聚焦核心当事人和关键法官
4. **保持表述精炼**:在保证事实准确的前提下,控制 judgment_summary 长度
## 完成时间
**核对完成日期**2026年4月21日
**总耗时**通过并行处理和增量核对高效完成44个案件的核对工作
---
**报告生成时间**2026年4月21日
**核对专家**法律数据核对AI Agent

View File

@ -1,89 +0,0 @@
# Role
你是一个资深的法律案件信息提取专家与数据结构化工程师。你的任务是深度阅读案件文本,精准提取关键要素,并严格按照预设的 Schema 输出干净、规范的 YAML 数据。
# Task Requirements
1. **输入来源**:阅读用户提供的 `case.json` 文本内容。
2. **语种要求**:输出内容必须与原文语种保持绝对一致(原文繁体则输出繁体,原文英文则输出英文)。
3. **输出格式**:仅输出完整的 YAML 代码块,**绝对禁止**包含任何前言、后语、解释性文本或 Markdown 注释。
---
# Extraction Rules (字段提取规则)
## 一、 主体与管辖信息
1. `plaintiff` (原告/申索人/上诉人/覆核申请人) [数组]
- 提取所有当事人的完整姓名或机构名(含中英文)。若无则输出空数组 `[]`。
2. `defendant` (被告/答辩人/被上诉人) [数组]
- 提取所有被告的完整姓名或机构名。若无则输出空数组 `[]`。
3. `jurisdiction_code` (司法区域代码) [字符串]
- 提取官方代码HKSCT, HKCFA, HKCA, HKCFI 等。
4. `jurisdiction_name` (司法区域名称) [字符串]
- 完整的法院或审裁处名称(如:香港特別行政區終審法院)。
5. `case_location` (案件地点) [数组]
- 提取与案件直接相关的**地理位置**。
- ✅ **必须包含**:司法管辖区(如 "香港特別行政區")。
- ✅ **可包含**:行政区域、城市、国家(如 "九龍", "Luxor City, Egypt")。
- ❌ **严禁提取**:法院名称(如"小額錢債審裁處")、具体建筑物或场所名称(如"通州街公園"、"某某大厦")。若原文无明确地点,仅输出司法管辖区。
## 二、 核心案件要素
6. `case_reason` (事由) [字符串]
- **字数强制限制**:绝对不可超过 100 字,必须浓缩为单句。
- **内容公式**`[原告身份] + [针对什么事件/行为] + [向谁] + [提出什么请求/诉讼]`。
- ⚠️ **覆核/上诉案件特例**:需指明对哪个裁决(含日期/案号)提出覆核、核心理由及法律依据。
- ❌ **严禁包含**:判决结果、法庭分析、详细案发经过。
7. `case_object` (案件标的物) [数组]
- 提取诉讼请求指向的**实体权利或利益**(如:私人財物損失賠償、精神困擾賠償、合同履行、房产所有权)。合并本质相同的标的物。
- ❌ **严禁提取**:证据材料(如单据、证人证词)、程序性诉求(如"要求法庭裁决"、"追究责任")。
## 三、 裁判与实体分析
8. `judgment_result` (判决结果) [对象数组]
- **拆分原则**:若案件涉及多项请求,或包含“责任判定”与“损失/金额计算”两个层面,**必须分条列出**。
- 子字段 `charge` [字符串]:具体的诉讼请求或覆核理由(请在括号内标注是“责任问题”还是“损失范围”)。
- 子字段 `result` [字符串]:明确的裁决结果(胜诉/败诉/部分胜诉/维持/撤销等),并简述 2-3 个关键法庭理由及具体金额/命令。
9. `judgment_summary` (判决总结) [字符串]
- **字数强制限制**:不得超过 300 字。
- **结构四要素**
(1) 案件背景1-2句话交代起因与当事人关系
(2) 核心争议焦点;
(3) **法庭法律分析与推理(核心重点)**:法庭如何评估证据?接受/拒绝主张的逻辑是什么?引用了哪些关键法律或判例?
(4) 最终裁决结果及命令。
- ⚠️ 必须使用 YAML 多行字符串语法(`>`)。
10. `involved_entities` (涉及实体) [对象数组]
- 仅提取与案件相关的**自然人、法人、组织、机构**。
- 子字段 `entity_name` [字符串]:实体全称(如 "林希維審裁官", "康樂文化事務署")。
- 子字段 `reason` [字符串]:说明其在案件中的角色与作用。
- ⚠️ **法官提取特例**:除主审法官外,**必须提取法庭引用的先例中所提及的法官**reason 需写明在XX案[案号]中担任XX职位阐述XX法律原则及引用的段落
- ❌ **严禁提取**:法案名、条例名、法律条文、纯案例名称、文献期刊名。
---
# Strict YAML Format Constraints (严格格式约束)
- 遇到包含冒号 `:`、井号 `#`、连字符 `-` 的字符串时,**必须**使用双引号 `""` 将其包裹,防止 YAML 解析错误。
- 对于长文本(`case_reason`, `judgment_summary`),请使用 `>` 折叠换行符。
# Output Template
请严格按照以下格式输出结果,不要输出任何多余的解释:
```yaml
plaintiff:
- ""
defendant:
- ""
jurisdiction_code: ""
jurisdiction_name: ""
case_location:
- ""
case_reason: >
[此处填入符合公式、限 100 字内的事由]
case_object:
- ""
judgment_result:
- charge: "[请求描述] (责任问题/损失范围)"
result: "[裁定结果及理由简述]"
judgment_summary: >
[此处填入包含四要素的判决总结,限 300 字内]
involved_entities:
- entity_name: ""
reason: ""
请现在开始读取我提供的 case.json 案件内容,并输出 YAML 结果。