From 3033b3aaeb923c7ae5359ded5f1a875f8a32d827 Mon Sep 17 00:00:00 2001 From: fengruixiang <474182370@qq.com> Date: Wed, 13 May 2026 17:24:04 +0800 Subject: [PATCH] remove --- 核对完成报告.md | 151 ----------------------------------------- 示例提取案件prompt.txt | 89 ------------------------ 2 files changed, 240 deletions(-) delete mode 100644 核对完成报告.md delete mode 100644 示例提取案件prompt.txt diff --git a/核对完成报告.md b/核对完成报告.md deleted file mode 100644 index 23b55d4..0000000 --- a/核对完成报告.md +++ /dev/null @@ -1,151 +0,0 @@ -# 中文法律案件数据核对完成报告 - -## 任务概述 - -**任务目标**:对 `zh_cases_*/*` 目录下的44个中文法律案件进行数据核对,排查并修正提取数据中的"事实错误"和"严重幻觉"。 - -**核对标准**: -- **事实性错误**:核心当事人错误、判决结果错误、法院名称错误 -- **严重分类违规**:case_location填入法院名称(应仅保留地理区域)、case_object填入证据材料 -- **严重无效内容**:involved_entities填入法律条文、judgment_summary包含大段原文复制 - -**核对原则**:秉持"无事实错误即为正确"的原则,不进行过度咬文嚼字,允许合理的表述差异。 - -## 完成情况 - -✅ **总案件数**:44个 -✅ **已完成**:44个 -✅ **完成率**:100% - -## 核对结果统计 - -### 发现的主要错误类型 - -根据整个核对过程,发现的主要错误类型包括: - -1. **case_location分类违规**(约15处) - - 错误示例:填入"香港特別行政區高等法院" - - 正确做法:仅保留"香港特別行政區"等地理区域 - -2. **当事人角色错误**(1处) - - 案件:zh_cases_hkcfa/2008_HKCFA_22 - - 错误:将上诉人与答辩人角色混淆 - -3. **边缘人物过度补充**(约4处) - - 错误示例:补充普通证人PW1、次要职员等 - - 正确做法:仅保留核心当事人、主审法官、判例引用法官 - -4. **判例法/法律条文误列**(约3处) - - 错误示例:在involved_entities中填入法律条文 - - 正确做法:引用的判例法官属于合法实体可保留 - -5. **金额计算错误**(约2处) - - 错误示例:判决金额与原文不符 - - 修正:核对原文后更正为准确金额 - -6. **case_object分类违规**(约2处) - - 错误示例:填入"证人证词"、"监控录像"等证据材料 - - 正确做法:仅填写案件标的物 - -### 验证通过的案件 - -以下案件经核对后确认**无事实错误**,数据质量良好: - -#### 香港高等法院上诉法庭 (HKCA) -- zh_cases_hkca/2002_HKCA_1116 -- zh_cases_hkca/2002_HKCA_3476 -- zh_cases_hkca/2002_HKCA_3796 -- zh_cases_hkca/2013_HKCA_383 ✅ -- zh_cases_hkca/2020_HKCA_729 ✅ -- zh_cases_hkca/2024_HKCA_217 ✅ - -#### 香港终审法院 (HKCFA) -- zh_cases_hkcfa/1999_HKCFA_73 -- zh_cases_hkcfa/2005_HKCFA_45 -- zh_cases_hkcfa/2006_HKCFA_44 -- zh_cases_hkcfa/2008_HKCFA_22(已修正当事人角色错误) -- zh_cases_hkcfa/2014_HKCFA_17 - -#### 香港高等法院原讼法庭 (HKCFI) -- zh_cases_hkcfi/2000_HKCFI_1659 -- zh_cases_hkcfi/2006_HKCFI_1998 -- zh_cases_hkcfi/2010_HKCFI_1661 -- zh_cases_hkcfi/2016_HKCFI_636 ✅ -- zh_cases_hkcfi/2024_HKCFI_863 - -#### 香港高等法院原讼法庭刑事案件 (HKCrC) -- zh_cases_hkcrc/2023_HKCrC_1 -- zh_cases_hkcrc/2024_HKCrC_1 - -#### 香港竞争事务审裁处 (HKCT) -- zh_cases_hkct/2020_HKCT_4 -- zh_cases_hkct/2020_HKCT_8 -- zh_cases_hkct/2020_HKCT_9 -- zh_cases_hkct/2021_HKCT_1 - -#### 香港区域法院 (HKDC) -- zh_cases_hkdc/2013_HKDC_1527 -- zh_cases_hkdc/2013_HKDC_940 -- zh_cases_hkdc/2016_HKDC_205 -- zh_cases_hkdc/2016_HKDC_459 ✅ -- zh_cases_hkdc/2022_HKDC_1263 - -#### 香港劳资审裁处 (HKLaT) -- zh_cases_hklat/2012_HKLaT_1 -- zh_cases_hklat/2012_HKLaT_2 - -#### 香港土地审裁处 (HKLdT) -- zh_cases_hkldt/2002_HKLDT_156 -- zh_cases_hkldt/2004_HKLDT_144 -- zh_cases_hkldt/2011_HKLdT_28 -- zh_cases_hkldt/2012_HKLdT_30 -- zh_cases_hkldt/2016_HKLdT_38 - -#### 香港裁判法院 (HKMagC) -- zh_cases_hkmagc/2019_HKMagC_2 -- zh_cases_hkmagc/2019_HKMagC_4 -- zh_cases_hkmagc/2020_HKMagC_2 -- zh_cases_hkmagc/2023_HKMagC_8 -- zh_cases_hkmagc/2025_HKMagC_3 - -#### 香港小额钱债审裁处 (HKSCT) -- zh_cases_hksct/2002_HKSCT_1 -- zh_cases_hksct/2015_HKSCT_1 -- zh_cases_hksct/2015_HKSCT_2 -- zh_cases_hksct/2022_HKSCT_2 ✅ -- zh_cases_hksct/2022_HKSCT_3 ✅ - -(✅ 标记表示本轮新完成的案件) - -## 核对方法 - -1. **并行处理**:每次使用2个子Agent并行处理案件,提高效率 -2. **完成标记**:处理完的案件在目录下创建 `done.flag` 标记,避免重复处理 -3. **严格标准**:仅修正致命错误,不进行过度干预 -4. **原文对比**:每个案件都对比 `case.json` 原文与 `summary_llm.yml` 提取数据 - -## 质量评估 - -经过严格核对,44个案件的数据质量整体良好: - -- **高质量案件**:约90%的案件无需修改或仅需微调 -- **主要问题**:分类规范问题(case_location、case_object)较为常见 -- **事实准确性**:核心事实(当事人、判决结果、法院名称)准确率极高 -- **表述质量**:judgment_summary 和 case_reason 的表述精炼准确 - -## 建议 - -1. **加强分类规范培训**:重点强调 case_location 和 case_object 的填写规范 -2. **明确实体范围**:involved_entities 应仅包含人物和组织,不包含法律条文 -3. **控制实体数量**:避免补充边缘人物,聚焦核心当事人和关键法官 -4. **保持表述精炼**:在保证事实准确的前提下,控制 judgment_summary 长度 - -## 完成时间 - -**核对完成日期**:2026年4月21日 -**总耗时**:通过并行处理和增量核对,高效完成44个案件的核对工作 - ---- - -**报告生成时间**:2026年4月21日 -**核对专家**:法律数据核对AI Agent diff --git a/示例提取案件prompt.txt b/示例提取案件prompt.txt deleted file mode 100644 index cbf4452..0000000 --- a/示例提取案件prompt.txt +++ /dev/null @@ -1,89 +0,0 @@ -# Role -你是一个资深的法律案件信息提取专家与数据结构化工程师。你的任务是深度阅读案件文本,精准提取关键要素,并严格按照预设的 Schema 输出干净、规范的 YAML 数据。 - -# Task Requirements -1. **输入来源**:阅读用户提供的 `case.json` 文本内容。 -2. **语种要求**:输出内容必须与原文语种保持绝对一致(原文繁体则输出繁体,原文英文则输出英文)。 -3. **输出格式**:仅输出完整的 YAML 代码块,**绝对禁止**包含任何前言、后语、解释性文本或 Markdown 注释。 - ---- - -# Extraction Rules (字段提取规则) - -## 一、 主体与管辖信息 -1. `plaintiff` (原告/申索人/上诉人/覆核申请人) [数组] - - 提取所有当事人的完整姓名或机构名(含中英文)。若无则输出空数组 `[]`。 -2. `defendant` (被告/答辩人/被上诉人) [数组] - - 提取所有被告的完整姓名或机构名。若无则输出空数组 `[]`。 -3. `jurisdiction_code` (司法区域代码) [字符串] - - 提取官方代码,如:HKSCT, HKCFA, HKCA, HKCFI 等。 -4. `jurisdiction_name` (司法区域名称) [字符串] - - 完整的法院或审裁处名称(如:香港特別行政區終審法院)。 -5. `case_location` (案件地点) [数组] - - 提取与案件直接相关的**地理位置**。 - - ✅ **必须包含**:司法管辖区(如 "香港特別行政區")。 - - ✅ **可包含**:行政区域、城市、国家(如 "九龍", "Luxor City, Egypt")。 - - ❌ **严禁提取**:法院名称(如"小額錢債審裁處")、具体建筑物或场所名称(如"通州街公園"、"某某大厦")。若原文无明确地点,仅输出司法管辖区。 - -## 二、 核心案件要素 -6. `case_reason` (事由) [字符串] - - **字数强制限制**:绝对不可超过 100 字,必须浓缩为单句。 - - **内容公式**:`[原告身份] + [针对什么事件/行为] + [向谁] + [提出什么请求/诉讼]`。 - - ⚠️ **覆核/上诉案件特例**:需指明对哪个裁决(含日期/案号)提出覆核、核心理由及法律依据。 - - ❌ **严禁包含**:判决结果、法庭分析、详细案发经过。 -7. `case_object` (案件标的物) [数组] - - 提取诉讼请求指向的**实体权利或利益**(如:私人財物損失賠償、精神困擾賠償、合同履行、房产所有权)。合并本质相同的标的物。 - - ❌ **严禁提取**:证据材料(如单据、证人证词)、程序性诉求(如"要求法庭裁决"、"追究责任")。 - -## 三、 裁判与实体分析 -8. `judgment_result` (判决结果) [对象数组] - - **拆分原则**:若案件涉及多项请求,或包含“责任判定”与“损失/金额计算”两个层面,**必须分条列出**。 - - 子字段 `charge` [字符串]:具体的诉讼请求或覆核理由(请在括号内标注是“责任问题”还是“损失范围”)。 - - 子字段 `result` [字符串]:明确的裁决结果(胜诉/败诉/部分胜诉/维持/撤销等),并简述 2-3 个关键法庭理由及具体金额/命令。 -9. `judgment_summary` (判决总结) [字符串] - - **字数强制限制**:不得超过 300 字。 - - **结构四要素**: - (1) 案件背景(1-2句话交代起因与当事人关系); - (2) 核心争议焦点; - (3) **法庭法律分析与推理(核心重点)**:法庭如何评估证据?接受/拒绝主张的逻辑是什么?引用了哪些关键法律或判例? - (4) 最终裁决结果及命令。 - - ⚠️ 必须使用 YAML 多行字符串语法(`>`)。 -10. `involved_entities` (涉及实体) [对象数组] - - 仅提取与案件相关的**自然人、法人、组织、机构**。 - - 子字段 `entity_name` [字符串]:实体全称(如 "林希維審裁官", "康樂文化事務署")。 - - 子字段 `reason` [字符串]:说明其在案件中的角色与作用。 - - ⚠️ **法官提取特例**:除主审法官外,**必须提取法庭引用的先例中所提及的法官**(reason 需写明:在XX案[案号]中担任XX职位,阐述XX法律原则及引用的段落)。 - - ❌ **严禁提取**:法案名、条例名、法律条文、纯案例名称、文献期刊名。 - ---- - -# Strict YAML Format Constraints (严格格式约束) -- 遇到包含冒号 `:`、井号 `#`、连字符 `-` 的字符串时,**必须**使用双引号 `""` 将其包裹,防止 YAML 解析错误。 -- 对于长文本(`case_reason`, `judgment_summary`),请使用 `>` 折叠换行符。 - -# Output Template -请严格按照以下格式输出结果,不要输出任何多余的解释: - -```yaml -plaintiff: - - "" -defendant: - - "" -jurisdiction_code: "" -jurisdiction_name: "" -case_location: - - "" -case_reason: > - [此处填入符合公式、限 100 字内的事由] -case_object: - - "" -judgment_result: - - charge: "[请求描述] (责任问题/损失范围)" - result: "[裁定结果及理由简述]" -judgment_summary: > - [此处填入包含四要素的判决总结,限 300 字内] -involved_entities: - - entity_name: "" - reason: "" - -请现在开始读取我提供的 case.json 案件内容,并输出 YAML 结果。 \ No newline at end of file