hklii_samples/模型输出对比分析.md

# 模型输出对比分析：2025_HKCFA_20 v3

## 评估基准

案件原文要点如下：香港特区政府就上诉庭撤销四名被告串谋诈骗定罪一事向终审法院上诉。终院一致准许上诉，撤销上诉庭判决，恢复区域法院对各被告的定罪及相关命令。核心事实是 CFHL 与 Gransing 签订配售协议、Gransing 随即与 CISL 签订分配售协议，但 CISL 实际上才是配售代理；Gransing 被用作前置/掩饰，以隐藏 CISL 的角色。法律重点包括：上诉庭错误地以 Snook 的 sham transaction 测试限制控方案情；无需证明文件交易本身是 sham；关键在于是否以不诚实方式隐瞒 CISL 的实际角色、利益冲突和关连交易审查问题。判决还分别讨论了 D1、D2、D3、D4 的知情、参与和不诚实，以及第 1 项控罪针对 CFHL、董事会、股东和潜在投资者，第 3 项控罪针对联交所履行监管职责。

评分采用 10.0 分制，综合考虑：

- 准确度：当事人、法院、程序姿态、判决结果、法律争点和事实链是否正确。
- 完整度：是否覆盖两项控罪、Snook 错误、CISL/Gransing/CFHL 关系、关连交易、利益冲突、联交所职责、经济损失/风险、各被告责任等关键内容。
- 输出可靠性：是否存在乱码、误称、过度概括、事实添加或字段理由模板化问题。

## 总览排名

| 排名 | 模型 | 准确度与完整度评分 | 主要结论 |
|---:|---|---:|---|
| 1 | or-claude-sonnet-4.5 | 8.7/10 | 覆盖最完整，抓住 Snook 错误、Gransing 前置、CISL 关连人、恢复定罪等核心；但有少量不准确表述。 |
| 2 | or-minimax-m2.7 | 8.4/10 | 摘要扎实、法律争点准确，中文姓名正常；但对具体控罪、D2-D4 个别责任和经济损失风险覆盖不足。 |
| 3 | or-deepseek-v4-flash | 8.0/10 | 基本事实和结果准确，中文姓名正常；表达较简略，并出现“related offences”等不严谨扩展。 |
| 4 | or-gemini-3-flash-preview | 7.6/10 | 核心结论正确、成本和速度表现好；但误称 acquittal、share placements，且实体说明较模板化。 |
| 5 | ollama-qwen3-8b | 6.4/10 | 能识别主要争点和结果，但中文姓名/地点乱码，案由表述偏离为“conspiracy to conceal connected transaction”，完整度明显不足。 |

## 费用与耗时

| 模型 | 来源 | API 调用 | 输入 tokens | 输出 tokens | 总 tokens | 耗时 | 总费用 |
|---|---|---:|---:|---:|---:|---:|---:|
| ollama-qwen3-8b | local | 10 | 26,861 | 5,122 | 31,983 | 140.299 秒 | USD 0.000000 |
| or-claude-sonnet-4.5 | openrouter | 9 | 20,827 | 2,203 | 23,030 | 52.312 秒 | USD 0.095526 |
| or-deepseek-v4-flash | openrouter | 8 | 16,983 | 6,455 | 23,438 | 144.972 秒 | USD 0.002989 |
| or-gemini-3-flash-preview | openrouter | 6 | 12,364 | 1,206 | 13,570 | 18.444 秒 | USD 0.009800 |
| or-minimax-m2.7 | openrouter | 9 | 19,280 | 5,253 | 24,533 | 199.008 秒 | USD 0.011683 |

## 单模型分析

### 1. or-claude-sonnet-4.5：8.7/10

优点：

- 程序姿态准确：明确是 HKSAR 上诉，针对上诉庭撤销定罪的判决，终院准许上诉并恢复定罪。
- 核心法律争点准确：指出上诉庭错误适用 Snook sham transaction 测试；正确把问题转向 CISL 实际担任配售代理是否触发关连交易和披露审查。
- 对事实结构覆盖较完整：提到 Gransing 作为 front/buffer，CISL 是实际 placing agent，Quincy Wong 的间接利益使 CISL 与 CFHL 形成关连关系。
- 判决理由较充实：覆盖利益冲突、独立非执行董事和联交所审查、隐瞒行为的不诚实性、恢复原定罪等。
- involved_entities 字段较完整，包含四名被告、CISL、CFHL、Gransing、Quincy Wong、Stock Exchange 等关键实体。

不足：

- “WeChat messages”不准确，原文附录是 D2 与 D3 的 WhatsApp messages。
- judgment_result 将“Court of Appeal's decision quashed”标为“quantum issue”不合适，本案主要不是量刑或赔偿数额问题。
- 未充分展开 D1、D2、D3、D4 各自责任，尤其 D4 只涉第 1 项控罪、不涉第 3 项控罪这一差异未清楚体现。
- 中文姓名来自原始 case.json 的乱码，未修正为正确中文。

总体评价：最适合作为结构化抽取结果的基础版本。虽然存在少量标签和细节错误，但对案件主线、争点和裁判结果的把握最稳。

### 2. or-minimax-m2.7：8.4/10

优点：

- 当事人、法院、上诉结果和核心争点准确，中文姓名正常。
- 对“CISL 实际角色被 Gransing 掩饰”“无需证明 sham”“Snook 测试适用错误”“恢复全部定罪”的表述清楚。
- judgment_result 较好地提到两项关键反社会/违法性基础：董事利益冲突，以及规避关连交易审查。
- involved_entities 覆盖面较广，包含审级、审判法官、上诉庭、Lord Diplock、联交所等。

不足：

- 没有明确区分第 1 项控罪和第 3 项控罪，也没有说明第 3 项控罪只涉及 D1-D3、目标是联交所监管职责。
- 对 Sir William Young NPJ 主判决中关于 D1-D4 个别责任、D2/D3 的 WhatsApp 证据、D4 的 Gransing 角色说明不足。
- “Court of Appeal's acquittal”表述略粗糙；更准确应为上诉庭撤销定罪/定罪被 set aside，而非一审无罪释放。
- 对经济损失或经济利益风险这一要素覆盖不足。

总体评价：法律主线准确，语言干净，实体质量高；完整度略逊于 Claude，但错误更少、更稳定。

### 3. or-deepseek-v4-flash：8.0/10

优点：

- 基本案件信息准确：HKSAR 为上诉方，四名被告/答辩人为原定罪者，终院恢复定罪。
- 中文姓名和地点正常，没有乱码问题。
- 能正确指出上诉庭错误适用 Snook 测试、Gransing 是 front/disguise、CISL 是实际配售代理且与 CFHL 存在关连。
- involved_entities 覆盖主要实体，并加入 Court of Appeal 和 Privy Council 等相关法源/审级实体。

不足：

- “conspiracy to defraud and related offences”不够准确，原文附录列明的是第 1 和第 3 项串谋诈骗控罪。
- judgment_summary 过于简短，未充分覆盖利益冲突、独立非执行董事、联交所职责、经济损失风险和各被告责任。
- “concealment ... constituted a connected transaction”表述略有逻辑压缩；更准确是 CISL 被任命为配售代理会构成/至少引发关连交易问题，隐瞒该角色构成诈骗性安排。
- 对 charges 的对象和范围没有拆分。

总体评价：高性价比的中等完整结果。若用于检索或初步摘要足够，但若用于法律信息抽取，需要补充控罪和责任层面的细节。

### 4. or-gemini-3-flash-preview：7.6/10

优点：

- 速度最快，总耗时仅 18.444 秒，且费用低。
- 当事人、法院、结果和核心法律问题基本正确。
- 能抓住 Snook sham 测试错误、Gransing 作为 front、CISL 作为 connected person、恢复定罪等主线。
- 中文姓名正常，输出简洁。

不足：

- “appeals against the acquittal”不够准确，本案是针对上诉庭撤销定罪的进一步上诉。
- “share placements”错误，本案原文主要是债券配售/placement of bonds。
- involved_entities 中多名法官的 reason 过于模板化，称“responsible for adjudication and delivering the judgment”，没有准确区分主判、同意和协同判词。
- 未覆盖第 1 项与第 3 项控罪的区别，也没有展开 D4 与第 3 项控罪无关、联交所职责、经济损失风险、各被告知识状态等。
- 摘要偏短，对复杂法律分析压缩较多。

总体评价：适合快速、低成本初筛；作为最终法律信息抽取结果则偏薄，且存在一个实质事实错误“share placements”。

### 5. ollama-qwen3-8b：6.4/10

优点：

- 能识别 HKSAR 上诉、终院恢复定罪、CISL/Gransing/CFHL/Stock Exchange、Snook 与 Adams 等主要关键词。
- 大方向正确：知道争点是 Gransing 掩饰 CISL 实际配售代理角色，以及规避关连交易披露/审查。
- 本地运行无 API 费用。

不足：

- 中文姓名和地点出现明显乱码，直接影响实体抽取质量。
- case_reason 写成“appeals against the convictions”，方向错误；应为 HKSAR 上诉，要求恢复被上诉庭撤销的定罪。
- case_object 仅为“conviction”，过于笼统。
- charge 写成“Conspiracy to conceal connected transaction”，不准确；原控罪是 conspiracy to defraud。
- judgment_result 和 summary 未区分第 1 项和第 3 项控罪，也未体现四名被告责任差异。
- involved_entities 中把终院法官均描述为“responsible for fact-finding”，不准确；终院主要处理法律问题及审查原审事实裁断是否可被干预，事实认定来自审判法官。
- 完整度不足，对利益冲突、联交所公共职责、经济损失/风险、WhatsApp 证据、D4 角色等关键内容覆盖很少。

总体评价：可作为粗略摘要，但不适合作为高质量法律结构化抽取结果。最大问题是编码乱码和若干法律标签不准确。

## 性价比分析

| 模型 | 质量 | 速度 | 成本 | 性价比判断 |
|---|---:|---:|---:|---|
| or-gemini-3-flash-preview | 中上 | 最快 | 低 | 快速批量初筛最佳，但需人工校正事实细节。 |
| or-deepseek-v4-flash | 中上 | 较慢 | 最低付费 | 成本极优，适合低成本大规模抽取，但摘要偏简。 |
| or-minimax-m2.7 | 高 | 最慢 | 低 | 质量好、成本低，但耗时明显偏高。 |
| or-claude-sonnet-4.5 | 最高 | 较快 | 最高 | 最适合要求准确和完整的最终版抽取。 |
| ollama-qwen3-8b | 较低 | 中等 | 免费 | 适合本地零成本实验，不适合对中文实体和法律标签有要求的场景。 |

## 结论

若以“信息提取准确度和完整度”为第一目标，推荐 `or-claude-sonnet-4.5`，其次是 `or-minimax-m2.7`。Claude 的完整度最好，能较充分呈现案件法律结构；MiniMax 的表达更稳、更少乱码，但缺少控罪拆分和个别被告责任细节。

若以“成本/速度”为第一目标，`or-gemini-3-flash-preview` 最快，`or-deepseek-v4-flash` 最便宜。Gemini 适合快速预处理，但要重点校正“债券配售”与程序姿态；DeepSeek 成本最低且基本准确，但需要补充摘要深度。

本地 `ollama-qwen3-8b` 的零费用优势明显，但本次输出存在乱码和法律表述不精确问题，建议仅作为辅助草稿，不宜直接入库。