Add v3 model output comparison analysis

main
fengruixiang 2026-05-29 18:34:37 +08:00
parent c038372d1a
commit cf4c0f88d3
1 changed files with 103 additions and 0 deletions

View File

@ -0,0 +1,103 @@
# 模型输出对比分析-gpt-5-codex
## 评估依据
本次分析仅依据 `zh_cases_hkcfa/2014_HKCFA_17/case.json` 的案件原文,以及 `v3` 目录下各模型的 `result_*.yaml` 和对应 `*_cost.json`,未参考同目录已有分析文件。
案件原文的关键基准事实如下:
- 案件为 `[2014] HKCFA 17`,终审法院民事上诉 FACV 7、8、9、10/2013上诉人为 GA、PA、FI、JA答辩人为入境事务处处长。
- GA、FI、JA 为经核实难民PA 为获确立酷刑声请人。MA 只是一审及上诉法庭阶段的申请人,没有继续上诉至终审法院。
- 核心争议是经核实难民或获确立酷刑声请人是否享有宪法或普通法保障的在港工作权以及长期禁止工作是否可能构成《人权法案》第3条下的不人道或侮辱之处遇。
- 终审法院驳回所有上诉。法院否定《人权法案》第14条、《文化公约》第6条、《基本法》第33条及普通法可支持本案所主张的工作权。
- 关于《人权法案》第3条终审法院认为该绝对权利不因《人权条例》第11条而被减免若禁止工作导致不人道处遇或重大且迫切风险处长必须给工作准许。但法院没有就本案事实作最终裁定也没有发还重审原因是案件在实际救济上已具学术性。
## 总体评分
| 模型输出 | 准确度 | 完整度 | 综合评分 | 主要判断 |
|---|---:|---:|---:|---|
| `result_or-gemini-3-flash-preview.yaml` | 7.0 | 8.0 | 7.5 | 对第3条原则和实体信息覆盖较完整但误称终审法院维持 GA/MA 胜诉并撤销决定。 |
| `result_or-claude-sonnet-4.5.yaml` | 7.2 | 7.4 | 7.3 | 基础事实和工作权结论较稳但错误称终审法院仍因第11条认为第3条不适用。 |
| `result_or-deepseek-v4-pro.yaml` | 7.4 | 6.8 | 7.1 | 正确抓到最终驳回所有上诉但把第3条事实争议写成已败诉并误用《基本法》第41条作为第33条结论。 |
| `result_mm-minimax-m2.7.yaml` | 6.8 | 7.4 | 7.1 | 框架完整但误称第3条问题“上诉得直/发还重审”。 |
| `result_or-minimax-m2.7.yaml` | 6.7 | 7.2 | 6.9 | 基础信息完整但把第3条写成事实败诉并混入 MA/GA 一审结果作为核心结果。 |
| `result_or-deepseek-v4-flash.yaml` | 6.5 | 7.3 | 6.8 | 对第3条法律原则理解较好但严重误称部分胜诉、发还处长重新考虑。 |
| `result_ollama-qwen3-8b.yaml` | 5.6 | 6.2 | 5.9 | 基础当事人正确但第3条、相称性、实体引用和涉案实体均有明显错误或幻觉。 |
## 分模型分析
### result_or-gemini-3-flash-preview.yaml
优点当事人、法院、案由、主要法律争议提取完整能正确识别《人权法案》第3条对处长酌情权的制约并指出严重精神疾病等风险因素。实体列表较完整包含四名上诉人、MA、法官、入境处及联合国难民署香港办事处。
主要问题:把终审法院最终结果写成“撤销 GA 及 MA 的决定并令处长重新考虑”这是下级法院背景不是终审法院最终命令MA 也并非终审法院上诉人。其余上诉人“因证据不足被驳回”的表述也过度事实裁断,原文明确终审法院没有作出是否存在不人道处遇的事实裁定。
评分:准确度 7.0,完整度 8.0,综合 7.5。
### result_or-claude-sonnet-4.5.yaml
优点:当事人、答辩人、法院、司法覆核背景、工作权被否定、普通法无工作权、最终驳回所有上诉等主线较准确。也能识别 MA 只涉及下级法院阶段的事实背景。
主要问题第3条部分出现关键法律错误。终审法院不是“因第11条裁定第3条不适用”而是明确认为第3条为不可减损的绝对权利第11条不能减免第3条。它还把第3条分析弱化为“附带意见”遗漏终审法院对处长酌情权必须受第3条约束的实质法律结论。
评分:准确度 7.2,完整度 7.4,综合 7.3。
### result_or-deepseek-v4-pro.yaml
优点:最终“驳回所有四名上诉人的上诉”抓得准确;工作权主张、普通法主张失败的结论较清楚;费用和令状式结果没有虚构赔偿金额。
主要问题称《基本法》第33条因第41条不适用于非香港居民并不准确原文明确表示无需就第41条得出结论真正理由是第33条只保障较狭义的择业自由不等同广泛工作权。第3条方面模型说上诉人“败诉、未能证明风险”但原文是法院没有作事实裁定仅说明门槛、举证责任和真实重大风险标准。
评分:准确度 7.4,完整度 6.8,综合 7.1。
### result_mm-minimax-m2.7.yaml
优点当事人、法院、答辩人、法律争点和实体提取较完整能识别《人权法案》第14条、《文化公约》第6条、《基本法》第33条及普通法工作权均不成立也提及第3条的绝对权利属性和医学证据要求。
主要问题误称第3条及酌情权限制问题“部分胜诉、上诉得直、发还重审”。原文最终是驳回所有上诉且没有发还。它还把“禁止工作是否构成不人道处遇”写成“发还原讼法庭或处长重审”属于不存在的救济。
评分:准确度 6.8,完整度 7.4,综合 7.1。
### result_or-minimax-m2.7.yaml
优点基本身份、法院、答辩人、工作权争议、第3条门槛、处长酌情权等项目均有覆盖实体列表也较完整。
主要问题:同样混淆一审背景和终审结果,把 MA/GA 的一审司法覆核部分胜诉作为当前案件结果之一。第3条部分写成“申请人未能证明风险败诉”但终审法院没有作出该事实裁定只因实际情形使救济问题学术化而不处理事实争议。
评分:准确度 6.7,完整度 7.2,综合 6.9。
### result_or-deepseek-v4-flash.yaml
优点能正确识别第3条原则上可适用并指出如存在真正及重大不人道风险处长无酌情权拒绝工作准许工作权主张失败的理由也基本到位。
主要问题:最终结果严重偏差,称“部分胜诉”“发还处长重新考虑各人个案”“政策部分胜诉”。原文没有这些终审救济,终审法院是驳回所有上诉。该输出还把政策争议写得过强,原文主要是法律原则和个案风险门槛。
评分:准确度 6.5,完整度 7.3,综合 6.8。
### result_ollama-qwen3-8b.yaml
优点:当事人、答辩人、法院、基本案由和工作权主张失败大致正确;能看出案件不涉及具体赔偿金额。
主要问题第3条部分错误称“不适用且无证据显示重大风险”没有抓到终审法院在 Ubamaka 后确认第3条不可被第11条减免。它还错误写入“接受相称性验证标准”而原文因无宪法工作权所以不产生相称性问题。实体中出现 `Tang Kwok Wah v HKSAR [2019] HKCFA 23` 等与本案无关的幻觉引用,且部分结果分类如“医疗费用及精神损害赔偿”并非本案提取重点。
评分:准确度 5.6,完整度 6.2,综合 5.9。
## 时间与费用
| 模型配置 | 耗时(秒) | API 调用 | 输入 tokens | 输出 tokens | 总 tokens | 费用 |
|---|---:|---:|---:|---:|---:|---:|
| `mm-minimax-m2.7` | 91.445 | 8 | 34,477 | 5,105 | 39,582 | USD 0.015920 |
| `ollama-qwen3-8b` | 105.054 | 8 | 43,060 | 1,536 | 44,596 | USD 0.000000 |
| `or-claude-sonnet-4.5` | 67.418 | 9 | 57,583 | 3,158 | 60,741 | USD 0.220119 |
| `or-deepseek-v4-flash` | 89.997 | 6 | 26,974 | 4,900 | 31,874 | USD 0.003677 |
| `or-deepseek-v4-pro` | 250.701 | 9 | 41,782 | 9,456 | 51,238 | USD 0.026402 |
| `or-gemini-3-flash-preview` | 32.713 | 9 | 44,252 | 2,245 | 46,497 | USD 0.028861 |
| `or-minimax-m2.7` | 88.981 | 9 | 45,184 | 4,715 | 49,899 | USD 0.018264 |
## 成本效果观察
- 速度最快的是 `or-gemini-3-flash-preview`,耗时 32.713 秒,同时完整度最高,但最终救济判断有重大错误。
- 最便宜的付费模型是 `or-deepseek-v4-flash`,费用 USD 0.003677,但其最终结果误判较严重。
- `or-claude-sonnet-4.5` 成本最高USD 0.220119基础提取稳定但第3条核心法律结论错误性价比不突出。
- `ollama-qwen3-8b` 金钱成本为 0但准确度最低且有明显无关引用幻觉。
- 若以“可人工复核后使用”为标准,`or-gemini-3-flash-preview` 和 `or-claude-sonnet-4.5` 的信息覆盖较好;若最看重最终判决结果,`or-deepseek-v4-pro` 对“驳回所有上诉”的抓取最稳但第3条分析需要修正。