模型输出对比分析:2014_HKCFA_17 v3 (claude-opus-4.8)

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
main^2
fengruixiang 2026-05-29 18:43:32 +08:00
parent cf4c0f88d3
commit 5a0caad4b1
2 changed files with 138 additions and 1 deletions

View File

@ -5,7 +5,8 @@
"Bash(echo \"exit=$?\")", "Bash(echo \"exit=$?\")",
"Bash(git add *)", "Bash(git add *)",
"Bash(git commit -m ' *)", "Bash(git commit -m ' *)",
"Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")" "Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")",
"Bash(python3 -c ' *)"
] ]
} }
} }

View File

@ -0,0 +1,136 @@
# 模型输出对比分析2014_HKCFA_17 / v3
> 分析模型claude-opus-4.8
> 案件JA 對 入境事務處處長 [2014] HKCFA 17FACV 7,8,9,10/2013合併聆訊
> 评分制10.0 分制(准确度 60% + 完整度 40% 加权得出综合分)
> 本分析基于 `case.json` 原文独立完成,未参考目录下其它已有分析文件。
---
## 一、判决原文事实基准(评分锚点)
为避免被各模型相互"传染"的误读带偏,先从原文锁定关键事实:
| 维度 | 原文事实(出处段落) |
|------|----------------------|
| 上诉人 | GA、FI、JA经核实难民、PA获确立酷刑声请人第1段 |
| 答辩人 | 入境事务处处长第1段 |
| 法院/法官 | 终审法院马道立CJ、李义PJ、邓国桢PJ、陈兆恺NPJ、简嘉麒勳爵NPJ第60-65段 |
| **最终处置** | **一致驳回全部上诉**第78、85段仅作"不就讼费作出命令"之暂准命令 |
| 宪法工作权 | 《人权法案》第14条、《文化公约》第6条、《基本法》第33条**均不适用/不成立**理由为《人权条例》第11条 + 英国两项保留条文 + 二元原则D、E、F部 |
| 普通法工作权 | **不存在**G部第75段 |
| 第3条不人道处遇 | 处长酌情权**确受**《人权法案》第3条绝对权利依 Ubamaka 案制约第43-45段**但法院刻意不作终局事实裁定**因属学术性质第53段CJ仅"傾向贊同"可以想像构成不人道处遇第54段 |
| GA/MA 被撤销发还 | 系**原讼法庭张举能法官**之裁决第10段**非**终审法院;终审法院驳回全部上诉 |
| 讼费 | 暂准命令:不就讼费作命令;申请人就不人道处遇陈词"部分成功"第78段 |
**两大高频误区**(用于扣分判断):
1. **"发还重审/发还处长重新考虑"** —— 终审法院明确拒绝发还第53(3)段,因属学术),全案无此命令。凡将其作为终审处置者属事实性幻觉。
2. **"第3条不适用"** —— 此为下级法院(在 Ubamaka 前的旧观点已被本案纠正。凡称终审法院裁定第3条不适用者属重大错误。
---
## 二、逐模型评分
### 1. mm-minimax-m2.7Minimax 直连)
- 当事人/法院/管辖:全对。
- 宪法工作权敗诉:✅ 正确理由第11条+保留条文)准确。
- 第3条标注"部分勝訴/上訴得直"——❌ 处置定性错误(全部上诉被驳回);但"第3条制约酌情权"方向正确。
- 第三项 charge "发还重审"——❌ 幻觉处置。
- judgment_summary 亦称"發還原審或處長重審"——❌ 同一错误。
- involved_entities10 个,含入境处、酷刑审理科、联合国难民署,较完整。
- **准确度 6.5 完整度 8.0 综合 7.1**
### 2. ollama-qwen3-8b本地免费
- 当事人/法院:全对。
- 难得地**正确捕捉处置层级**GA/MA 部分勝訴归于原讼法庭憲法工作权上诉敗诉普通法无工作权第3条"**未有最終裁定**……附帶意見……須醫學證據"——✅ 这是所有模型中对"法院不作终局裁定"这一核心微妙点**最准确**的复述。
- summary 明确"駁回所有上訴"——✅ 终审处置正确。
- 瑕疵:"上訴法庭推翻此裁決"GA/MA属层级混淆小错CA 驳回上诉,但 CFI 之撤销裁决并未被推翻)。
- involved_entities10 个,完整。
- 弱点输出最短1536 output tokens对第3条"制约绝对权利"的法理意义着墨较少。
- **准确度 8.0 完整度 7.0 综合 7.6**(性价比之王:免费且处置判断最稳)
### 3. or-claude-sonnet-4.5
- 宪法工作权驳回:✅。
- 第3条法理阐述质量最高Ubamaka、绝对权利、"有真正重大风险则处长无酌情权")——法理✅。
- 但三处反复称"**發還處長重新考慮各個案**"——❌ 终审处置幻觉法院明确拒绝发还。summary 同误。
- involved_entities9 个,正确。
- **准确度 6.5 完整度 7.5 综合 6.9**(法理强、处置错;且成本最高)
### 4. or-deepseek-v4-flash
- 宪法工作权驳回 + 普通法无工作权:✅。
- 第3条"原審因第11條認定不適用之觀點有誤該條原則上可適用"——✅ 准确点出 Ubamaka 后的纠正。
- 但同样"部分勝訴……發還處長重新考慮"——❌ 处置幻觉。summary 同误。
- involved_entities9 个,正确。
- **准确度 6.5 完整度 7.5 综合 6.9**(与 sonnet 同型错误,但成本仅其 1/60
### 5. or-deepseek-v4-pro
- 宪法工作权敗诉含《基本法》第41条排除非居民+ 普通法单列敗诉:✅ 最齐全。
- 第3条"**部分勝訴(原則性認定)**……酌情權受第3條制約若致真正重大風險處長必須考慮給予准許"——✅ "原則性認定"用语精准,**避开了"发还"幻觉**。
- 瑕疵:将 GA/MA 撤销发还描述为终审法院"維持原訟法庭判決……撤銷原決定並令重新考慮"CFI/CFA 层级略有混淆summary 未明确点出"驳回全部上诉"。
- involved_entities**14 个**(含 GA/PA/FI/JA/MA 逐一列出),最完整。
- 代价:耗时最长 250.7s,输出 9456 tokens。
- **准确度 7.5 完整度 9.0 综合 8.1**(综合最高:处置定性最稳 + 信息最全)
### 6. or-gemini-3-flash-preview
- 宪法工作权敗诉:✅。
- **正确将 GA/MA 撤销归于"原審法官"**——✅ 层级判断准确。
- 但第3条"裁定**申請人未能證明**存在真正和重大的風險"故敗诉——❌ 错误。法院刻意**不作**此裁定CJ反而傾向认为可以想像构成不人道处遇此处把"未裁定"误读成"裁定败诉"。
- involved_entities11 个,含"香港特別行政區政府",较完整。
- 速度最快 32.7s。
- **准确度 6.5 完整度 8.0 综合 7.1**速度王第3条方向性误读
### 7. or-minimax-m2.7OpenRouter 转发)
- 宪法工作权敗诉:✅。
- 第3条"**駁回。第3條不適用**……無證據顯示重大風險"——❌❌ 重大错误(采纳了被本案纠正的旧观点)。
- "上訴法庭撤銷處長對MA及GA的決定"——❌ 误归 CA实为 CFI
- **幻觉引证**:李义法官 reason 写"在 Tang Kwok Wah v HKSAR **[2019] HKCFA 23**……本案第34段引用其判詞"——❌ 2014 年判决不可能引用 2019 年案例,纯属编造。
- 填充式 charge"醫療費用及精神損害賠償/工作准許延續 = 無"——案中并无此争点,属凑数。
- involved_entities仅 7 个,最少。
- **准确度 4.0 完整度 6.0 综合 4.8**(同名模型经 OpenRouter 反而最差)
> 值得注意:**同一 minimax-m2.7 经 Minimax 直连7.1)明显优于 OpenRouter 转发4.8**——直连版第3条方向正确且无幻觉引证转发版出现"第3条不適用"+ 编造 2019 案例。提示同模型不同供应商链路的输出质量可显著不同。
---
## 三、综合评分排名
| 排名 | 模型 | 准确度 | 完整度 | **综合** | 耗时(s) | 成本(USD) |
|------|------|:------:|:------:|:------:|:------:|:------:|
| 1 | or-deepseek-v4-pro | 7.5 | 9.0 | **8.1** | 250.7 | 0.026402 |
| 2 | ollama-qwen3-8b | 8.0 | 7.0 | **7.6** | 105.1 | **0.000000** |
| 3 | mm-minimax-m2.7 | 6.5 | 8.0 | **7.1** | 91.4 | 0.015920 |
| 3 | or-gemini-3-flash-preview | 6.5 | 8.0 | **7.1** | **32.7** | 0.028861 |
| 5 | or-claude-sonnet-4.5 | 6.5 | 7.5 | **6.9** | 67.4 | 0.220119 |
| 5 | or-deepseek-v4-flash | 6.5 | 7.5 | **6.9** | 90.0 | **0.003677** |
| 7 | or-minimax-m2.7 | 4.0 | 6.0 | **4.8** | 89.0 | 0.018264 |
> 综合分 = 准确度×0.6 + 完整度×0.4。
---
## 四、时间与金钱效率分析
- **最快**gemini-3-flash-preview32.7s),约为最慢者 deepseek-v4-pro250.7s)的 1/8。
- **最慢**deepseek-v4-pro250.7s,输出 9456 tokens质量第一但慢且未必划算。
- **零成本**ollama-qwen3-8b本地$0却拿下准确度并列最高、综合第二——本案最佳性价比。
- **最贵**claude-sonnet-4.5$0.2201),是 deepseek-v4-flash$0.0037)的约 **60 倍**但综合分两者持平6.9)——本案性价比最低。
- **每元价值**付费云端模型中deepseek-v4-flash 以 $0.0037 拿到 6.9 分单位成本性价比最高deepseek-v4-pro 多花 7 倍钱($0.0264)换得 +1.2 分。
成本区间:本案全部 7 个模型,付费部分单次提取成本介于 **$0.0037 $0.2201**,相差约 60 倍。
---
## 五、结论与选型建议
1. **共性优点**7 个模型对当事人、法院、管辖、宪法工作权敗诉及第11条+保留条文之理由)的提取**高度一致且正确**,结构化字段稳定。
2. **共性难点**本案最易失分处是第3条不人道处遇的**终审处置**——法院"承认第3条制约酌情权但刻意不作终局裁定、且明确拒绝发还"。多数模型在此二选一地犯错:
- 误判为"发还重审/发还处长重新考虑"sonnet-4.5、deepseek-flash、mm-minimax
- 误判为"裁定申请人未能证明、第3条不适用"gemini、or-minimax
- 仅 **ollama-qwen3-8b"未有最終裁定"****deepseek-v4-pro"原則性認定"** 准确把握了这一微妙点。
3. **唯一硬幻觉**or-minimax-m2.7 编造了 `[2019] HKCFA 23` 案例引用——在法律场景中属高危错误。
4. **选型建议**
- 追求**准确稳健且零成本**`ollama-qwen3-8b`(本地)首选。
- 追求**信息最完整**且可接受较慢/中等成本:`deepseek-v4-pro`。
- 追求**速度**`gemini-3-flash-preview`需复核第3条处置
- **付费性价比**`deepseek-v4-flash`$0.0037 即达主流水准)。
- 不建议:`or-minimax-m2.7`(幻觉引证 + 第3条方向错`claude-sonnet-4.5` 在本案性价比偏低(贵 60 倍而分数不占优)。