模型输出对比分析:2014_HKCFA_17 v3 (claude-opus-4.8)
Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>main^2
parent
cf4c0f88d3
commit
5a0caad4b1
|
|
@ -5,7 +5,8 @@
|
||||||
"Bash(echo \"exit=$?\")",
|
"Bash(echo \"exit=$?\")",
|
||||||
"Bash(git add *)",
|
"Bash(git add *)",
|
||||||
"Bash(git commit -m ' *)",
|
"Bash(git commit -m ' *)",
|
||||||
"Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")"
|
"Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")",
|
||||||
|
"Bash(python3 -c ' *)"
|
||||||
]
|
]
|
||||||
}
|
}
|
||||||
}
|
}
|
||||||
|
|
|
||||||
|
|
@ -0,0 +1,136 @@
|
||||||
|
# 模型输出对比分析(2014_HKCFA_17 / v3)
|
||||||
|
|
||||||
|
> 分析模型:claude-opus-4.8
|
||||||
|
> 案件:JA 對 入境事務處處長 [2014] HKCFA 17(FACV 7,8,9,10/2013,合併聆訊)
|
||||||
|
> 评分制:10.0 分制(准确度 60% + 完整度 40% 加权得出综合分)
|
||||||
|
> 本分析基于 `case.json` 原文独立完成,未参考目录下其它已有分析文件。
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 一、判决原文事实基准(评分锚点)
|
||||||
|
|
||||||
|
为避免被各模型相互"传染"的误读带偏,先从原文锁定关键事实:
|
||||||
|
|
||||||
|
| 维度 | 原文事实(出处段落) |
|
||||||
|
|------|----------------------|
|
||||||
|
| 上诉人 | GA、FI、JA(经核实难民)、PA(获确立酷刑声请人)(第1段) |
|
||||||
|
| 答辩人 | 入境事务处处长(第1段) |
|
||||||
|
| 法院/法官 | 终审法院;马道立CJ、李义PJ、邓国桢PJ、陈兆恺NPJ、简嘉麒勳爵NPJ(第60-65段) |
|
||||||
|
| **最终处置** | **一致驳回全部上诉**(第78、85段),仅作"不就讼费作出命令"之暂准命令 |
|
||||||
|
| 宪法工作权 | 《人权法案》第14条、《文化公约》第6条、《基本法》第33条**均不适用/不成立**;理由为《人权条例》第11条 + 英国两项保留条文 + 二元原则(D、E、F部) |
|
||||||
|
| 普通法工作权 | **不存在**(G部,第75段) |
|
||||||
|
| 第3条不人道处遇 | 处长酌情权**确受**《人权法案》第3条(绝对权利,依 Ubamaka 案)制约(第43-45段);**但法院刻意不作终局事实裁定**,因属学术性质(第53段);CJ仅"傾向贊同"可以想像构成不人道处遇(第54段) |
|
||||||
|
| GA/MA 被撤销发还 | 系**原讼法庭张举能法官**之裁决(第10段),**非**终审法院;终审法院驳回全部上诉 |
|
||||||
|
| 讼费 | 暂准命令:不就讼费作命令;申请人就不人道处遇陈词"部分成功"(第78段) |
|
||||||
|
|
||||||
|
**两大高频误区**(用于扣分判断):
|
||||||
|
1. **"发还重审/发还处长重新考虑"** —— 终审法院明确拒绝发还(第53(3)段,因属学术),全案无此命令。凡将其作为终审处置者属事实性幻觉。
|
||||||
|
2. **"第3条不适用"** —— 此为下级法院(在 Ubamaka 前)的旧观点,已被本案纠正。凡称终审法院裁定第3条不适用者属重大错误。
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 二、逐模型评分
|
||||||
|
|
||||||
|
### 1. mm-minimax-m2.7(Minimax 直连)
|
||||||
|
- 当事人/法院/管辖:全对。
|
||||||
|
- 宪法工作权敗诉:✅ 正确,理由(第11条+保留条文)准确。
|
||||||
|
- 第3条:标注"部分勝訴/上訴得直"——❌ 处置定性错误(全部上诉被驳回);但"第3条制约酌情权"方向正确。
|
||||||
|
- 第三项 charge "发还重审"——❌ 幻觉处置。
|
||||||
|
- judgment_summary 亦称"發還原審或處長重審"——❌ 同一错误。
|
||||||
|
- involved_entities:10 个,含入境处、酷刑审理科、联合国难民署,较完整。
|
||||||
|
- **准确度 6.5 完整度 8.0 综合 7.1**
|
||||||
|
|
||||||
|
### 2. ollama-qwen3-8b(本地,免费)
|
||||||
|
- 当事人/法院:全对。
|
||||||
|
- 难得地**正确捕捉处置层级**:GA/MA 部分勝訴归于原讼法庭;憲法工作权上诉敗诉;普通法无工作权;第3条"**未有最終裁定**……附帶意見……須醫學證據"——✅ 这是所有模型中对"法院不作终局裁定"这一核心微妙点**最准确**的复述。
|
||||||
|
- summary 明确"駁回所有上訴"——✅ 终审处置正确。
|
||||||
|
- 瑕疵:"上訴法庭推翻此裁決"(GA/MA)属层级混淆小错(CA 驳回上诉,但 CFI 之撤销裁决并未被推翻)。
|
||||||
|
- involved_entities:10 个,完整。
|
||||||
|
- 弱点:输出最短(1536 output tokens),对第3条"制约绝对权利"的法理意义着墨较少。
|
||||||
|
- **准确度 8.0 完整度 7.0 综合 7.6**(性价比之王:免费且处置判断最稳)
|
||||||
|
|
||||||
|
### 3. or-claude-sonnet-4.5
|
||||||
|
- 宪法工作权驳回:✅。
|
||||||
|
- 第3条法理阐述质量最高(Ubamaka、绝对权利、"有真正重大风险则处长无酌情权")——法理✅。
|
||||||
|
- 但三处反复称"**發還處長重新考慮各個案**"——❌ 终审处置幻觉(法院明确拒绝发还)。summary 同误。
|
||||||
|
- involved_entities:9 个,正确。
|
||||||
|
- **准确度 6.5 完整度 7.5 综合 6.9**(法理强、处置错;且成本最高)
|
||||||
|
|
||||||
|
### 4. or-deepseek-v4-flash
|
||||||
|
- 宪法工作权驳回 + 普通法无工作权:✅。
|
||||||
|
- 第3条:"原審因第11條認定不適用之觀點有誤,該條原則上可適用"——✅ 准确点出 Ubamaka 后的纠正。
|
||||||
|
- 但同样"部分勝訴……發還處長重新考慮"——❌ 处置幻觉。summary 同误。
|
||||||
|
- involved_entities:9 个,正确。
|
||||||
|
- **准确度 6.5 完整度 7.5 综合 6.9**(与 sonnet 同型错误,但成本仅其 1/60)
|
||||||
|
|
||||||
|
### 5. or-deepseek-v4-pro
|
||||||
|
- 宪法工作权敗诉(含《基本法》第41条排除非居民)+ 普通法单列敗诉:✅ 最齐全。
|
||||||
|
- 第3条:"**部分勝訴(原則性認定)**……酌情權受第3條制約,若致真正重大風險,處長必須考慮給予准許"——✅ "原則性認定"用语精准,**避开了"发还"幻觉**。
|
||||||
|
- 瑕疵:将 GA/MA 撤销发还描述为终审法院"維持原訟法庭判決……撤銷原決定並令重新考慮",CFI/CFA 层级略有混淆;summary 未明确点出"驳回全部上诉"。
|
||||||
|
- involved_entities:**14 个**(含 GA/PA/FI/JA/MA 逐一列出),最完整。
|
||||||
|
- 代价:耗时最长 250.7s,输出 9456 tokens。
|
||||||
|
- **准确度 7.5 完整度 9.0 综合 8.1**(综合最高:处置定性最稳 + 信息最全)
|
||||||
|
|
||||||
|
### 6. or-gemini-3-flash-preview
|
||||||
|
- 宪法工作权敗诉:✅。
|
||||||
|
- **正确将 GA/MA 撤销归于"原審法官"**——✅ 层级判断准确。
|
||||||
|
- 但第3条:"裁定**申請人未能證明**存在真正和重大的風險"故敗诉——❌ 错误。法院刻意**不作**此裁定,CJ反而傾向认为可以想像构成不人道处遇;此处把"未裁定"误读成"裁定败诉"。
|
||||||
|
- involved_entities:11 个,含"香港特別行政區政府",较完整。
|
||||||
|
- 速度最快 32.7s。
|
||||||
|
- **准确度 6.5 完整度 8.0 综合 7.1**(速度王;第3条方向性误读)
|
||||||
|
|
||||||
|
### 7. or-minimax-m2.7(OpenRouter 转发)
|
||||||
|
- 宪法工作权敗诉:✅。
|
||||||
|
- 第3条:"**駁回。第3條不適用**……無證據顯示重大風險"——❌❌ 重大错误(采纳了被本案纠正的旧观点)。
|
||||||
|
- "上訴法庭撤銷處長對MA及GA的決定"——❌ 误归 CA(实为 CFI)。
|
||||||
|
- **幻觉引证**:李义法官 reason 写"在 Tang Kwok Wah v HKSAR **[2019] HKCFA 23**……本案第34段引用其判詞"——❌ 2014 年判决不可能引用 2019 年案例,纯属编造。
|
||||||
|
- 填充式 charge:"醫療費用及精神損害賠償/工作准許延續 = 無"——案中并无此争点,属凑数。
|
||||||
|
- involved_entities:仅 7 个,最少。
|
||||||
|
- **准确度 4.0 完整度 6.0 综合 4.8**(同名模型经 OpenRouter 反而最差)
|
||||||
|
|
||||||
|
> 值得注意:**同一 minimax-m2.7 经 Minimax 直连(7.1)明显优于 OpenRouter 转发(4.8)**——直连版第3条方向正确且无幻觉引证,转发版出现"第3条不適用"+ 编造 2019 案例。提示同模型不同供应商链路的输出质量可显著不同。
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 三、综合评分排名
|
||||||
|
|
||||||
|
| 排名 | 模型 | 准确度 | 完整度 | **综合** | 耗时(s) | 成本(USD) |
|
||||||
|
|------|------|:------:|:------:|:------:|:------:|:------:|
|
||||||
|
| 1 | or-deepseek-v4-pro | 7.5 | 9.0 | **8.1** | 250.7 | 0.026402 |
|
||||||
|
| 2 | ollama-qwen3-8b | 8.0 | 7.0 | **7.6** | 105.1 | **0.000000** |
|
||||||
|
| 3 | mm-minimax-m2.7 | 6.5 | 8.0 | **7.1** | 91.4 | 0.015920 |
|
||||||
|
| 3 | or-gemini-3-flash-preview | 6.5 | 8.0 | **7.1** | **32.7** | 0.028861 |
|
||||||
|
| 5 | or-claude-sonnet-4.5 | 6.5 | 7.5 | **6.9** | 67.4 | 0.220119 |
|
||||||
|
| 5 | or-deepseek-v4-flash | 6.5 | 7.5 | **6.9** | 90.0 | **0.003677** |
|
||||||
|
| 7 | or-minimax-m2.7 | 4.0 | 6.0 | **4.8** | 89.0 | 0.018264 |
|
||||||
|
|
||||||
|
> 综合分 = 准确度×0.6 + 完整度×0.4。
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 四、时间与金钱效率分析
|
||||||
|
|
||||||
|
- **最快**:gemini-3-flash-preview(32.7s),约为最慢者 deepseek-v4-pro(250.7s)的 1/8。
|
||||||
|
- **最慢**:deepseek-v4-pro(250.7s,输出 9456 tokens),质量第一但慢且未必划算。
|
||||||
|
- **零成本**:ollama-qwen3-8b(本地,$0),却拿下准确度并列最高、综合第二——本案最佳性价比。
|
||||||
|
- **最贵**:claude-sonnet-4.5($0.2201),是 deepseek-v4-flash($0.0037)的约 **60 倍**,但综合分两者持平(6.9)——本案性价比最低。
|
||||||
|
- **每元价值**:付费云端模型中,deepseek-v4-flash 以 $0.0037 拿到 6.9 分,单位成本性价比最高;deepseek-v4-pro 多花 7 倍钱($0.0264)换得 +1.2 分。
|
||||||
|
|
||||||
|
成本区间:本案全部 7 个模型,付费部分单次提取成本介于 **$0.0037 – $0.2201**,相差约 60 倍。
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## 五、结论与选型建议
|
||||||
|
|
||||||
|
1. **共性优点**:7 个模型对当事人、法院、管辖、宪法工作权敗诉(及第11条+保留条文之理由)的提取**高度一致且正确**,结构化字段稳定。
|
||||||
|
2. **共性难点**:本案最易失分处是第3条不人道处遇的**终审处置**——法院"承认第3条制约酌情权,但刻意不作终局裁定、且明确拒绝发还"。多数模型在此二选一地犯错:
|
||||||
|
- 误判为"发还重审/发还处长重新考虑"(sonnet-4.5、deepseek-flash、mm-minimax);
|
||||||
|
- 误判为"裁定申请人未能证明、第3条不适用"(gemini、or-minimax)。
|
||||||
|
- 仅 **ollama-qwen3-8b("未有最終裁定")** 与 **deepseek-v4-pro("原則性認定")** 准确把握了这一微妙点。
|
||||||
|
3. **唯一硬幻觉**:or-minimax-m2.7 编造了 `[2019] HKCFA 23` 案例引用——在法律场景中属高危错误。
|
||||||
|
4. **选型建议**:
|
||||||
|
- 追求**准确稳健且零成本**:`ollama-qwen3-8b`(本地)首选。
|
||||||
|
- 追求**信息最完整**且可接受较慢/中等成本:`deepseek-v4-pro`。
|
||||||
|
- 追求**速度**:`gemini-3-flash-preview`(需复核第3条处置)。
|
||||||
|
- **付费性价比**:`deepseek-v4-flash`($0.0037 即达主流水准)。
|
||||||
|
- 不建议:`or-minimax-m2.7`(幻觉引证 + 第3条方向错);`claude-sonnet-4.5` 在本案性价比偏低(贵 60 倍而分数不占优)。
|
||||||
Loading…
Reference in New Issue