模型输出对比分析：2014_HKCFA_17 v3 (claude-opus-4.8)

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-29 18:43:32 +08:00 · 2026-05-29 18:43:32 +08:00 · 5a0caad4b1
parent cf4c0f88d3
commit 5a0caad4b1
2 changed files with 138 additions and 1 deletions
--- a/.claude/settings.local.json
+++ b/.claude/settings.local.json
@ -5,7 +5,8 @@
      "Bash(echo \"exit=$?\")",
      "Bash(git add *)",
      "Bash(git commit -m ' *)",
-      "Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")"
+      "Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")",
      "Bash(python3 -c ' *)"
    ]
  }
 }
--- a/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.8.md
+++ b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.8.md
@ -0,0 +1,136 @@
 # 模型输出对比分析（2014_HKCFA_17 / v3）
 > 分析模型：claude-opus-4.8
 > 案件：JA 對 入境事務處處長　[2014] HKCFA 17（FACV 7,8,9,10/2013，合併聆訊）
 > 评分制：10.0 分制（准确度 60% + 完整度 40% 加权得出综合分）
 > 本分析基于 `case.json` 原文独立完成，未参考目录下其它已有分析文件。
 ---
 ## 一、判决原文事实基准（评分锚点）
 为避免被各模型相互"传染"的误读带偏，先从原文锁定关键事实：
 | 维度 | 原文事实（出处段落） |
 |------|----------------------|
 | 上诉人 | GA、FI、JA（经核实难民）、PA（获确立酷刑声请人）（第1段） |
 | 答辩人 | 入境事务处处长（第1段） |
 | 法院/法官 | 终审法院；马道立CJ、李义PJ、邓国桢PJ、陈兆恺NPJ、简嘉麒勳爵NPJ（第60-65段） |
 | **最终处置** | **一致驳回全部上诉**（第78、85段），仅作"不就讼费作出命令"之暂准命令 |
 | 宪法工作权 | 《人权法案》第14条、《文化公约》第6条、《基本法》第33条**均不适用/不成立**；理由为《人权条例》第11条 + 英国两项保留条文 + 二元原则（D、E、F部） |
 | 普通法工作权 | **不存在**（G部，第75段） |
 | 第3条不人道处遇 | 处长酌情权**确受**《人权法案》第3条（绝对权利，依 Ubamaka 案）制约（第43-45段）；**但法院刻意不作终局事实裁定**，因属学术性质（第53段）；CJ仅"傾向贊同"可以想像构成不人道处遇（第54段） |
 | GA/MA 被撤销发还 | 系**原讼法庭张举能法官**之裁决（第10段），**非**终审法院；终审法院驳回全部上诉 |
 | 讼费 | 暂准命令：不就讼费作命令；申请人就不人道处遇陈词"部分成功"（第78段） |
 **两大高频误区**（用于扣分判断）：
 1. **"发还重审/发还处长重新考虑"** —— 终审法院明确拒绝发还（第53(3)段，因属学术），全案无此命令。凡将其作为终审处置者属事实性幻觉。
 2. **"第3条不适用"** —— 此为下级法院（在 Ubamaka 前）的旧观点，已被本案纠正。凡称终审法院裁定第3条不适用者属重大错误。
 ---
 ## 二、逐模型评分
 ### 1. mm-minimax-m2.7（Minimax 直连）
 - 当事人/法院/管辖：全对。
 - 宪法工作权敗诉：✅ 正确，理由（第11条+保留条文）准确。
 - 第3条：标注"部分勝訴／上訴得直"——❌ 处置定性错误（全部上诉被驳回）；但"第3条制约酌情权"方向正确。
 - 第三项 charge "发还重审"——❌ 幻觉处置。
 - judgment_summary 亦称"發還原審或處長重審"——❌ 同一错误。
 - involved_entities：10 个，含入境处、酷刑审理科、联合国难民署，较完整。
 - **准确度 6.5　完整度 8.0　综合 7.1**
 ### 2. ollama-qwen3-8b（本地，免费）
 - 当事人/法院：全对。
 - 难得地**正确捕捉处置层级**：GA/MA 部分勝訴归于原讼法庭；憲法工作权上诉敗诉；普通法无工作权；第3条"**未有最終裁定**……附帶意見……須醫學證據"——✅ 这是所有模型中对"法院不作终局裁定"这一核心微妙点**最准确**的复述。
 - summary 明确"駁回所有上訴"——✅ 终审处置正确。
 - 瑕疵："上訴法庭推翻此裁決"（GA/MA）属层级混淆小错（CA 驳回上诉，但 CFI 之撤销裁决并未被推翻）。
 - involved_entities：10 个，完整。
 - 弱点：输出最短（1536 output tokens），对第3条"制约绝对权利"的法理意义着墨较少。
 - **准确度 8.0　完整度 7.0　综合 7.6**（性价比之王：免费且处置判断最稳）
 ### 3. or-claude-sonnet-4.5
 - 宪法工作权驳回：✅。
 - 第3条法理阐述质量最高（Ubamaka、绝对权利、"有真正重大风险则处长无酌情权"）——法理✅。
 - 但三处反复称"**發還處長重新考慮各個案**"——❌ 终审处置幻觉（法院明确拒绝发还）。summary 同误。
 - involved_entities：9 个，正确。
 - **准确度 6.5　完整度 7.5　综合 6.9**（法理强、处置错；且成本最高）
 ### 4. or-deepseek-v4-flash
 - 宪法工作权驳回 + 普通法无工作权：✅。
 - 第3条："原審因第11條認定不適用之觀點有誤，該條原則上可適用"——✅ 准确点出 Ubamaka 后的纠正。
 - 但同样"部分勝訴……發還處長重新考慮"——❌ 处置幻觉。summary 同误。
 - involved_entities：9 个，正确。
 - **准确度 6.5　完整度 7.5　综合 6.9**（与 sonnet 同型错误，但成本仅其 1/60）
 ### 5. or-deepseek-v4-pro
 - 宪法工作权敗诉（含《基本法》第41条排除非居民）+ 普通法单列敗诉：✅ 最齐全。
 - 第3条："**部分勝訴（原則性認定）**……酌情權受第3條制約，若致真正重大風險，處長必須考慮給予准許"——✅ "原則性認定"用语精准，**避开了"发还"幻觉**。
 - 瑕疵：将 GA/MA 撤销发还描述为终审法院"維持原訟法庭判決……撤銷原決定並令重新考慮"，CFI/CFA 层级略有混淆；summary 未明确点出"驳回全部上诉"。
 - involved_entities：**14 个**（含 GA/PA/FI/JA/MA 逐一列出），最完整。
 - 代价：耗时最长 250.7s，输出 9456 tokens。
 - **准确度 7.5　完整度 9.0　综合 8.1**（综合最高：处置定性最稳 + 信息最全）
 ### 6. or-gemini-3-flash-preview
 - 宪法工作权敗诉：✅。
 - **正确将 GA/MA 撤销归于"原審法官"**——✅ 层级判断准确。
 - 但第3条："裁定**申請人未能證明**存在真正和重大的風險"故敗诉——❌ 错误。法院刻意**不作**此裁定，CJ反而傾向认为可以想像构成不人道处遇；此处把"未裁定"误读成"裁定败诉"。
 - involved_entities：11 个，含"香港特別行政區政府"，较完整。
 - 速度最快 32.7s。
 - **准确度 6.5　完整度 8.0　综合 7.1**（速度王；第3条方向性误读）
 ### 7. or-minimax-m2.7（OpenRouter 转发）
 - 宪法工作权敗诉：✅。
 - 第3条："**駁回。第3條不適用**……無證據顯示重大風險"——❌❌ 重大错误（采纳了被本案纠正的旧观点）。
 - "上訴法庭撤銷處長對MA及GA的決定"——❌ 误归 CA（实为 CFI）。
 - **幻觉引证**：李义法官 reason 写"在 Tang Kwok Wah v HKSAR **[2019] HKCFA 23**……本案第34段引用其判詞"——❌ 2014 年判决不可能引用 2019 年案例，纯属编造。
 - 填充式 charge："醫療費用及精神損害賠償／工作准許延續 = 無"——案中并无此争点，属凑数。
 - involved_entities：仅 7 个，最少。
 - **准确度 4.0　完整度 6.0　综合 4.8**（同名模型经 OpenRouter 反而最差）
 > 值得注意：**同一 minimax-m2.7 经 Minimax 直连（7.1）明显优于 OpenRouter 转发（4.8）**——直连版第3条方向正确且无幻觉引证，转发版出现"第3条不適用"+ 编造 2019 案例。提示同模型不同供应商链路的输出质量可显著不同。
 ---
 ## 三、综合评分排名
 | 排名 | 模型 | 准确度 | 完整度 | **综合** | 耗时(s) | 成本(USD) |
 |------|------|:------:|:------:|:------:|:------:|:------:|
 | 1 | or-deepseek-v4-pro | 7.5 | 9.0 | **8.1** | 250.7 | 0.026402 |
 | 2 | ollama-qwen3-8b | 8.0 | 7.0 | **7.6** | 105.1 | **0.000000** |
 | 3 | mm-minimax-m2.7 | 6.5 | 8.0 | **7.1** | 91.4 | 0.015920 |
 | 3 | or-gemini-3-flash-preview | 6.5 | 8.0 | **7.1** | **32.7** | 0.028861 |
 | 5 | or-claude-sonnet-4.5 | 6.5 | 7.5 | **6.9** | 67.4 | 0.220119 |
 | 5 | or-deepseek-v4-flash | 6.5 | 7.5 | **6.9** | 90.0 | **0.003677** |
 | 7 | or-minimax-m2.7 | 4.0 | 6.0 | **4.8** | 89.0 | 0.018264 |
 > 综合分 = 准确度×0.6 + 完整度×0.4。
 ---
 ## 四、时间与金钱效率分析
 - **最快**：gemini-3-flash-preview（32.7s），约为最慢者 deepseek-v4-pro（250.7s）的 1/8。
 - **最慢**：deepseek-v4-pro（250.7s，输出 9456 tokens），质量第一但慢且未必划算。
 - **零成本**：ollama-qwen3-8b（本地，$0），却拿下准确度并列最高、综合第二——本案最佳性价比。
 - **最贵**：claude-sonnet-4.5（$0.2201），是 deepseek-v4-flash（$0.0037）的约 **60 倍**，但综合分两者持平（6.9）——本案性价比最低。
 - **每元价值**：付费云端模型中，deepseek-v4-flash 以 $0.0037 拿到 6.9 分，单位成本性价比最高；deepseek-v4-pro 多花 7 倍钱（$0.0264）换得 +1.2 分。
 成本区间：本案全部 7 个模型，付费部分单次提取成本介于 **$0.0037 – $0.2201**，相差约 60 倍。
 ---
 ## 五、结论与选型建议
 1. **共性优点**：7 个模型对当事人、法院、管辖、宪法工作权敗诉（及第11条+保留条文之理由）的提取**高度一致且正确**，结构化字段稳定。
 2. **共性难点**：本案最易失分处是第3条不人道处遇的**终审处置**——法院"承认第3条制约酌情权，但刻意不作终局裁定、且明确拒绝发还"。多数模型在此二选一地犯错：
   - 误判为"发还重审/发还处长重新考虑"（sonnet-4.5、deepseek-flash、mm-minimax）；
   - 误判为"裁定申请人未能证明、第3条不适用"（gemini、or-minimax）。
   - 仅 **ollama-qwen3-8b（"未有最終裁定"）** 与 **deepseek-v4-pro（"原則性認定"）** 准确把握了这一微妙点。
 3. **唯一硬幻觉**：or-minimax-m2.7 编造了 `[2019] HKCFA 23` 案例引用——在法律场景中属高危错误。
 4. **选型建议**：
   - 追求**准确稳健且零成本**：`ollama-qwen3-8b`（本地）首选。
   - 追求**信息最完整**且可接受较慢/中等成本：`deepseek-v4-pro`。
   - 追求**速度**：`gemini-3-flash-preview`（需复核第3条处置）。
   - **付费性价比**：`deepseek-v4-flash`（$0.0037 即达主流水准）。
   - 不建议：`or-minimax-m2.7`（幻觉引证 + 第3条方向错）；`claude-sonnet-4.5` 在本案性价比偏低（贵 60 倍而分数不占优）。