模型输出对比分析：2014_HKCFA_17 v3 (claude-opus-4.7)

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-29 18:11:40 +08:00 · 2026-05-29 18:11:40 +08:00 · c038372d1a
parent 14c85787ba
commit c038372d1a
2 changed files with 151 additions and 1 deletions
--- a/.claude/settings.local.json
+++ b/.claude/settings.local.json
@ -1,7 +1,11 @@
 {
  "permissions": {
    "allow": [
-      "Bash(uv run:*)"
+      "Bash(uv run:*)",
+      "Bash(echo \"exit=$?\")",
+      "Bash(git add *)",
+      "Bash(git commit -m ' *)",
+      "Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")"
    ]
  }
 }
--- a/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.7.md
+++ b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.7.md
@ -0,0 +1,146 @@
+# 模型輸出對比分析 — 2014_HKCFA_17（FACV 7,8,9 & 10/2013）
+
+> 分析使用模型：**Claude Opus 4.7**（claude-opus-4-7）
+> 分析日期：2026-05-29
+> 評分制度：準確度、完整度均為 10.0 分制，綜合分取兩者加權
+> 本分析以 `case.json` 原文為唯一基準，獨立評分，未參考目錄下任何既有分析文件。
+
+---
+
+## 一、案件原文關鍵事實（評分基準）
+
+評分前先確立原判決的「標準答案」，後續所有準確度判斷以此為據。
+
+| 項目 | 原文事實 |
+|---|---|
+| 案件 | FACV 7、8、9及10/2013 合併上訴；中性引註 [2014] HKCFA 17 |
+| 判案日期 | 2014年2月18日；聆訊 2014年1月8-9日 |
+| 上訴人 | GA、FI、JA（經核實難民）、PA（獲確立酷刑聲請人）；來自布隆迪、斯里蘭卡、巴基斯坦 |
+| 答辯人 | 入境事務處處長 |
+| 主審 | 馬道立CJ、李義PJ、鄧國楨PJ、陳兆愷NPJ、簡嘉麒勳爵NPJ（五人合議） |
+| 核心爭議 | 經核實難民／獲確立酷刑聲請人在港是否有受憲法保障的工作權 |
+| 下級法院 | 原訟法庭張舉能法官（2011-01-06）；上訴法庭霍兆剛法官等（2012-11-27，駁回所有上訴） |
+
+**各爭議點的真正裁決結果（最關鍵）：**
+
+1. **《人權法案》第14條**：因《人權條例》第11條 + 英國就《權利公約》的保留條文 → **不適用**，申請人不能倚賴。
+2. **《文化公約》第6條**：未依二元原則納入本地法律，且有英國保留條文 → **不適用**。
+3. **《基本法》第33條**：僅保障「選擇職業自由」，**不含**廣泛工作權；法院**明確表示無須就第41條作出結論**（第74段）。
+4. **普通法工作權**：**不存在**。
+5. **相稱性**：因無憲法工作權，**根本不發生**（第76段）。
+6. **《人權法案》第3條（不人道處遇）**：因 Ubamaka 案，第3條為**絕對、不可減損**權利，**不被第11條排除、確實適用**；若禁止工作構成（或有重大迫切風險引致）不人道處遇，處長**必須**給予工作准許。**但法院刻意不就「是否實際存在不人道處遇」作出事實裁定**（第53段），僅「傾向贊同」可以想像其處境可構成不人道處遇（第54段）。
+7. **最終命令**：**一致駁回所有上訴**（第78、85段）；作出暫准命令**不就訟費作出命令**。**無發還重審、無撤銷處長決定、無任何上訴得直**。
+
+> 易錯點：① 第3條是「適用但不作事實裁定」，非「不適用」、亦非「申請人未能證明」；② 最終是「全部駁回」，非「部分勝訴／發還／上訴得直」；③ MA及GA被撤銷決定是**原訟法庭**所為，且**未繼續上訴至終院**（MA）；④ 第33條失敗不是因第41條。
+
+---
+
+## 二、總覽：時間與金錢
+
+數據取自各 `*_cost.json`。
+
+| 模型 (config) | 來源 | 用時 (秒) | API次數 | 輸入tok | 輸出tok | 總成本 (USD) |
+|---|---|---:|---:|---:|---:|---:|
+| or-gemini-3-flash-preview | openrouter | **32.7** | 9 | 44,252 | 2,245 | 0.028861 |
+| or-claude-sonnet-4.5 | openrouter | 67.4 | 9 | 57,583 | 3,158 | **0.220119** |
+| or-minimax-m2.7 | openrouter | 89.0 | 9 | 45,184 | 4,715 | 0.018264 |
+| or-deepseek-v4-flash | openrouter | 90.0 | 6 | 26,974 | 4,900 | **0.003677** |
+| mm-minimax-m2.7 | Minimax直連 | 91.4 | 8 | 34,477 | 5,105 | 0.015920 |
+| ollama-qwen3-8b | local | 105.1 | 8 | 43,060 | 1,536 | **0.000000** |
+| or-deepseek-v4-pro | openrouter | **250.7** | 9 | 41,782 | 9,456 | 0.026402 |
+
+要點：
+- **最快**：gemini-3-flash（32.7s），約為次快者 claude 的一半。
+- **最慢**：deepseek-v4-pro（250.7s），約為平均值的 3 倍，輸出 token 也最多（9,456）。
+- **最貴**：claude-sonnet-4.5（$0.22），是第二貴 gemini（$0.029）的約 **7.6 倍**，主因單價高（輸入 $3 / 輸出 $15 每百萬）。
+- **最省**：qwen3-8b 本地免費；付費中 deepseek-v4-flash 最便宜（$0.0037）。
+- 同一模型 minimax-m2.7：直連（mm-，$0.0159 / 91s）與 openrouter（or-，$0.0183 / 89s）價格、用時接近，但**輸出內容質量差異顯著**（見下）。
+
+---
+
+## 三、準確度與完整度評分（10.0 分制）
+
+| 排名 | 模型 | 準確度 | 完整度 | **綜合** | 用時 | 成本 |
+|:--:|---|:--:|:--:|:--:|--:|--:|
+| 1 | **or-claude-sonnet-4.5** | 9.0 | 9.0 | **9.0** | 67.4s | $0.2201 |
+| 2 | or-deepseek-v4-pro | 7.5 | 7.5 | **7.5** | 250.7s | $0.0264 |
+| 3 | or-minimax-m2.7 | 7.0 | 8.0 | **7.3** | 89.0s | $0.0183 |
+| 4 | or-gemini-3-flash-preview | 6.0 | 8.5 | **7.0** | 32.7s | $0.0289 |
+| 5 | or-deepseek-v4-flash | 6.0 | 6.5 | **6.0** | 90.0s | $0.0037 |
+| 6 | mm-minimax-m2.7 | 5.0 | 7.0 | **5.5** | 91.4s | $0.0159 |
+| 7 | ollama-qwen3-8b | 3.0 | 4.0 | **3.5** | 105.1s | $0.0000 |
+
+> 全部七個模型在基礎欄位（plaintiff / defendant / jurisdiction / case_location）均正確，差異集中在 `judgment_result`、`judgment_summary`、`involved_entities`。
+
+---
+
+## 四、逐模型評析
+
+### 1. or-claude-sonnet-4.5 — 綜合 9.0（最佳）
+**準確度 9.0｜完整度 9.0**
+- ✅ **唯一正確處理第3條**：明確標為「未有最終裁定」，並指出下級法院因第11條認定第3條不適用、而原訟法庭附帶意見認為長期禁止工作在特定情況下可構成不人道處遇、須有醫學證據——與原文第53–54、79、84段高度吻合。
+- ✅ judgment_summary 明確「終審法院經審理後，駁回所有上訴」，並準確覆蓋第11條、兩項保留條文、普通法無工作權。
+- ✅ judgment_result 分層（CFI 部分勝訴 / CA 駁回 / FI·JA·PA 駁回）邏輯清晰、與下級法院事實一致。
+- ⚠️ 小瑕疵：稱「上訴法庭推翻此裁決」（指 GA/MA 被撤銷的決定）屬略微過度——CA 駁回的是申請人的上訴，原訟法庭對 GA/MA 的撤銷並未被明確推翻。
+- ⚠️ 未把申請人本人、代表大律師列為 entity（gemini 有列申請人）。
+- 代價：**最貴（$0.22，約為次貴 7.6 倍）**，但用時中等（67s）。準確度物有所值。
+
+### 2. or-deepseek-v4-pro — 綜合 7.5
+**準確度 7.5｜完整度 7.5**
+- ✅ **最清晰陳述最終結論**：「駁回所有四名上訴人的上訴，維持上訴法庭的判決」——七個模型中對核心 holding 表述最直接準確。
+- ❌ 第33條失敗誤歸因於第41條（「因《基本法》第41條而不適用於非香港居民」）——原文第74段明言**無須就第41條作結論**；真正理由是第33條僅限擇業自由。
+- ❌ 第3條：稱「上訴人未能提供證據證明存在真正和重大的風險」——錯誤，法院是**刻意不作事實裁定**，且「傾向贊同」可構成不人道處遇。
+- ⚠️ involved_entities 杜撰下級法院案號「HCAL 68/2010」「CACV 46/2011」（原文未提供）。
+- ⚠️ case_object 僅「工作權」一項，最單薄。
+- 代價：**最慢（250.7s）**、輸出 token 最多，成本中上。
+
+### 3. or-minimax-m2.7 — 綜合 7.3
+**準確度 7.0｜完整度 8.0**
+- ✅ case_object 最完整（工作准許／憲法工作權／不人道處遇／出入境管制酌情權四項）。
+- ✅ 未杜撰「發還」「上訴得直」；各爭議點標為敗訴／部分勝訴，方向與「駁回」一致。
+- ✅ entity 覆蓋廣（含 ImmD、酷刑聲請審理科、UNHCR、HKSAR政府）。
+- ❌ 第3條同樣誤作「申請人未能證明真正和重大風險」（應為法院不作裁定）。
+- ⚠️ 未在 judgment_result 明確點出「一致駁回所有上訴」，需從各分項推斷。
+
+### 4. or-gemini-3-flash-preview — 綜合 7.0
+**準確度 6.0｜完整度 8.5**
+- ✅ **完整度最高**：involved_entities 唯一同時列出五位法官、兩位下級法院法官、處長、UNHCR、酷刑聲請審理科**及四名上訴人 GA/PA/FI/JA + MA**。
+- ✅ **最快（32.7s）**。
+- ✅ 憲法工作權部分推理乾淨（第11條、保留條文、第33條僅擇業自由）。
+- ❌ **核心 holding 錯誤**：稱 GA 及 MA「勝訴。法庭維持原訟法庭判決……撤銷原決定並令處長重新考慮」——把原訟法庭的撤銷錯誤抬升為終院結論，與「一致駁回所有上訴」相矛盾，summary 亦未陳述全部駁回。
+- ⚠️ case_object「衡平法濟助」措辭不當（應為司法覆核濟助）。
+
+### 5. or-deepseek-v4-flash — 綜合 6.0
+**準確度 6.0｜完整度 6.5**
+- ✅ 正確指出下級法院「因第11條認定第3條不適用」之觀點在 Ubamaka 後已不正確、第3條原則上可適用——這點優於 qwen。
+- ❌ **杜撰「發還處長重新考慮」+「部分勝訴」**：稱「就處長決定及政策部分勝訴，發還處長按正確法律原則重新考慮」——原文無任何發還，係虛構結果，與「全部駁回」直接衝突。
+- 代價：**付費最便宜（$0.0037）**、用時中等。性價比尚可但核心結論失真。
+
+### 6. mm-minimax-m2.7（Minimax 直連）— 綜合 5.5
+**準確度 5.0｜完整度 7.0**
+- 與 or-minimax-m2.7 **同一模型**，但本次輸出明顯更差，凸顯渠道/採樣差異。
+- ❌ **最嚴重 holding 錯誤**：稱酌情權之上訴「**上訴得直**」、不人道待遇指控「**發還重審**」「須發還原訟法庭或處長重新考慮」——「上訴得直」與「全部駁回」完全相反，且發還亦屬虛構。
+- ⚠️ case_reason 誤作「向上訴法庭提出上訴」（應為向終審法院）。
+- ⚠️ 法官僅列簡稱（馬道立等），未含職銜，完整度略遜。
+- ✅ entity 覆蓋面尚可。
+
+### 7. ollama-qwen3-8b（本地）— 綜合 3.5（最差）
+**準確度 3.0｜完整度 4.0**
+- ❌ **第3條判斷反向**：「法庭認為《人權法案》第3條不適用」——與原文相反（法院認定第3條絕對、適用）。
+- ❌ **相稱性判斷反向**：「接受相稱性驗證標準」——原文第76段明言相稱性根本不發生。
+- ❌ **杜撰兩條損失範圍 charge**（醫療費用及精神損害賠償、工作准許延續及條件），屬無中生有的填充。
+- ❌ **嚴重幻覺引用**：李義的 reason 稱「在 Tang Kwok Wah v HKSAR [2019] HKCFA 23 中擔任主筆法官……本案第34段引用其判詞」——2014 年判決不可能引用 2019 年案件，案件與情節全屬捏造。
+- ❌ MA/GA 撤銷誤歸「上訴法庭」（應為原訟法庭）。
+- ⚠️ 缺霍兆剛法官；entity 數量與質量最低。
+- 唯一優勢：**本地免費**；但用時最長（105s）且結果不可靠。
+
+---
+
+## 五、結論與建議
+
+- **質量優先**：`claude-sonnet-4.5` 明顯領先（9.0），尤其是唯一正確處理第3條「不作事實裁定」這一全案最易錯之處；代價是約 7.6 倍於次貴模型的費用。
+- **性價比均衡**：`or-minimax-m2.7`（7.3 分 / $0.018 / 89s）在準確度、完整度、成本三者間最平衡，未出現虛構結論。
+- **速度優先**：`gemini-3-flash`（7.0 分 / 32.7s）最快且 entity 最完整，但須注意它誤把「GA/MA 勝訴並發還」當作終院結論。
+- **本地/極省**：`deepseek-v4-flash`（$0.0037）與本地 `qwen3-8b`（免費）成本最低，但兩者均在最終 holding 上失真（虛構發還／反向判斷），不建議用於需準確結論的場景。
+- **共性風險**：除 claude 外，**六個模型均未能準確表達「第3條適用但法院刻意不作事實裁定 + 全部駁回」**，普遍滑向「未能證明」「部分勝訴」「發還重審」「上訴得直」等錯誤表述——這是本案信息提取的最大難點。
+- **同模型渠道差異**：minimax-m2.7 經 openrouter（7.3）顯著優於 Minimax 直連（5.5），提示渠道/採樣設定對輸出穩定性有實質影響，值得在 pipeline 中固定。