hklii_samples/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.7.md

12 KiB
Raw Permalink Blame History

模型輸出對比分析 — 2014_HKCFA_17FACV 7,8,9 & 10/2013

分析使用模型:Claude Opus 4.7claude-opus-4-7 分析日期2026-05-29 評分制度:準確度、完整度均為 10.0 分制,綜合分取兩者加權 本分析以 case.json 原文為唯一基準,獨立評分,未參考目錄下任何既有分析文件。


一、案件原文關鍵事實(評分基準)

評分前先確立原判決的「標準答案」,後續所有準確度判斷以此為據。

項目 原文事實
案件 FACV 7、8、9及10/2013 合併上訴;中性引註 [2014] HKCFA 17
判案日期 2014年2月18日聆訊 2014年1月8-9日
上訴人 GA、FI、JA經核實難民、PA獲確立酷刑聲請人來自布隆迪、斯里蘭卡、巴基斯坦
答辯人 入境事務處處長
主審 馬道立CJ、李義PJ、鄧國楨PJ、陳兆愷NPJ、簡嘉麒勳爵NPJ五人合議
核心爭議 經核實難民/獲確立酷刑聲請人在港是否有受憲法保障的工作權
下級法院 原訟法庭張舉能法官2011-01-06上訴法庭霍兆剛法官等2012-11-27駁回所有上訴

各爭議點的真正裁決結果(最關鍵):

  1. 《人權法案》第14條因《人權條例》第11條 + 英國就《權利公約》的保留條文 → 不適用,申請人不能倚賴。
  2. 《文化公約》第6條:未依二元原則納入本地法律,且有英國保留條文 → 不適用
  3. 《基本法》第33條:僅保障「選擇職業自由」,不含廣泛工作權;法院明確表示無須就第41條作出結論第74段
  4. 普通法工作權不存在
  5. 相稱性:因無憲法工作權,根本不發生第76段
  6. 《人權法案》第3條不人道處遇:因 Ubamaka 案第3條為絕對、不可減損權利,不被第11條排除、確實適用;若禁止工作構成(或有重大迫切風險引致)不人道處遇,處長必須給予工作准許。但法院刻意不就「是否實際存在不人道處遇」作出事實裁定第53段僅「傾向贊同」可以想像其處境可構成不人道處遇第54段
  7. 最終命令一致駁回所有上訴第78、85段作出暫准命令不就訟費作出命令無發還重審、無撤銷處長決定、無任何上訴得直

易錯點:① 第3條是「適用但不作事實裁定」非「不適用」、亦非「申請人未能證明」② 最終是「全部駁回」,非「部分勝訴/發還/上訴得直」;③ MA及GA被撤銷決定是原訟法庭所為,且未繼續上訴至終院MA④ 第33條失敗不是因第41條。


二、總覽:時間與金錢

數據取自各 *_cost.json

模型 (config) 來源 用時 (秒) API次數 輸入tok 輸出tok 總成本 (USD)
or-gemini-3-flash-preview openrouter 32.7 9 44,252 2,245 0.028861
or-claude-sonnet-4.5 openrouter 67.4 9 57,583 3,158 0.220119
or-minimax-m2.7 openrouter 89.0 9 45,184 4,715 0.018264
or-deepseek-v4-flash openrouter 90.0 6 26,974 4,900 0.003677
mm-minimax-m2.7 Minimax直連 91.4 8 34,477 5,105 0.015920
ollama-qwen3-8b local 105.1 8 43,060 1,536 0.000000
or-deepseek-v4-pro openrouter 250.7 9 41,782 9,456 0.026402

要點:

  • 最快gemini-3-flash32.7s),約為次快者 claude 的一半。
  • 最慢deepseek-v4-pro250.7s),約為平均值的 3 倍,輸出 token 也最多9,456
  • 最貴claude-sonnet-4.5$0.22),是第二貴 gemini$0.029)的約 7.6 倍,主因單價高(輸入 $3 / 輸出 $15 每百萬)。
  • 最省qwen3-8b 本地免費;付費中 deepseek-v4-flash 最便宜($0.0037)。
  • 同一模型 minimax-m2.7直連mm-$0.0159 / 91s與 openrouteror-$0.0183 / 89s價格、用時接近輸出內容質量差異顯著(見下)。

三、準確度與完整度評分10.0 分制)

排名 模型 準確度 完整度 綜合 用時 成本
1 or-claude-sonnet-4.5 9.0 9.0 9.0 67.4s $0.2201
2 or-deepseek-v4-pro 7.5 7.5 7.5 250.7s $0.0264
3 or-minimax-m2.7 7.0 8.0 7.3 89.0s $0.0183
4 or-gemini-3-flash-preview 6.0 8.5 7.0 32.7s $0.0289
5 or-deepseek-v4-flash 6.0 6.5 6.0 90.0s $0.0037
6 mm-minimax-m2.7 5.0 7.0 5.5 91.4s $0.0159
7 ollama-qwen3-8b 3.0 4.0 3.5 105.1s $0.0000

全部七個模型在基礎欄位plaintiff / defendant / jurisdiction / case_location均正確差異集中在 judgment_resultjudgment_summaryinvolved_entities


四、逐模型評析

1. or-claude-sonnet-4.5 — 綜合 9.0(最佳)

準確度 9.0|完整度 9.0

  • 唯一正確處理第3條明確標為「未有最終裁定」並指出下級法院因第11條認定第3條不適用、而原訟法庭附帶意見認為長期禁止工作在特定情況下可構成不人道處遇、須有醫學證據——與原文第5354、79、84段高度吻合。
  • judgment_summary 明確「終審法院經審理後駁回所有上訴」並準確覆蓋第11條、兩項保留條文、普通法無工作權。
  • judgment_result 分層CFI 部分勝訴 / CA 駁回 / FI·JA·PA 駁回)邏輯清晰、與下級法院事實一致。
  • ⚠️ 小瑕疵:稱「上訴法庭推翻此裁決」(指 GA/MA 被撤銷的決定屬略微過度——CA 駁回的是申請人的上訴,原訟法庭對 GA/MA 的撤銷並未被明確推翻。
  • ⚠️ 未把申請人本人、代表大律師列為 entitygemini 有列申請人)。
  • 代價:最貴($0.22,約為次貴 7.6 倍)但用時中等67s。準確度物有所值。

2. or-deepseek-v4-pro — 綜合 7.5

準確度 7.5|完整度 7.5

  • 最清晰陳述最終結論:「駁回所有四名上訴人的上訴,維持上訴法庭的判決」——七個模型中對核心 holding 表述最直接準確。
  • 第33條失敗誤歸因於第41條「因《基本法》第41條而不適用於非香港居民」——原文第74段明言無須就第41條作結論真正理由是第33條僅限擇業自由。
  • 第3條稱「上訴人未能提供證據證明存在真正和重大的風險」——錯誤法院是刻意不作事實裁定,且「傾向贊同」可構成不人道處遇。
  • ⚠️ involved_entities 杜撰下級法院案號「HCAL 68/2010」「CACV 46/2011」原文未提供
  • ⚠️ case_object 僅「工作權」一項,最單薄。
  • 代價:最慢250.7s、輸出 token 最多,成本中上。

3. or-minimax-m2.7 — 綜合 7.3

準確度 7.0|完整度 8.0

  • case_object 最完整(工作准許/憲法工作權/不人道處遇/出入境管制酌情權四項)。
  • 未杜撰「發還」「上訴得直」;各爭議點標為敗訴/部分勝訴,方向與「駁回」一致。
  • entity 覆蓋廣(含 ImmD、酷刑聲請審理科、UNHCR、HKSAR政府
  • 第3條同樣誤作「申請人未能證明真正和重大風險」應為法院不作裁定
  • ⚠️ 未在 judgment_result 明確點出「一致駁回所有上訴」,需從各分項推斷。

4. or-gemini-3-flash-preview — 綜合 7.0

準確度 6.0|完整度 8.5

  • 完整度最高involved_entities 唯一同時列出五位法官、兩位下級法院法官、處長、UNHCR、酷刑聲請審理科及四名上訴人 GA/PA/FI/JA + MA
  • 最快32.7s
  • 憲法工作權部分推理乾淨第11條、保留條文、第33條僅擇業自由
  • 核心 holding 錯誤:稱 GA 及 MA「勝訴。法庭維持原訟法庭判決……撤銷原決定並令處長重新考慮」——把原訟法庭的撤銷錯誤抬升為終院結論與「一致駁回所有上訴」相矛盾summary 亦未陳述全部駁回。
  • ⚠️ case_object「衡平法濟助」措辭不當應為司法覆核濟助

5. or-deepseek-v4-flash — 綜合 6.0

準確度 6.0|完整度 6.5

  • 正確指出下級法院「因第11條認定第3條不適用」之觀點在 Ubamaka 後已不正確、第3條原則上可適用——這點優於 qwen。
  • 杜撰「發還處長重新考慮」+「部分勝訴」:稱「就處長決定及政策部分勝訴,發還處長按正確法律原則重新考慮」——原文無任何發還,係虛構結果,與「全部駁回」直接衝突。
  • 代價:付費最便宜($0.0037、用時中等。性價比尚可但核心結論失真。

6. mm-minimax-m2.7Minimax 直連)— 綜合 5.5

準確度 5.0|完整度 7.0

  • 與 or-minimax-m2.7 同一模型,但本次輸出明顯更差,凸顯渠道/採樣差異。
  • 最嚴重 holding 錯誤:稱酌情權之上訴「上訴得直」、不人道待遇指控「發還重審」「須發還原訟法庭或處長重新考慮」——「上訴得直」與「全部駁回」完全相反,且發還亦屬虛構。
  • ⚠️ case_reason 誤作「向上訴法庭提出上訴」(應為向終審法院)。
  • ⚠️ 法官僅列簡稱(馬道立等),未含職銜,完整度略遜。
  • entity 覆蓋面尚可。

7. ollama-qwen3-8b本地— 綜合 3.5(最差)

準確度 3.0|完整度 4.0

  • 第3條判斷反向「法庭認為《人權法案》第3條不適用」——與原文相反法院認定第3條絕對、適用
  • 相稱性判斷反向「接受相稱性驗證標準」——原文第76段明言相稱性根本不發生。
  • 杜撰兩條損失範圍 charge(醫療費用及精神損害賠償、工作准許延續及條件),屬無中生有的填充。
  • 嚴重幻覺引用:李義的 reason 稱「在 Tang Kwok Wah v HKSAR [2019] HKCFA 23 中擔任主筆法官……本案第34段引用其判詞」——2014 年判決不可能引用 2019 年案件,案件與情節全屬捏造。
  • MA/GA 撤銷誤歸「上訴法庭」(應為原訟法庭)。
  • ⚠️ 缺霍兆剛法官entity 數量與質量最低。
  • 唯一優勢:本地免費但用時最長105s且結果不可靠。

五、結論與建議

  • 質量優先claude-sonnet-4.5 明顯領先9.0尤其是唯一正確處理第3條「不作事實裁定」這一全案最易錯之處代價是約 7.6 倍於次貴模型的費用。
  • 性價比均衡or-minimax-m2.77.3 分 / $0.018 / 89s在準確度、完整度、成本三者間最平衡未出現虛構結論。
  • 速度優先gemini-3-flash7.0 分 / 32.7s)最快且 entity 最完整但須注意它誤把「GA/MA 勝訴並發還」當作終院結論。
  • 本地/極省deepseek-v4-flash$0.0037)與本地 qwen3-8b(免費)成本最低,但兩者均在最終 holding 上失真(虛構發還/反向判斷),不建議用於需準確結論的場景。
  • 共性風險:除 claude 外,六個模型均未能準確表達「第3條適用但法院刻意不作事實裁定 + 全部駁回」,普遍滑向「未能證明」「部分勝訴」「發還重審」「上訴得直」等錯誤表述——這是本案信息提取的最大難點。
  • 同模型渠道差異minimax-m2.7 經 openrouter7.3)顯著優於 Minimax 直連5.5),提示渠道/採樣設定對輸出穩定性有實質影響,值得在 pipeline 中固定。