14 KiB

Raw Blame History

模型輸出對比分析 — [2014] HKCFA 17（JA 對入境事務處處長）

分析模型： claude-sonnet-4-6
分析日期： 2026-05-29
案件： FACV 7、8、9、10/2013，終審法院，2014 年 2 月 18 日判決

一、案件事實基準

根據 case.json 原文，本案核心事實如下：

當事人：

上訴人：GA、PA、FI、JA（分別來自布隆迪、斯里蘭卡、巴基斯坦的經核實難民及獲確立酷刑聲請人）
答辯人：入境事務處處長

主審法官： 終審法院首席法官馬道立、常任法官李義、常任法官鄧國楨、非常任法官陳兆愷、非常任法官簡嘉麒勳爵

爭議點：

上訴人是否享有《人權法案》第 14 條、《文化公約》第 6 條、《基本法》第 33 條或普通法保障的工作權
《人權法案》第 3 條（禁止不人道或侮辱之處遇）是否適用並約束處長的酌情權
長期禁止工作是否構成不人道或侮辱之處遇

實際終審法院裁決（原文依據）：

第 85 段：「本院一致駁回所有上訴」
工作權（第 14 條、第 6 條、第 33 條、普通法）：全部駁回，因《人權條例》第 11 條、英國政府保留條文及《基本法》第 41 條排除適用
第 3 條不人道處遇：CFA 確立第 3 條確實適用（不受第 11 條排除，依 Ubamaka 案原則），但上訴人未能提供充分證據證明存在真正和重大風險，個案仍被駁回
第 78 段附注：「可以說各申請人關於不人道處遇的陳詞是有部分成功的」（指法律原則已確立，具里程碑意義）

二、各模型輸出評分

評分維度說明

維度	說明
準確度	提取資訊是否與原文一致，尤其終審裁決結果的表述是否正確
完整度	關鍵要素（當事人、爭議點、法律條文、判決理由、相關人士）的覆蓋程度

2.1 mm-minimax-m2.7（MiniMax 直接接入）

項目	評分
準確度	6.5 / 10
完整度	8.0 / 10

費用與時間：

耗時：91.4 秒
費用：$0.016 USD（輸入 $0.010 + 輸出 $0.006）
API 調用次數：8 次

優點：

工作權相關主張（第 14 條、第 6 條、第 33 條）均正確標記為敗訴，並援引了《人權條例》第 11 條及保留條文
對第 3 條的法律原則描述準確：處長酌情權受第 3 條制約，且在特定情況下長期禁止工作可構成不人道處遇
案件摘要完整，覆蓋三個主要爭議點
涉案人士列表較完整，包括張舉能法官和霍兆剛法官

錯誤：

judgment_result 第 2 項稱「部分勝訴。上訴得直」——與實際「一致駁回所有上訴」相悖
第 3 項稱「發還重審」——CFA 並未發還，而是直接駁回
判案摘要中「不人道待遇指控發還原審或處長根據正確法律原則重審」是對最終命令的重大誤述
混淆了「確立法律原則」（partial success in argument）與「勝訴」（final order），導致裁決結果表述失實

2.2 ollama-qwen3-8b（本地 Qwen 3 8B）

項目	評分
準確度	3.5 / 10
完整度	4.0 / 10

費用與時間：

耗時：105.1 秒
費用：$0.00（本地推理，零成本）
API 調用次數：8 次

優點：

當事人（原告/被告）識別正確
法院代碼及管轄識別正確
基本案由描述大致正確

錯誤：

關於第 3 條不人道處遇的裁決表述根本性錯誤：聲稱「《人權法案》第 3 條不適用，因《人權條例》第 11 條排除相關權利」——此為原審及上訴庭的舊觀點，CFA 在 Ubamaka 案後已推翻，第 3 條確實適用
捏造的指控條目：「醫療費用及精神損害賠償」「工作准許延續及條件」（結果均為「無」）——案件中根本不存在此類請求
涉案人士中李義法官的原因欄提及「Tang Kwok Wah v HKSAR [2019] HKCFA 23」——幻覺引用，該案與本案無關
混淆不同審級：MA（非 CFA 上訴人，其已在下級法院取得救濟後因婚姻資格解決）被錯誤列入 CFA 裁決結果
摘要中對不人道處遇結果的描述與事實相悖

2.3 or-claude-sonnet-4.5（OpenRouter — Claude Sonnet 4.5）

項目	評分
準確度	5.5 / 10
完整度	7.0 / 10

費用與時間：

耗時：67.4 秒
費用：$0.220 USD（輸入 $0.173 + 輸出 $0.047），七個模型中費用最高
API 調用次數：9 次

優點：

判案摘要最後正確表述「終審法院...駁回所有上訴」
涉案人士列表相對完整（包括張舉能、霍兆剛）
第 3 條裁決結果提及「下級法院因第 11 條認為不適用...但在 Ubamaka 案後已不正確」，體現了對法律發展的一定理解

錯誤：

judgment_result 前兩項（GA 及 MA 的第一審裁決）是在描述原訟法庭的結果，而非 CFA 裁決；MA 並非 CFA 上訴人
第 3 條結果表述為「未有最終裁定」——不準確；CFA 確實作出了最終裁定（個案被駁回，但法律原則已確立）
判案摘要中「最終，法庭確認處長在出入境事務上享有廣泛酌情權，各申請人未能確立憲法保障的工作權」——雖未明確說錯，但忽略了第 3 條原則確立這一重要法律發展
費用高昂但準確度未達對應水平，性價比最低

2.4 or-deepseek-v4-flash（OpenRouter — DeepSeek V4 Flash）

項目	評分
準確度	6.5 / 10
完整度	7.5 / 10

費用與時間：

耗時：90.0 秒
費用：$0.004 USD（輸入 $0.003 + 輸出 $0.001），費用最低的付費模型
API 調用次數：6 次（最少）

優點：

第 3 條法律原則的敘述準確且深入：正確引用 Ubamaka 案，說明下級法院觀點有誤；正確指出若存在真正和重大不人道風險，處長無酌情權拒絕
工作權相關主張（第 14 條、第 6 條、第 33 條、普通法）均正確標記為駁回
案件摘要較為準確，提及 Ubamaka 這一關鍵案例
涉案人士包含張舉能和霍兆剛

錯誤：

judgment_result 第 2 項表述「部分勝訴...發還處長重新考慮各人個案」——CFA 最終命令是駁回所有上訴，並無發還
摘要中「發還處長按正確法律原則重新考慮各人個案」是對最終命令的明確誤述
對整體政策上訴的描述模糊，第 3 項「部分勝訴」定性不夠準確

2.5 or-deepseek-v4-pro（OpenRouter — DeepSeek V4 Pro）

項目	評分
準確度	8.0 / 10
完整度	8.5 / 10

費用與時間：

耗時：250.7 秒，七個模型中耗時最長
費用：$0.026 USD（輸入 $0.018 + 輸出 $0.008）
API 調用次數：9 次

優點：

最終裁決結果完全正確：「終審法院一致駁回全部四名上訴人的上訴，維持上訴法庭裁決」——與原文第 85 段吻合
四個指控條目均正確定性為敗訴，理由敘述清晰
法律條文覆蓋最全面：第 14 條、第 6 條、第 33 條及普通法分別列出並解釋
涉案人士列表最完整：包含所有五位法官及主要機構
摘要準確，重點突出

缺點：

第 3 條結果描述使用「即使《人權法案》第 3 條適用」（even if applicable）的措辭，暗示適用性仍有爭議——實則 CFA 已明確確立第 3 條確實適用（based on Ubamaka），此為重要法律發展，表述偏差略微低估了這一里程碑意義
輸出 tokens（9,456）最多，耗時最長，效率相對較低

2.6 or-gemini-3-flash-preview（OpenRouter — Gemini 3 Flash Preview）

項目	評分
準確度	4.5 / 10
完整度	6.0 / 10

費用與時間：

耗時：32.7 秒，七個模型中速度最快
費用：$0.029 USD（輸入 $0.022 + 輸出 $0.007）
API 調用次數：9 次

優點：

回應速度最快
第 3 條的「部分勝訴（原則性認定）」在一定程度上反映了 CFA 確立原則的法律意義
工作權（第 14 條等）和普通法工作權的駁回理由基本正確

錯誤：

捏造了「撤銷處長拒絕給予 GA 及 MA 工作准許的決定」這一 CFA 層面的「勝訴」結果——事實上 CFA 並無作出此命令，且 MA 根本不是 CFA 上訴人；此結果屬於原訟法庭層面，而 CFA 最終駁回了所有上訴
前後矛盾：第 3 項稱 GA/MA 在 CFA 「勝訴」，第 4 項稱「終審法院駁回所有四名上訴人的上訴」——內部自相矛盾
摘要「法庭裁定處長在處理 GA 及 MA 申請時未充分考慮...遂撤銷原決定並令其重新考慮」——這是在描述原訟法庭的裁決，非 CFA 最終命令
case_object 中「衡平法濟助」（equitable relief）不準確，本案是公法司法覆核

2.7 or-minimax-m2.7（OpenRouter — MiniMax M2.7）

項目	評分
準確度	5.5 / 10
完整度	7.5 / 10

費用與時間：

耗時：89.0 秒
費用：$0.018 USD（輸入 $0.013 + 輸出 $0.006）
API 調用次數：9 次

優點：

工作權主張駁回的表述正確
不人道處遇個案結果「上訴人未能證明存在真正和重大的風險」——正確
case_object 最完整，涵蓋工作准許、宪法保障的工作权、不人道或有辱人格的处遇、出入境管制酌情权四個方面
涉案人士包含「香港特別行政區政府」，視角較為全面
涉案人士中正確引用了張舉能及霍兆剛法官在各審級的角色

錯誤：

judgment_result 第 3 項「工作准許的酌情權決定 - 部分勝訴，對 MA 及 GA...撤銷拒絕工作准許的決定」——此為原訟法庭裁決，非 CFA 裁決，且 MA 非 CFA 當事人
摘要中「原審法官確認 MA 及 GA 的工作准許申請被不當忽視...撤銷處長決定並要求重新考慮」——混淆審級
不人道處遇的結果描述未提及第 3 條確實適用的重要法律原則（Ubamaka 里程碑）
mm 及 or-minimax 兩個接入點得出相似但略有差異的結果，提示 MiniMax 模型在此任務上的穩定性一般

三、綜合對比表

模型	準確度	完整度	耗時（秒）	費用（USD）	綜合排名
or-deepseek-v4-pro	8.0	8.5	250.7	$0.026	1
mm-minimax-m2.7	6.5	8.0	91.4	$0.016	2
or-deepseek-v4-flash	6.5	7.5	90.0	$0.004	3
or-minimax-m2.7	5.5	7.5	89.0	$0.018	4
or-claude-sonnet-4.5	5.5	7.0	67.4	$0.220	5
or-gemini-3-flash-preview	4.5	6.0	32.7	$0.029	6
ollama-qwen3-8b	3.5	4.0	105.1	$0.00	7

四、關鍵錯誤模式分析

錯誤類型 1：混淆審級（最常見）

涉及模型： ollama-qwen3-8b、or-claude-sonnet-4.5、or-gemini-3-flash-preview、or-minimax-m2.7
表現： 將原訟法庭對 GA 和 MA 的裁決（撤銷處長決定）誤作 CFA 的最終命令；MA 並非 CFA 上訴人（其已因婚姻資格獲解決）
根源： 模型未能區分判案書中對下級法院歷史的敘述與 CFA 自身最終命令

錯誤類型 2：第 3 條適用性誤述（次常見）

涉及模型： ollama-qwen3-8b、or-claude-sonnet-4.5
表現： 誤稱第 3 條不適用（因第 11 條排除），或稱「未有最終裁定」
根源： 未注意到 CFA 在本案依據 Ubamaka 案明確推翻了下級法院對第 11 條的解釋；此為本案最重要的法律發展

錯誤類型 3：將「發還重審」混入最終命令

涉及模型： mm-minimax-m2.7、or-deepseek-v4-flash
表現： 描述案件被發還給處長或原訟法庭重新考慮
根源： 可能受到另一案件（Ubamaka 案本身有發還）或個別上訴人後來獲工作准許的事實混淆

錯誤類型 4：幻覺引用（個別嚴重）

涉及模型： ollama-qwen3-8b
表現： 涉案人士李義法官的原因欄引用「Tang Kwok Wah v HKSAR [2019] HKCFA 23」
根源： 模型生成了不存在的案例引用，屬典型幻覺問題

五、性價比分析

最具成本效益：

or-deepseek-v4-flash（$0.004）：僅用最低費用的付費模型即達到第 3 名準確度，適合批量處理場景
or-deepseek-v4-pro（$0.026）：準確度和完整度最高，費用適中，但耗時最長（4 分鐘）

性價比最低：

or-claude-sonnet-4.5（$0.220）：費用是次高模型的 8 倍以上，但準確度僅排第 5 位；在結構化法律信息提取任務上，高費用未換來對應品質

免費選項：

ollama-qwen3-8b（$0.00）：零成本，但準確度最低，錯誤最多，不適合用於需要法律精確性的信息提取

速度最優：

or-gemini-3-flash-preview（32.7 秒）：速度比其他模型快 2-7 倍，但準確度偏低，適合對速度要求遠高於準確度的場景

六、結論

在本案（[2014] HKCFA 17）的結構化信息提取任務中：

最優推薦：or-deepseek-v4-pro —— 唯一正確表述「本院一致駁回所有上訴」最終命令的模型，法律條文覆蓋最全，完整度最佳，費用合理
性價比最優：or-deepseek-v4-flash —— 費用僅 $0.004，在較低成本下取得較好表現
需要特別注意： 所有模型在處理多審級案件時均存在不同程度的「混淆審級」問題，這是複雜上訴案件信息提取中的共性挑戰
本地模型侷限： ollama-qwen3-8b（8B 參數）在此類複雜法律推理任務上表現顯著遜於所有 API 模型，不建議用於法律文書信息提取

14 KiB Raw Blame History Unescape Escape

模型輸出對比分析 — [2014] HKCFA 17（JA 對 入境事務處處長）

一、案件事實基準

二、各模型輸出評分

評分維度說明

2.1 mm-minimax-m2.7（MiniMax 直接接入）

2.2 ollama-qwen3-8b（本地 Qwen 3 8B）

2.3 or-claude-sonnet-4.5（OpenRouter — Claude Sonnet 4.5）

2.4 or-deepseek-v4-flash（OpenRouter — DeepSeek V4 Flash）

2.5 or-deepseek-v4-pro（OpenRouter — DeepSeek V4 Pro）

2.6 or-gemini-3-flash-preview（OpenRouter — Gemini 3 Flash Preview）

2.7 or-minimax-m2.7（OpenRouter — MiniMax M2.7）

三、綜合對比表

四、關鍵錯誤模式分析

錯誤類型 1：混淆審級（最常見）

錯誤類型 2：第 3 條適用性誤述（次常見）

錯誤類型 3：將「發還重審」混入最終命令

錯誤類型 4：幻覺引用（個別嚴重）

五、性價比分析

六、結論

14 KiB

Raw Blame History

模型輸出對比分析 — [2014] HKCFA 17（JA 對入境事務處處長）