14 KiB
14 KiB
模型輸出對比分析 — [2014] HKCFA 17(JA 對 入境事務處處長)
分析模型: claude-sonnet-4-6
分析日期: 2026-05-29
案件: FACV 7、8、9、10/2013,終審法院,2014 年 2 月 18 日判決
一、案件事實基準
根據 case.json 原文,本案核心事實如下:
當事人:
- 上訴人:GA、PA、FI、JA(分別來自布隆迪、斯里蘭卡、巴基斯坦的經核實難民及獲確立酷刑聲請人)
- 答辯人:入境事務處處長
主審法官: 終審法院首席法官馬道立、常任法官李義、常任法官鄧國楨、非常任法官陳兆愷、非常任法官簡嘉麒勳爵
爭議點:
- 上訴人是否享有《人權法案》第 14 條、《文化公約》第 6 條、《基本法》第 33 條或普通法保障的工作權
- 《人權法案》第 3 條(禁止不人道或侮辱之處遇)是否適用並約束處長的酌情權
- 長期禁止工作是否構成不人道或侮辱之處遇
實際終審法院裁決(原文依據):
- 第 85 段:「本院一致駁回所有上訴」
- 工作權(第 14 條、第 6 條、第 33 條、普通法):全部駁回,因《人權條例》第 11 條、英國政府保留條文及《基本法》第 41 條排除適用
- 第 3 條不人道處遇:CFA 確立第 3 條確實適用(不受第 11 條排除,依 Ubamaka 案原則),但上訴人未能提供充分證據證明存在真正和重大風險,個案仍被駁回
- 第 78 段附注:「可以說各申請人關於不人道處遇的陳詞是有部分成功的」(指法律原則已確立,具里程碑意義)
二、各模型輸出評分
評分維度說明
| 維度 | 說明 |
|---|---|
| 準確度 | 提取資訊是否與原文一致,尤其終審裁決結果的表述是否正確 |
| 完整度 | 關鍵要素(當事人、爭議點、法律條文、判決理由、相關人士)的覆蓋程度 |
2.1 mm-minimax-m2.7(MiniMax 直接接入)
| 項目 | 評分 |
|---|---|
| 準確度 | 6.5 / 10 |
| 完整度 | 8.0 / 10 |
費用與時間:
- 耗時:91.4 秒
- 費用:$0.016 USD(輸入 $0.010 + 輸出 $0.006)
- API 調用次數:8 次
優點:
- 工作權相關主張(第 14 條、第 6 條、第 33 條)均正確標記為敗訴,並援引了《人權條例》第 11 條及保留條文
- 對第 3 條的法律原則描述準確:處長酌情權受第 3 條制約,且在特定情況下長期禁止工作可構成不人道處遇
- 案件摘要完整,覆蓋三個主要爭議點
- 涉案人士列表較完整,包括張舉能法官和霍兆剛法官
錯誤:
judgment_result第 2 項稱「部分勝訴。上訴得直」——與實際「一致駁回所有上訴」相悖- 第 3 項稱「發還重審」——CFA 並未發還,而是直接駁回
- 判案摘要中「不人道待遇指控發還原審或處長根據正確法律原則重審」是對最終命令的重大誤述
- 混淆了「確立法律原則」(partial success in argument)與「勝訴」(final order),導致裁決結果表述失實
2.2 ollama-qwen3-8b(本地 Qwen 3 8B)
| 項目 | 評分 |
|---|---|
| 準確度 | 3.5 / 10 |
| 完整度 | 4.0 / 10 |
費用與時間:
- 耗時:105.1 秒
- 費用:$0.00(本地推理,零成本)
- API 調用次數:8 次
優點:
- 當事人(原告/被告)識別正確
- 法院代碼及管轄識別正確
- 基本案由描述大致正確
錯誤:
- 關於第 3 條不人道處遇的裁決表述根本性錯誤:聲稱「《人權法案》第 3 條不適用,因《人權條例》第 11 條排除相關權利」——此為原審及上訴庭的舊觀點,CFA 在 Ubamaka 案後已推翻,第 3 條確實適用
- 捏造的指控條目:「醫療費用及精神損害賠償」「工作准許延續及條件」(結果均為「無」)——案件中根本不存在此類請求
- 涉案人士中李義法官的原因欄提及「Tang Kwok Wah v HKSAR [2019] HKCFA 23」——幻覺引用,該案與本案無關
- 混淆不同審級:MA(非 CFA 上訴人,其已在下級法院取得救濟後因婚姻資格解決)被錯誤列入 CFA 裁決結果
- 摘要中對不人道處遇結果的描述與事實相悖
2.3 or-claude-sonnet-4.5(OpenRouter — Claude Sonnet 4.5)
| 項目 | 評分 |
|---|---|
| 準確度 | 5.5 / 10 |
| 完整度 | 7.0 / 10 |
費用與時間:
- 耗時:67.4 秒
- 費用:$0.220 USD(輸入 $0.173 + 輸出 $0.047),七個模型中費用最高
- API 調用次數:9 次
優點:
- 判案摘要最後正確表述「終審法院...駁回所有上訴」
- 涉案人士列表相對完整(包括張舉能、霍兆剛)
- 第 3 條裁決結果提及「下級法院因第 11 條認為不適用...但在 Ubamaka 案後已不正確」,體現了對法律發展的一定理解
錯誤:
judgment_result前兩項(GA 及 MA 的第一審裁決)是在描述原訟法庭的結果,而非 CFA 裁決;MA 並非 CFA 上訴人- 第 3 條結果表述為「未有最終裁定」——不準確;CFA 確實作出了最終裁定(個案被駁回,但法律原則已確立)
- 判案摘要中「最終,法庭確認處長在出入境事務上享有廣泛酌情權,各申請人未能確立憲法保障的工作權」——雖未明確說錯,但忽略了第 3 條原則確立這一重要法律發展
- 費用高昂但準確度未達對應水平,性價比最低
2.4 or-deepseek-v4-flash(OpenRouter — DeepSeek V4 Flash)
| 項目 | 評分 |
|---|---|
| 準確度 | 6.5 / 10 |
| 完整度 | 7.5 / 10 |
費用與時間:
- 耗時:90.0 秒
- 費用:$0.004 USD(輸入 $0.003 + 輸出 $0.001),費用最低的付費模型
- API 調用次數:6 次(最少)
優點:
- 第 3 條法律原則的敘述準確且深入:正確引用 Ubamaka 案,說明下級法院觀點有誤;正確指出若存在真正和重大不人道風險,處長無酌情權拒絕
- 工作權相關主張(第 14 條、第 6 條、第 33 條、普通法)均正確標記為駁回
- 案件摘要較為準確,提及 Ubamaka 這一關鍵案例
- 涉案人士包含張舉能和霍兆剛
錯誤:
judgment_result第 2 項表述「部分勝訴...發還處長重新考慮各人個案」——CFA 最終命令是駁回所有上訴,並無發還- 摘要中「發還處長按正確法律原則重新考慮各人個案」是對最終命令的明確誤述
- 對整體政策上訴的描述模糊,第 3 項「部分勝訴」定性不夠準確
2.5 or-deepseek-v4-pro(OpenRouter — DeepSeek V4 Pro)
| 項目 | 評分 |
|---|---|
| 準確度 | 8.0 / 10 |
| 完整度 | 8.5 / 10 |
費用與時間:
- 耗時:250.7 秒,七個模型中耗時最長
- 費用:$0.026 USD(輸入 $0.018 + 輸出 $0.008)
- API 調用次數:9 次
優點:
- 最終裁決結果完全正確:「終審法院一致駁回全部四名上訴人的上訴,維持上訴法庭裁決」——與原文第 85 段吻合
- 四個指控條目均正確定性為敗訴,理由敘述清晰
- 法律條文覆蓋最全面:第 14 條、第 6 條、第 33 條及普通法分別列出並解釋
- 涉案人士列表最完整:包含所有五位法官及主要機構
- 摘要準確,重點突出
缺點:
- 第 3 條結果描述使用「即使《人權法案》第 3 條適用」(even if applicable)的措辭,暗示適用性仍有爭議——實則 CFA 已明確確立第 3 條確實適用(based on Ubamaka),此為重要法律發展,表述偏差略微低估了這一里程碑意義
- 輸出 tokens(9,456)最多,耗時最長,效率相對較低
2.6 or-gemini-3-flash-preview(OpenRouter — Gemini 3 Flash Preview)
| 項目 | 評分 |
|---|---|
| 準確度 | 4.5 / 10 |
| 完整度 | 6.0 / 10 |
費用與時間:
- 耗時:32.7 秒,七個模型中速度最快
- 費用:$0.029 USD(輸入 $0.022 + 輸出 $0.007)
- API 調用次數:9 次
優點:
- 回應速度最快
- 第 3 條的「部分勝訴(原則性認定)」在一定程度上反映了 CFA 確立原則的法律意義
- 工作權(第 14 條等)和普通法工作權的駁回理由基本正確
錯誤:
- 捏造了「撤銷處長拒絕給予 GA 及 MA 工作准許的決定」這一 CFA 層面的「勝訴」結果——事實上 CFA 並無作出此命令,且 MA 根本不是 CFA 上訴人;此結果屬於原訟法庭層面,而 CFA 最終駁回了所有上訴
- 前後矛盾:第 3 項稱 GA/MA 在 CFA 「勝訴」,第 4 項稱「終審法院駁回所有四名上訴人的上訴」——內部自相矛盾
- 摘要「法庭裁定處長在處理 GA 及 MA 申請時未充分考慮...遂撤銷原決定並令其重新考慮」——這是在描述原訟法庭的裁決,非 CFA 最終命令
case_object中「衡平法濟助」(equitable relief)不準確,本案是公法司法覆核
2.7 or-minimax-m2.7(OpenRouter — MiniMax M2.7)
| 項目 | 評分 |
|---|---|
| 準確度 | 5.5 / 10 |
| 完整度 | 7.5 / 10 |
費用與時間:
- 耗時:89.0 秒
- 費用:$0.018 USD(輸入 $0.013 + 輸出 $0.006)
- API 調用次數:9 次
優點:
- 工作權主張駁回的表述正確
- 不人道處遇個案結果「上訴人未能證明存在真正和重大的風險」——正確
case_object最完整,涵蓋工作准許、宪法保障的工作权、不人道或有辱人格的处遇、出入境管制酌情权四個方面- 涉案人士包含「香港特別行政區政府」,視角較為全面
- 涉案人士中正確引用了張舉能及霍兆剛法官在各審級的角色
錯誤:
judgment_result第 3 項「工作准許的酌情權決定 - 部分勝訴,對 MA 及 GA...撤銷拒絕工作准許的決定」——此為原訟法庭裁決,非 CFA 裁決,且 MA 非 CFA 當事人- 摘要中「原審法官確認 MA 及 GA 的工作准許申請被不當忽視...撤銷處長決定並要求重新考慮」——混淆審級
- 不人道處遇的結果描述未提及第 3 條確實適用的重要法律原則(Ubamaka 里程碑)
- mm 及 or-minimax 兩個接入點得出相似但略有差異的結果,提示 MiniMax 模型在此任務上的穩定性一般
三、綜合對比表
| 模型 | 準確度 | 完整度 | 耗時(秒) | 費用(USD) | 綜合排名 |
|---|---|---|---|---|---|
| or-deepseek-v4-pro | 8.0 | 8.5 | 250.7 | $0.026 | 1 |
| mm-minimax-m2.7 | 6.5 | 8.0 | 91.4 | $0.016 | 2 |
| or-deepseek-v4-flash | 6.5 | 7.5 | 90.0 | $0.004 | 3 |
| or-minimax-m2.7 | 5.5 | 7.5 | 89.0 | $0.018 | 4 |
| or-claude-sonnet-4.5 | 5.5 | 7.0 | 67.4 | $0.220 | 5 |
| or-gemini-3-flash-preview | 4.5 | 6.0 | 32.7 | $0.029 | 6 |
| ollama-qwen3-8b | 3.5 | 4.0 | 105.1 | $0.00 | 7 |
四、關鍵錯誤模式分析
錯誤類型 1:混淆審級(最常見)
- 涉及模型: ollama-qwen3-8b、or-claude-sonnet-4.5、or-gemini-3-flash-preview、or-minimax-m2.7
- 表現: 將原訟法庭對 GA 和 MA 的裁決(撤銷處長決定)誤作 CFA 的最終命令;MA 並非 CFA 上訴人(其已因婚姻資格獲解決)
- 根源: 模型未能區分判案書中對下級法院歷史的敘述與 CFA 自身最終命令
錯誤類型 2:第 3 條適用性誤述(次常見)
- 涉及模型: ollama-qwen3-8b、or-claude-sonnet-4.5
- 表現: 誤稱第 3 條不適用(因第 11 條排除),或稱「未有最終裁定」
- 根源: 未注意到 CFA 在本案依據 Ubamaka 案明確推翻了下級法院對第 11 條的解釋;此為本案最重要的法律發展
錯誤類型 3:將「發還重審」混入最終命令
- 涉及模型: mm-minimax-m2.7、or-deepseek-v4-flash
- 表現: 描述案件被發還給處長或原訟法庭重新考慮
- 根源: 可能受到另一案件(Ubamaka 案本身有發還)或個別上訴人後來獲工作准許的事實混淆
錯誤類型 4:幻覺引用(個別嚴重)
- 涉及模型: ollama-qwen3-8b
- 表現: 涉案人士李義法官的原因欄引用「Tang Kwok Wah v HKSAR [2019] HKCFA 23」
- 根源: 模型生成了不存在的案例引用,屬典型幻覺問題
五、性價比分析
最具成本效益:
- or-deepseek-v4-flash($0.004):僅用最低費用的付費模型即達到第 3 名準確度,適合批量處理場景
- or-deepseek-v4-pro($0.026):準確度和完整度最高,費用適中,但耗時最長(4 分鐘)
性價比最低:
- or-claude-sonnet-4.5($0.220):費用是次高模型的 8 倍以上,但準確度僅排第 5 位;在結構化法律信息提取任務上,高費用未換來對應品質
免費選項:
- ollama-qwen3-8b($0.00):零成本,但準確度最低,錯誤最多,不適合用於需要法律精確性的信息提取
速度最優:
- or-gemini-3-flash-preview(32.7 秒):速度比其他模型快 2-7 倍,但準確度偏低,適合對速度要求遠高於準確度的場景
六、結論
在本案([2014] HKCFA 17)的結構化信息提取任務中:
- 最優推薦:or-deepseek-v4-pro —— 唯一正確表述「本院一致駁回所有上訴」最終命令的模型,法律條文覆蓋最全,完整度最佳,費用合理
- 性價比最優:or-deepseek-v4-flash —— 費用僅 $0.004,在較低成本下取得較好表現
- 需要特別注意: 所有模型在處理多審級案件時均存在不同程度的「混淆審級」問題,這是複雜上訴案件信息提取中的共性挑戰
- 本地模型侷限: ollama-qwen3-8b(8B 參數)在此類複雜法律推理任務上表現顯著遜於所有 API 模型,不建議用於法律文書信息提取