diff --git a/.claude/settings.local.json b/.claude/settings.local.json index 033f26a..1d90ade 100644 --- a/.claude/settings.local.json +++ b/.claude/settings.local.json @@ -5,7 +5,8 @@ "Bash(echo \"exit=$?\")", "Bash(git add *)", "Bash(git commit -m ' *)", - "Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")" + "Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")", + "Bash(python3 -c ' *)" ] } } diff --git a/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.8.md b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.8.md new file mode 100644 index 0000000..79aa001 --- /dev/null +++ b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.8.md @@ -0,0 +1,136 @@ +# 模型输出对比分析(2014_HKCFA_17 / v3) + +> 分析模型:claude-opus-4.8 +> 案件:JA 對 入境事務處處長 [2014] HKCFA 17(FACV 7,8,9,10/2013,合併聆訊) +> 评分制:10.0 分制(准确度 60% + 完整度 40% 加权得出综合分) +> 本分析基于 `case.json` 原文独立完成,未参考目录下其它已有分析文件。 + +--- + +## 一、判决原文事实基准(评分锚点) + +为避免被各模型相互"传染"的误读带偏,先从原文锁定关键事实: + +| 维度 | 原文事实(出处段落) | +|------|----------------------| +| 上诉人 | GA、FI、JA(经核实难民)、PA(获确立酷刑声请人)(第1段) | +| 答辩人 | 入境事务处处长(第1段) | +| 法院/法官 | 终审法院;马道立CJ、李义PJ、邓国桢PJ、陈兆恺NPJ、简嘉麒勳爵NPJ(第60-65段) | +| **最终处置** | **一致驳回全部上诉**(第78、85段),仅作"不就讼费作出命令"之暂准命令 | +| 宪法工作权 | 《人权法案》第14条、《文化公约》第6条、《基本法》第33条**均不适用/不成立**;理由为《人权条例》第11条 + 英国两项保留条文 + 二元原则(D、E、F部) | +| 普通法工作权 | **不存在**(G部,第75段) | +| 第3条不人道处遇 | 处长酌情权**确受**《人权法案》第3条(绝对权利,依 Ubamaka 案)制约(第43-45段);**但法院刻意不作终局事实裁定**,因属学术性质(第53段);CJ仅"傾向贊同"可以想像构成不人道处遇(第54段) | +| GA/MA 被撤销发还 | 系**原讼法庭张举能法官**之裁决(第10段),**非**终审法院;终审法院驳回全部上诉 | +| 讼费 | 暂准命令:不就讼费作命令;申请人就不人道处遇陈词"部分成功"(第78段) | + +**两大高频误区**(用于扣分判断): +1. **"发还重审/发还处长重新考虑"** —— 终审法院明确拒绝发还(第53(3)段,因属学术),全案无此命令。凡将其作为终审处置者属事实性幻觉。 +2. **"第3条不适用"** —— 此为下级法院(在 Ubamaka 前)的旧观点,已被本案纠正。凡称终审法院裁定第3条不适用者属重大错误。 + +--- + +## 二、逐模型评分 + +### 1. mm-minimax-m2.7(Minimax 直连) +- 当事人/法院/管辖:全对。 +- 宪法工作权敗诉:✅ 正确,理由(第11条+保留条文)准确。 +- 第3条:标注"部分勝訴/上訴得直"——❌ 处置定性错误(全部上诉被驳回);但"第3条制约酌情权"方向正确。 +- 第三项 charge "发还重审"——❌ 幻觉处置。 +- judgment_summary 亦称"發還原審或處長重審"——❌ 同一错误。 +- involved_entities:10 个,含入境处、酷刑审理科、联合国难民署,较完整。 +- **准确度 6.5 完整度 8.0 综合 7.1** + +### 2. ollama-qwen3-8b(本地,免费) +- 当事人/法院:全对。 +- 难得地**正确捕捉处置层级**:GA/MA 部分勝訴归于原讼法庭;憲法工作权上诉敗诉;普通法无工作权;第3条"**未有最終裁定**……附帶意見……須醫學證據"——✅ 这是所有模型中对"法院不作终局裁定"这一核心微妙点**最准确**的复述。 +- summary 明确"駁回所有上訴"——✅ 终审处置正确。 +- 瑕疵:"上訴法庭推翻此裁決"(GA/MA)属层级混淆小错(CA 驳回上诉,但 CFI 之撤销裁决并未被推翻)。 +- involved_entities:10 个,完整。 +- 弱点:输出最短(1536 output tokens),对第3条"制约绝对权利"的法理意义着墨较少。 +- **准确度 8.0 完整度 7.0 综合 7.6**(性价比之王:免费且处置判断最稳) + +### 3. or-claude-sonnet-4.5 +- 宪法工作权驳回:✅。 +- 第3条法理阐述质量最高(Ubamaka、绝对权利、"有真正重大风险则处长无酌情权")——法理✅。 +- 但三处反复称"**發還處長重新考慮各個案**"——❌ 终审处置幻觉(法院明确拒绝发还)。summary 同误。 +- involved_entities:9 个,正确。 +- **准确度 6.5 完整度 7.5 综合 6.9**(法理强、处置错;且成本最高) + +### 4. or-deepseek-v4-flash +- 宪法工作权驳回 + 普通法无工作权:✅。 +- 第3条:"原審因第11條認定不適用之觀點有誤,該條原則上可適用"——✅ 准确点出 Ubamaka 后的纠正。 +- 但同样"部分勝訴……發還處長重新考慮"——❌ 处置幻觉。summary 同误。 +- involved_entities:9 个,正确。 +- **准确度 6.5 完整度 7.5 综合 6.9**(与 sonnet 同型错误,但成本仅其 1/60) + +### 5. or-deepseek-v4-pro +- 宪法工作权敗诉(含《基本法》第41条排除非居民)+ 普通法单列敗诉:✅ 最齐全。 +- 第3条:"**部分勝訴(原則性認定)**……酌情權受第3條制約,若致真正重大風險,處長必須考慮給予准許"——✅ "原則性認定"用语精准,**避开了"发还"幻觉**。 +- 瑕疵:将 GA/MA 撤销发还描述为终审法院"維持原訟法庭判決……撤銷原決定並令重新考慮",CFI/CFA 层级略有混淆;summary 未明确点出"驳回全部上诉"。 +- involved_entities:**14 个**(含 GA/PA/FI/JA/MA 逐一列出),最完整。 +- 代价:耗时最长 250.7s,输出 9456 tokens。 +- **准确度 7.5 完整度 9.0 综合 8.1**(综合最高:处置定性最稳 + 信息最全) + +### 6. or-gemini-3-flash-preview +- 宪法工作权敗诉:✅。 +- **正确将 GA/MA 撤销归于"原審法官"**——✅ 层级判断准确。 +- 但第3条:"裁定**申請人未能證明**存在真正和重大的風險"故敗诉——❌ 错误。法院刻意**不作**此裁定,CJ反而傾向认为可以想像构成不人道处遇;此处把"未裁定"误读成"裁定败诉"。 +- involved_entities:11 个,含"香港特別行政區政府",较完整。 +- 速度最快 32.7s。 +- **准确度 6.5 完整度 8.0 综合 7.1**(速度王;第3条方向性误读) + +### 7. or-minimax-m2.7(OpenRouter 转发) +- 宪法工作权敗诉:✅。 +- 第3条:"**駁回。第3條不適用**……無證據顯示重大風險"——❌❌ 重大错误(采纳了被本案纠正的旧观点)。 +- "上訴法庭撤銷處長對MA及GA的決定"——❌ 误归 CA(实为 CFI)。 +- **幻觉引证**:李义法官 reason 写"在 Tang Kwok Wah v HKSAR **[2019] HKCFA 23**……本案第34段引用其判詞"——❌ 2014 年判决不可能引用 2019 年案例,纯属编造。 +- 填充式 charge:"醫療費用及精神損害賠償/工作准許延續 = 無"——案中并无此争点,属凑数。 +- involved_entities:仅 7 个,最少。 +- **准确度 4.0 完整度 6.0 综合 4.8**(同名模型经 OpenRouter 反而最差) + +> 值得注意:**同一 minimax-m2.7 经 Minimax 直连(7.1)明显优于 OpenRouter 转发(4.8)**——直连版第3条方向正确且无幻觉引证,转发版出现"第3条不適用"+ 编造 2019 案例。提示同模型不同供应商链路的输出质量可显著不同。 + +--- + +## 三、综合评分排名 + +| 排名 | 模型 | 准确度 | 完整度 | **综合** | 耗时(s) | 成本(USD) | +|------|------|:------:|:------:|:------:|:------:|:------:| +| 1 | or-deepseek-v4-pro | 7.5 | 9.0 | **8.1** | 250.7 | 0.026402 | +| 2 | ollama-qwen3-8b | 8.0 | 7.0 | **7.6** | 105.1 | **0.000000** | +| 3 | mm-minimax-m2.7 | 6.5 | 8.0 | **7.1** | 91.4 | 0.015920 | +| 3 | or-gemini-3-flash-preview | 6.5 | 8.0 | **7.1** | **32.7** | 0.028861 | +| 5 | or-claude-sonnet-4.5 | 6.5 | 7.5 | **6.9** | 67.4 | 0.220119 | +| 5 | or-deepseek-v4-flash | 6.5 | 7.5 | **6.9** | 90.0 | **0.003677** | +| 7 | or-minimax-m2.7 | 4.0 | 6.0 | **4.8** | 89.0 | 0.018264 | + +> 综合分 = 准确度×0.6 + 完整度×0.4。 + +--- + +## 四、时间与金钱效率分析 + +- **最快**:gemini-3-flash-preview(32.7s),约为最慢者 deepseek-v4-pro(250.7s)的 1/8。 +- **最慢**:deepseek-v4-pro(250.7s,输出 9456 tokens),质量第一但慢且未必划算。 +- **零成本**:ollama-qwen3-8b(本地,$0),却拿下准确度并列最高、综合第二——本案最佳性价比。 +- **最贵**:claude-sonnet-4.5($0.2201),是 deepseek-v4-flash($0.0037)的约 **60 倍**,但综合分两者持平(6.9)——本案性价比最低。 +- **每元价值**:付费云端模型中,deepseek-v4-flash 以 $0.0037 拿到 6.9 分,单位成本性价比最高;deepseek-v4-pro 多花 7 倍钱($0.0264)换得 +1.2 分。 + +成本区间:本案全部 7 个模型,付费部分单次提取成本介于 **$0.0037 – $0.2201**,相差约 60 倍。 + +--- + +## 五、结论与选型建议 + +1. **共性优点**:7 个模型对当事人、法院、管辖、宪法工作权敗诉(及第11条+保留条文之理由)的提取**高度一致且正确**,结构化字段稳定。 +2. **共性难点**:本案最易失分处是第3条不人道处遇的**终审处置**——法院"承认第3条制约酌情权,但刻意不作终局裁定、且明确拒绝发还"。多数模型在此二选一地犯错: + - 误判为"发还重审/发还处长重新考虑"(sonnet-4.5、deepseek-flash、mm-minimax); + - 误判为"裁定申请人未能证明、第3条不适用"(gemini、or-minimax)。 + - 仅 **ollama-qwen3-8b("未有最終裁定")** 与 **deepseek-v4-pro("原則性認定")** 准确把握了这一微妙点。 +3. **唯一硬幻觉**:or-minimax-m2.7 编造了 `[2019] HKCFA 23` 案例引用——在法律场景中属高危错误。 +4. **选型建议**: + - 追求**准确稳健且零成本**:`ollama-qwen3-8b`(本地)首选。 + - 追求**信息最完整**且可接受较慢/中等成本:`deepseek-v4-pro`。 + - 追求**速度**:`gemini-3-flash-preview`(需复核第3条处置)。 + - **付费性价比**:`deepseek-v4-flash`($0.0037 即达主流水准)。 + - 不建议:`or-minimax-m2.7`(幻觉引证 + 第3条方向错);`claude-sonnet-4.5` 在本案性价比偏低(贵 60 倍而分数不占优)。 diff --git a/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-sonnet-4-6.md b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-sonnet-4-6.md new file mode 100644 index 0000000..e5f701d --- /dev/null +++ b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-sonnet-4-6.md @@ -0,0 +1,284 @@ +# 模型輸出對比分析 — [2014] HKCFA 17(JA 對 入境事務處處長) + +**分析模型:** claude-sonnet-4-6 +**分析日期:** 2026-05-29 +**案件:** FACV 7、8、9、10/2013,終審法院,2014 年 2 月 18 日判決 + +--- + +## 一、案件事實基準 + +根據 case.json 原文,本案核心事實如下: + +**當事人:** +- 上訴人:GA、PA、FI、JA(分別來自布隆迪、斯里蘭卡、巴基斯坦的經核實難民及獲確立酷刑聲請人) +- 答辯人:入境事務處處長 + +**主審法官:** 終審法院首席法官馬道立、常任法官李義、常任法官鄧國楨、非常任法官陳兆愷、非常任法官簡嘉麒勳爵 + +**爭議點:** +1. 上訴人是否享有《人權法案》第 14 條、《文化公約》第 6 條、《基本法》第 33 條或普通法保障的工作權 +2. 《人權法案》第 3 條(禁止不人道或侮辱之處遇)是否適用並約束處長的酌情權 +3. 長期禁止工作是否構成不人道或侮辱之處遇 + +**實際終審法院裁決(原文依據):** +- 第 85 段:「**本院一致駁回所有上訴**」 +- 工作權(第 14 條、第 6 條、第 33 條、普通法):全部駁回,因《人權條例》第 11 條、英國政府保留條文及《基本法》第 41 條排除適用 +- 第 3 條不人道處遇:CFA 確立第 3 條**確實適用**(不受第 11 條排除,依 *Ubamaka* 案原則),但上訴人未能提供充分證據證明存在真正和重大風險,個案仍被駁回 +- 第 78 段附注:「可以說各申請人關於不人道處遇的陳詞是有部分成功的」(指法律原則已確立,具里程碑意義) + +--- + +## 二、各模型輸出評分 + +### 評分維度說明 + +| 維度 | 說明 | +|------|------| +| **準確度** | 提取資訊是否與原文一致,尤其終審裁決結果的表述是否正確 | +| **完整度** | 關鍵要素(當事人、爭議點、法律條文、判決理由、相關人士)的覆蓋程度 | + +--- + +### 2.1 mm-minimax-m2.7(MiniMax 直接接入) + +| 項目 | 評分 | +|------|------| +| **準確度** | **6.5 / 10** | +| **完整度** | **8.0 / 10** | + +**費用與時間:** +- 耗時:91.4 秒 +- 費用:$0.016 USD(輸入 $0.010 + 輸出 $0.006) +- API 調用次數:8 次 + +**優點:** +- 工作權相關主張(第 14 條、第 6 條、第 33 條)均正確標記為敗訴,並援引了《人權條例》第 11 條及保留條文 +- 對第 3 條的法律原則描述準確:處長酌情權受第 3 條制約,且在特定情況下長期禁止工作可構成不人道處遇 +- 案件摘要完整,覆蓋三個主要爭議點 +- 涉案人士列表較完整,包括張舉能法官和霍兆剛法官 + +**錯誤:** +- `judgment_result` 第 2 項稱「**部分勝訴。上訴得直**」——與實際「一致駁回所有上訴」相悖 +- 第 3 項稱「**發還重審**」——CFA 並未發還,而是直接駁回 +- 判案摘要中「不人道待遇指控發還原審或處長根據正確法律原則重審」是對最終命令的重大誤述 +- 混淆了「確立法律原則」(partial success in argument)與「勝訴」(final order),導致裁決結果表述失實 + +--- + +### 2.2 ollama-qwen3-8b(本地 Qwen 3 8B) + +| 項目 | 評分 | +|------|------| +| **準確度** | **3.5 / 10** | +| **完整度** | **4.0 / 10** | + +**費用與時間:** +- 耗時:105.1 秒 +- 費用:$0.00(本地推理,零成本) +- API 調用次數:8 次 + +**優點:** +- 當事人(原告/被告)識別正確 +- 法院代碼及管轄識別正確 +- 基本案由描述大致正確 + +**錯誤:** +- 關於第 3 條不人道處遇的裁決表述**根本性錯誤**:聲稱「《人權法案》第 3 條不適用,因《人權條例》第 11 條排除相關權利」——此為原審及上訴庭的舊觀點,CFA 在 *Ubamaka* 案後已推翻,第 3 條確實適用 +- 捏造的指控條目:「醫療費用及精神損害賠償」「工作准許延續及條件」(結果均為「無」)——案件中根本不存在此類請求 +- 涉案人士中李義法官的原因欄提及「*Tang Kwok Wah v HKSAR* [2019] HKCFA 23」——**幻覺引用**,該案與本案無關 +- 混淆不同審級:MA(非 CFA 上訴人,其已在下級法院取得救濟後因婚姻資格解決)被錯誤列入 CFA 裁決結果 +- 摘要中對不人道處遇結果的描述與事實相悖 + +--- + +### 2.3 or-claude-sonnet-4.5(OpenRouter — Claude Sonnet 4.5) + +| 項目 | 評分 | +|------|------| +| **準確度** | **5.5 / 10** | +| **完整度** | **7.0 / 10** | + +**費用與時間:** +- 耗時:67.4 秒 +- 費用:$0.220 USD(輸入 $0.173 + 輸出 $0.047),**七個模型中費用最高** +- API 調用次數:9 次 + +**優點:** +- 判案摘要最後正確表述「終審法院...駁回所有上訴」 +- 涉案人士列表相對完整(包括張舉能、霍兆剛) +- 第 3 條裁決結果提及「下級法院因第 11 條認為不適用...但在 *Ubamaka* 案後已不正確」,體現了對法律發展的一定理解 + +**錯誤:** +- `judgment_result` 前兩項(GA 及 MA 的第一審裁決)是在描述**原訟法庭的結果**,而非 CFA 裁決;MA 並非 CFA 上訴人 +- 第 3 條結果表述為「**未有最終裁定**」——不準確;CFA 確實作出了最終裁定(個案被駁回,但法律原則已確立) +- 判案摘要中「最終,法庭確認處長在出入境事務上享有廣泛酌情權,各申請人未能確立憲法保障的工作權」——雖未明確說錯,但忽略了第 3 條原則確立這一重要法律發展 +- 費用高昂但準確度未達對應水平,性價比最低 + +--- + +### 2.4 or-deepseek-v4-flash(OpenRouter — DeepSeek V4 Flash) + +| 項目 | 評分 | +|------|------| +| **準確度** | **6.5 / 10** | +| **完整度** | **7.5 / 10** | + +**費用與時間:** +- 耗時:90.0 秒 +- 費用:$0.004 USD(輸入 $0.003 + 輸出 $0.001),**費用最低的付費模型** +- API 調用次數:6 次(最少) + +**優點:** +- 第 3 條法律原則的敘述準確且深入:正確引用 *Ubamaka* 案,說明下級法院觀點有誤;正確指出若存在真正和重大不人道風險,處長無酌情權拒絕 +- 工作權相關主張(第 14 條、第 6 條、第 33 條、普通法)均正確標記為駁回 +- 案件摘要較為準確,提及 Ubamaka 這一關鍵案例 +- 涉案人士包含張舉能和霍兆剛 + +**錯誤:** +- `judgment_result` 第 2 項表述「**部分勝訴...發還處長重新考慮各人個案**」——CFA 最終命令是駁回所有上訴,並無發還 +- 摘要中「發還處長按正確法律原則重新考慮各人個案」是對最終命令的明確誤述 +- 對整體政策上訴的描述模糊,第 3 項「部分勝訴」定性不夠準確 + +--- + +### 2.5 or-deepseek-v4-pro(OpenRouter — DeepSeek V4 Pro) + +| 項目 | 評分 | +|------|------| +| **準確度** | **8.0 / 10** | +| **完整度** | **8.5 / 10** | + +**費用與時間:** +- 耗時:250.7 秒,**七個模型中耗時最長** +- 費用:$0.026 USD(輸入 $0.018 + 輸出 $0.008) +- API 調用次數:9 次 + +**優點:** +- **最終裁決結果完全正確**:「終審法院一致駁回全部四名上訴人的上訴,維持上訴法庭裁決」——與原文第 85 段吻合 +- 四個指控條目均正確定性為敗訴,理由敘述清晰 +- 法律條文覆蓋最全面:第 14 條、第 6 條、第 33 條及普通法分別列出並解釋 +- 涉案人士列表最完整:包含所有五位法官及主要機構 +- 摘要準確,重點突出 + +**缺點:** +- 第 3 條結果描述使用「即使《人權法案》第 3 條適用」(even if applicable)的措辭,暗示適用性仍有爭議——實則 CFA 已明確確立第 3 條確實適用(based on *Ubamaka*),此為重要法律發展,表述偏差略微低估了這一里程碑意義 +- 輸出 tokens(9,456)最多,耗時最長,效率相對較低 + +--- + +### 2.6 or-gemini-3-flash-preview(OpenRouter — Gemini 3 Flash Preview) + +| 項目 | 評分 | +|------|------| +| **準確度** | **4.5 / 10** | +| **完整度** | **6.0 / 10** | + +**費用與時間:** +- 耗時:32.7 秒,**七個模型中速度最快** +- 費用:$0.029 USD(輸入 $0.022 + 輸出 $0.007) +- API 調用次數:9 次 + +**優點:** +- 回應速度最快 +- 第 3 條的「部分勝訴(原則性認定)」在一定程度上反映了 CFA 確立原則的法律意義 +- 工作權(第 14 條等)和普通法工作權的駁回理由基本正確 + +**錯誤:** +- 捏造了「撤銷處長拒絕給予 GA 及 MA 工作准許的決定」這一 CFA 層面的「勝訴」結果——**事實上 CFA 並無作出此命令,且 MA 根本不是 CFA 上訴人**;此結果屬於原訟法庭層面,而 CFA 最終駁回了所有上訴 +- 前後矛盾:第 3 項稱 GA/MA 在 CFA 「勝訴」,第 4 項稱「終審法院駁回所有四名上訴人的上訴」——內部自相矛盾 +- 摘要「法庭裁定處長在處理 GA 及 MA 申請時未充分考慮...遂撤銷原決定並令其重新考慮」——這是在描述原訟法庭的裁決,非 CFA 最終命令 +- `case_object` 中「衡平法濟助」(equitable relief)不準確,本案是公法司法覆核 + +--- + +### 2.7 or-minimax-m2.7(OpenRouter — MiniMax M2.7) + +| 項目 | 評分 | +|------|------| +| **準確度** | **5.5 / 10** | +| **完整度** | **7.5 / 10** | + +**費用與時間:** +- 耗時:89.0 秒 +- 費用:$0.018 USD(輸入 $0.013 + 輸出 $0.006) +- API 調用次數:9 次 + +**優點:** +- 工作權主張駁回的表述正確 +- 不人道處遇個案結果「上訴人未能證明存在真正和重大的風險」——正確 +- `case_object` 最完整,涵蓋工作准許、宪法保障的工作权、不人道或有辱人格的处遇、出入境管制酌情权四個方面 +- 涉案人士包含「香港特別行政區政府」,視角較為全面 +- 涉案人士中正確引用了張舉能及霍兆剛法官在各審級的角色 + +**錯誤:** +- `judgment_result` 第 3 項「工作准許的酌情權決定 - 部分勝訴,對 MA 及 GA...撤銷拒絕工作准許的決定」——此為**原訟法庭裁決**,非 CFA 裁決,且 MA 非 CFA 當事人 +- 摘要中「原審法官確認 MA 及 GA 的工作准許申請被不當忽視...撤銷處長決定並要求重新考慮」——混淆審級 +- 不人道處遇的結果描述未提及第 3 條確實適用的重要法律原則(*Ubamaka* 里程碑) +- mm 及 or-minimax 兩個接入點得出相似但略有差異的結果,提示 MiniMax 模型在此任務上的穩定性一般 + +--- + +## 三、綜合對比表 + +| 模型 | 準確度 | 完整度 | 耗時(秒) | 費用(USD) | 綜合排名 | +|------|--------|--------|-----------|------------|---------| +| **or-deepseek-v4-pro** | **8.0** | **8.5** | 250.7 | $0.026 | **1** | +| mm-minimax-m2.7 | 6.5 | 8.0 | 91.4 | $0.016 | **2** | +| or-deepseek-v4-flash | 6.5 | 7.5 | 90.0 | $0.004 | **3** | +| or-minimax-m2.7 | 5.5 | 7.5 | 89.0 | $0.018 | **4** | +| or-claude-sonnet-4.5 | 5.5 | 7.0 | 67.4 | $0.220 | **5** | +| or-gemini-3-flash-preview | 4.5 | 6.0 | **32.7** | $0.029 | **6** | +| ollama-qwen3-8b | 3.5 | 4.0 | 105.1 | **$0.00** | **7** | + +--- + +## 四、關鍵錯誤模式分析 + +### 錯誤類型 1:混淆審級(最常見) +- **涉及模型:** ollama-qwen3-8b、or-claude-sonnet-4.5、or-gemini-3-flash-preview、or-minimax-m2.7 +- **表現:** 將原訟法庭對 GA 和 MA 的裁決(撤銷處長決定)誤作 CFA 的最終命令;MA 並非 CFA 上訴人(其已因婚姻資格獲解決) +- **根源:** 模型未能區分判案書中對下級法院歷史的敘述與 CFA 自身最終命令 + +### 錯誤類型 2:第 3 條適用性誤述(次常見) +- **涉及模型:** ollama-qwen3-8b、or-claude-sonnet-4.5 +- **表現:** 誤稱第 3 條不適用(因第 11 條排除),或稱「未有最終裁定」 +- **根源:** 未注意到 CFA 在本案依據 *Ubamaka* 案明確推翻了下級法院對第 11 條的解釋;此為本案最重要的法律發展 + +### 錯誤類型 3:將「發還重審」混入最終命令 +- **涉及模型:** mm-minimax-m2.7、or-deepseek-v4-flash +- **表現:** 描述案件被發還給處長或原訟法庭重新考慮 +- **根源:** 可能受到另一案件(*Ubamaka* 案本身有發還)或個別上訴人後來獲工作准許的事實混淆 + +### 錯誤類型 4:幻覺引用(個別嚴重) +- **涉及模型:** ollama-qwen3-8b +- **表現:** 涉案人士李義法官的原因欄引用「*Tang Kwok Wah v HKSAR* [2019] HKCFA 23」 +- **根源:** 模型生成了不存在的案例引用,屬典型幻覺問題 + +--- + +## 五、性價比分析 + +**最具成本效益:** +- **or-deepseek-v4-flash**($0.004):僅用最低費用的付費模型即達到第 3 名準確度,適合批量處理場景 +- **or-deepseek-v4-pro**($0.026):準確度和完整度最高,費用適中,但耗時最長(4 分鐘) + +**性價比最低:** +- **or-claude-sonnet-4.5**($0.220):費用是次高模型的 8 倍以上,但準確度僅排第 5 位;在結構化法律信息提取任務上,高費用未換來對應品質 + +**免費選項:** +- **ollama-qwen3-8b**($0.00):零成本,但準確度最低,錯誤最多,不適合用於需要法律精確性的信息提取 + +**速度最優:** +- **or-gemini-3-flash-preview**(32.7 秒):速度比其他模型快 2-7 倍,但準確度偏低,適合對速度要求遠高於準確度的場景 + +--- + +## 六、結論 + +在本案([2014] HKCFA 17)的結構化信息提取任務中: + +1. **最優推薦:or-deepseek-v4-pro** —— 唯一正確表述「本院一致駁回所有上訴」最終命令的模型,法律條文覆蓋最全,完整度最佳,費用合理 +2. **性價比最優:or-deepseek-v4-flash** —— 費用僅 $0.004,在較低成本下取得較好表現 +3. **需要特別注意:** 所有模型在處理多審級案件時均存在不同程度的「混淆審級」問題,這是複雜上訴案件信息提取中的共性挑戰 +4. **本地模型侷限:** ollama-qwen3-8b(8B 參數)在此類複雜法律推理任務上表現顯著遜於所有 API 模型,不建議用於法律文書信息提取