diff --git a/.claude/settings.local.json b/.claude/settings.local.json
index 033f26a..1d90ade 100644
--- a/.claude/settings.local.json
+++ b/.claude/settings.local.json
@@ -5,7 +5,8 @@
       "Bash(echo \"exit=$?\")",
       "Bash(git add *)",
       "Bash(git commit -m ' *)",
-      "Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")"
+      "Bash(python -c \"import ast; ast.parse\\(open\\('hk_case_extractor.py'\\).read\\(\\)\\); print\\('OK: syntax valid'\\)\")",
+      "Bash(python3 -c ' *)"
     ]
   }
 }
diff --git a/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.8.md b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.8.md
new file mode 100644
index 0000000..79aa001
--- /dev/null
+++ b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.8.md
@@ -0,0 +1,136 @@
+# 模型输出对比分析（2014_HKCFA_17 / v3）
+
+> 分析模型：claude-opus-4.8
+> 案件：JA 對 入境事務處處長　[2014] HKCFA 17（FACV 7,8,9,10/2013，合併聆訊）
+> 评分制：10.0 分制（准确度 60% + 完整度 40% 加权得出综合分）
+> 本分析基于 `case.json` 原文独立完成，未参考目录下其它已有分析文件。
+
+---
+
+## 一、判决原文事实基准（评分锚点）
+
+为避免被各模型相互"传染"的误读带偏，先从原文锁定关键事实：
+
+| 维度 | 原文事实（出处段落） |
+|------|----------------------|
+| 上诉人 | GA、FI、JA（经核实难民）、PA（获确立酷刑声请人）（第1段） |
+| 答辩人 | 入境事务处处长（第1段） |
+| 法院/法官 | 终审法院；马道立CJ、李义PJ、邓国桢PJ、陈兆恺NPJ、简嘉麒勳爵NPJ（第60-65段） |
+| **最终处置** | **一致驳回全部上诉**（第78、85段），仅作"不就讼费作出命令"之暂准命令 |
+| 宪法工作权 | 《人权法案》第14条、《文化公约》第6条、《基本法》第33条**均不适用/不成立**；理由为《人权条例》第11条 + 英国两项保留条文 + 二元原则（D、E、F部） |
+| 普通法工作权 | **不存在**（G部，第75段） |
+| 第3条不人道处遇 | 处长酌情权**确受**《人权法案》第3条（绝对权利，依 Ubamaka 案）制约（第43-45段）；**但法院刻意不作终局事实裁定**，因属学术性质（第53段）；CJ仅"傾向贊同"可以想像构成不人道处遇（第54段） |
+| GA/MA 被撤销发还 | 系**原讼法庭张举能法官**之裁决（第10段），**非**终审法院；终审法院驳回全部上诉 |
+| 讼费 | 暂准命令：不就讼费作命令；申请人就不人道处遇陈词"部分成功"（第78段） |
+
+**两大高频误区**（用于扣分判断）：
+1. **"发还重审/发还处长重新考虑"** —— 终审法院明确拒绝发还（第53(3)段，因属学术），全案无此命令。凡将其作为终审处置者属事实性幻觉。
+2. **"第3条不适用"** —— 此为下级法院（在 Ubamaka 前）的旧观点，已被本案纠正。凡称终审法院裁定第3条不适用者属重大错误。
+
+---
+
+## 二、逐模型评分
+
+### 1. mm-minimax-m2.7（Minimax 直连）
+- 当事人/法院/管辖：全对。
+- 宪法工作权敗诉：✅ 正确，理由（第11条+保留条文）准确。
+- 第3条：标注"部分勝訴／上訴得直"——❌ 处置定性错误（全部上诉被驳回）；但"第3条制约酌情权"方向正确。
+- 第三项 charge "发还重审"——❌ 幻觉处置。
+- judgment_summary 亦称"發還原審或處長重審"——❌ 同一错误。
+- involved_entities：10 个，含入境处、酷刑审理科、联合国难民署，较完整。
+- **准确度 6.5　完整度 8.0　综合 7.1**
+
+### 2. ollama-qwen3-8b（本地，免费）
+- 当事人/法院：全对。
+- 难得地**正确捕捉处置层级**：GA/MA 部分勝訴归于原讼法庭；憲法工作权上诉敗诉；普通法无工作权；第3条"**未有最終裁定**……附帶意見……須醫學證據"——✅ 这是所有模型中对"法院不作终局裁定"这一核心微妙点**最准确**的复述。
+- summary 明确"駁回所有上訴"——✅ 终审处置正确。
+- 瑕疵："上訴法庭推翻此裁決"（GA/MA）属层级混淆小错（CA 驳回上诉，但 CFI 之撤销裁决并未被推翻）。
+- involved_entities：10 个，完整。
+- 弱点：输出最短（1536 output tokens），对第3条"制约绝对权利"的法理意义着墨较少。
+- **准确度 8.0　完整度 7.0　综合 7.6**（性价比之王：免费且处置判断最稳）
+
+### 3. or-claude-sonnet-4.5
+- 宪法工作权驳回：✅。
+- 第3条法理阐述质量最高（Ubamaka、绝对权利、"有真正重大风险则处长无酌情权"）——法理✅。
+- 但三处反复称"**發還處長重新考慮各個案**"——❌ 终审处置幻觉（法院明确拒绝发还）。summary 同误。
+- involved_entities：9 个，正确。
+- **准确度 6.5　完整度 7.5　综合 6.9**（法理强、处置错；且成本最高）
+
+### 4. or-deepseek-v4-flash
+- 宪法工作权驳回 + 普通法无工作权：✅。
+- 第3条："原審因第11條認定不適用之觀點有誤，該條原則上可適用"——✅ 准确点出 Ubamaka 后的纠正。
+- 但同样"部分勝訴……發還處長重新考慮"——❌ 处置幻觉。summary 同误。
+- involved_entities：9 个，正确。
+- **准确度 6.5　完整度 7.5　综合 6.9**（与 sonnet 同型错误，但成本仅其 1/60）
+
+### 5. or-deepseek-v4-pro
+- 宪法工作权敗诉（含《基本法》第41条排除非居民）+ 普通法单列敗诉：✅ 最齐全。
+- 第3条："**部分勝訴（原則性認定）**……酌情權受第3條制約，若致真正重大風險，處長必須考慮給予准許"——✅ "原則性認定"用语精准，**避开了"发还"幻觉**。
+- 瑕疵：将 GA/MA 撤销发还描述为终审法院"維持原訟法庭判決……撤銷原決定並令重新考慮"，CFI/CFA 层级略有混淆；summary 未明确点出"驳回全部上诉"。
+- involved_entities：**14 个**（含 GA/PA/FI/JA/MA 逐一列出），最完整。
+- 代价：耗时最长 250.7s，输出 9456 tokens。
+- **准确度 7.5　完整度 9.0　综合 8.1**（综合最高：处置定性最稳 + 信息最全）
+
+### 6. or-gemini-3-flash-preview
+- 宪法工作权敗诉：✅。
+- **正确将 GA/MA 撤销归于"原審法官"**——✅ 层级判断准确。
+- 但第3条："裁定**申請人未能證明**存在真正和重大的風險"故敗诉——❌ 错误。法院刻意**不作**此裁定，CJ反而傾向认为可以想像构成不人道处遇；此处把"未裁定"误读成"裁定败诉"。
+- involved_entities：11 个，含"香港特別行政區政府"，较完整。
+- 速度最快 32.7s。
+- **准确度 6.5　完整度 8.0　综合 7.1**（速度王；第3条方向性误读）
+
+### 7. or-minimax-m2.7（OpenRouter 转发）
+- 宪法工作权敗诉：✅。
+- 第3条："**駁回。第3條不適用**……無證據顯示重大風險"——❌❌ 重大错误（采纳了被本案纠正的旧观点）。
+- "上訴法庭撤銷處長對MA及GA的決定"——❌ 误归 CA（实为 CFI）。
+- **幻觉引证**：李义法官 reason 写"在 Tang Kwok Wah v HKSAR **[2019] HKCFA 23**……本案第34段引用其判詞"——❌ 2014 年判决不可能引用 2019 年案例，纯属编造。
+- 填充式 charge："醫療費用及精神損害賠償／工作准許延續 = 無"——案中并无此争点，属凑数。
+- involved_entities：仅 7 个，最少。
+- **准确度 4.0　完整度 6.0　综合 4.8**（同名模型经 OpenRouter 反而最差）
+
+> 值得注意：**同一 minimax-m2.7 经 Minimax 直连（7.1）明显优于 OpenRouter 转发（4.8）**——直连版第3条方向正确且无幻觉引证，转发版出现"第3条不適用"+ 编造 2019 案例。提示同模型不同供应商链路的输出质量可显著不同。
+
+---
+
+## 三、综合评分排名
+
+| 排名 | 模型 | 准确度 | 完整度 | **综合** | 耗时(s) | 成本(USD) |
+|------|------|:------:|:------:|:------:|:------:|:------:|
+| 1 | or-deepseek-v4-pro | 7.5 | 9.0 | **8.1** | 250.7 | 0.026402 |
+| 2 | ollama-qwen3-8b | 8.0 | 7.0 | **7.6** | 105.1 | **0.000000** |
+| 3 | mm-minimax-m2.7 | 6.5 | 8.0 | **7.1** | 91.4 | 0.015920 |
+| 3 | or-gemini-3-flash-preview | 6.5 | 8.0 | **7.1** | **32.7** | 0.028861 |
+| 5 | or-claude-sonnet-4.5 | 6.5 | 7.5 | **6.9** | 67.4 | 0.220119 |
+| 5 | or-deepseek-v4-flash | 6.5 | 7.5 | **6.9** | 90.0 | **0.003677** |
+| 7 | or-minimax-m2.7 | 4.0 | 6.0 | **4.8** | 89.0 | 0.018264 |
+
+> 综合分 = 准确度×0.6 + 完整度×0.4。
+
+---
+
+## 四、时间与金钱效率分析
+
+- **最快**：gemini-3-flash-preview（32.7s），约为最慢者 deepseek-v4-pro（250.7s）的 1/8。
+- **最慢**：deepseek-v4-pro（250.7s，输出 9456 tokens），质量第一但慢且未必划算。
+- **零成本**：ollama-qwen3-8b（本地，$0），却拿下准确度并列最高、综合第二——本案最佳性价比。
+- **最贵**：claude-sonnet-4.5（$0.2201），是 deepseek-v4-flash（$0.0037）的约 **60 倍**，但综合分两者持平（6.9）——本案性价比最低。
+- **每元价值**：付费云端模型中，deepseek-v4-flash 以 $0.0037 拿到 6.9 分，单位成本性价比最高；deepseek-v4-pro 多花 7 倍钱（$0.0264）换得 +1.2 分。
+
+成本区间：本案全部 7 个模型，付费部分单次提取成本介于 **$0.0037 – $0.2201**，相差约 60 倍。
+
+---
+
+## 五、结论与选型建议
+
+1. **共性优点**：7 个模型对当事人、法院、管辖、宪法工作权敗诉（及第11条+保留条文之理由）的提取**高度一致且正确**，结构化字段稳定。
+2. **共性难点**：本案最易失分处是第3条不人道处遇的**终审处置**——法院"承认第3条制约酌情权，但刻意不作终局裁定、且明确拒绝发还"。多数模型在此二选一地犯错：
+   - 误判为"发还重审/发还处长重新考虑"（sonnet-4.5、deepseek-flash、mm-minimax）；
+   - 误判为"裁定申请人未能证明、第3条不适用"（gemini、or-minimax）。
+   - 仅 **ollama-qwen3-8b（"未有最終裁定"）** 与 **deepseek-v4-pro（"原則性認定"）** 准确把握了这一微妙点。
+3. **唯一硬幻觉**：or-minimax-m2.7 编造了 `[2019] HKCFA 23` 案例引用——在法律场景中属高危错误。
+4. **选型建议**：
+   - 追求**准确稳健且零成本**：`ollama-qwen3-8b`（本地）首选。
+   - 追求**信息最完整**且可接受较慢/中等成本：`deepseek-v4-pro`。
+   - 追求**速度**：`gemini-3-flash-preview`（需复核第3条处置）。
+   - **付费性价比**：`deepseek-v4-flash`（$0.0037 即达主流水准）。
+   - 不建议：`or-minimax-m2.7`（幻觉引证 + 第3条方向错）；`claude-sonnet-4.5` 在本案性价比偏低（贵 60 倍而分数不占优）。
diff --git a/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-sonnet-4-6.md b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-sonnet-4-6.md
new file mode 100644
index 0000000..e5f701d
--- /dev/null
+++ b/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-sonnet-4-6.md
@@ -0,0 +1,284 @@
+# 模型輸出對比分析 — [2014] HKCFA 17（JA 對 入境事務處處長）
+
+**分析模型：** claude-sonnet-4-6  
+**分析日期：** 2026-05-29  
+**案件：** FACV 7、8、9、10/2013，終審法院，2014 年 2 月 18 日判決
+
+---
+
+## 一、案件事實基準
+
+根據 case.json 原文，本案核心事實如下：
+
+**當事人：**
+- 上訴人：GA、PA、FI、JA（分別來自布隆迪、斯里蘭卡、巴基斯坦的經核實難民及獲確立酷刑聲請人）
+- 答辯人：入境事務處處長
+
+**主審法官：** 終審法院首席法官馬道立、常任法官李義、常任法官鄧國楨、非常任法官陳兆愷、非常任法官簡嘉麒勳爵
+
+**爭議點：**
+1. 上訴人是否享有《人權法案》第 14 條、《文化公約》第 6 條、《基本法》第 33 條或普通法保障的工作權
+2. 《人權法案》第 3 條（禁止不人道或侮辱之處遇）是否適用並約束處長的酌情權
+3. 長期禁止工作是否構成不人道或侮辱之處遇
+
+**實際終審法院裁決（原文依據）：**
+- 第 85 段：「**本院一致駁回所有上訴**」
+- 工作權（第 14 條、第 6 條、第 33 條、普通法）：全部駁回，因《人權條例》第 11 條、英國政府保留條文及《基本法》第 41 條排除適用
+- 第 3 條不人道處遇：CFA 確立第 3 條**確實適用**（不受第 11 條排除，依 *Ubamaka* 案原則），但上訴人未能提供充分證據證明存在真正和重大風險，個案仍被駁回
+- 第 78 段附注：「可以說各申請人關於不人道處遇的陳詞是有部分成功的」（指法律原則已確立，具里程碑意義）
+
+---
+
+## 二、各模型輸出評分
+
+### 評分維度說明
+
+| 維度 | 說明 |
+|------|------|
+| **準確度** | 提取資訊是否與原文一致，尤其終審裁決結果的表述是否正確 |
+| **完整度** | 關鍵要素（當事人、爭議點、法律條文、判決理由、相關人士）的覆蓋程度 |
+
+---
+
+### 2.1 mm-minimax-m2.7（MiniMax 直接接入）
+
+| 項目 | 評分 |
+|------|------|
+| **準確度** | **6.5 / 10** |
+| **完整度** | **8.0 / 10** |
+
+**費用與時間：**
+- 耗時：91.4 秒
+- 費用：$0.016 USD（輸入 $0.010 + 輸出 $0.006）
+- API 調用次數：8 次
+
+**優點：**
+- 工作權相關主張（第 14 條、第 6 條、第 33 條）均正確標記為敗訴，並援引了《人權條例》第 11 條及保留條文
+- 對第 3 條的法律原則描述準確：處長酌情權受第 3 條制約，且在特定情況下長期禁止工作可構成不人道處遇
+- 案件摘要完整，覆蓋三個主要爭議點
+- 涉案人士列表較完整，包括張舉能法官和霍兆剛法官
+
+**錯誤：**
+- `judgment_result` 第 2 項稱「**部分勝訴。上訴得直**」——與實際「一致駁回所有上訴」相悖
+- 第 3 項稱「**發還重審**」——CFA 並未發還，而是直接駁回
+- 判案摘要中「不人道待遇指控發還原審或處長根據正確法律原則重審」是對最終命令的重大誤述
+- 混淆了「確立法律原則」（partial success in argument）與「勝訴」（final order），導致裁決結果表述失實
+
+---
+
+### 2.2 ollama-qwen3-8b（本地 Qwen 3 8B）
+
+| 項目 | 評分 |
+|------|------|
+| **準確度** | **3.5 / 10** |
+| **完整度** | **4.0 / 10** |
+
+**費用與時間：**
+- 耗時：105.1 秒
+- 費用：$0.00（本地推理，零成本）
+- API 調用次數：8 次
+
+**優點：**
+- 當事人（原告/被告）識別正確
+- 法院代碼及管轄識別正確
+- 基本案由描述大致正確
+
+**錯誤：**
+- 關於第 3 條不人道處遇的裁決表述**根本性錯誤**：聲稱「《人權法案》第 3 條不適用，因《人權條例》第 11 條排除相關權利」——此為原審及上訴庭的舊觀點，CFA 在 *Ubamaka* 案後已推翻，第 3 條確實適用
+- 捏造的指控條目：「醫療費用及精神損害賠償」「工作准許延續及條件」（結果均為「無」）——案件中根本不存在此類請求
+- 涉案人士中李義法官的原因欄提及「*Tang Kwok Wah v HKSAR* [2019] HKCFA 23」——**幻覺引用**，該案與本案無關
+- 混淆不同審級：MA（非 CFA 上訴人，其已在下級法院取得救濟後因婚姻資格解決）被錯誤列入 CFA 裁決結果
+- 摘要中對不人道處遇結果的描述與事實相悖
+
+---
+
+### 2.3 or-claude-sonnet-4.5（OpenRouter — Claude Sonnet 4.5）
+
+| 項目 | 評分 |
+|------|------|
+| **準確度** | **5.5 / 10** |
+| **完整度** | **7.0 / 10** |
+
+**費用與時間：**
+- 耗時：67.4 秒
+- 費用：$0.220 USD（輸入 $0.173 + 輸出 $0.047），**七個模型中費用最高**
+- API 調用次數：9 次
+
+**優點：**
+- 判案摘要最後正確表述「終審法院...駁回所有上訴」
+- 涉案人士列表相對完整（包括張舉能、霍兆剛）
+- 第 3 條裁決結果提及「下級法院因第 11 條認為不適用...但在 *Ubamaka* 案後已不正確」，體現了對法律發展的一定理解
+
+**錯誤：**
+- `judgment_result` 前兩項（GA 及 MA 的第一審裁決）是在描述**原訟法庭的結果**，而非 CFA 裁決；MA 並非 CFA 上訴人
+- 第 3 條結果表述為「**未有最終裁定**」——不準確；CFA 確實作出了最終裁定（個案被駁回，但法律原則已確立）
+- 判案摘要中「最終，法庭確認處長在出入境事務上享有廣泛酌情權，各申請人未能確立憲法保障的工作權」——雖未明確說錯，但忽略了第 3 條原則確立這一重要法律發展
+- 費用高昂但準確度未達對應水平，性價比最低
+
+---
+
+### 2.4 or-deepseek-v4-flash（OpenRouter — DeepSeek V4 Flash）
+
+| 項目 | 評分 |
+|------|------|
+| **準確度** | **6.5 / 10** |
+| **完整度** | **7.5 / 10** |
+
+**費用與時間：**
+- 耗時：90.0 秒
+- 費用：$0.004 USD（輸入 $0.003 + 輸出 $0.001），**費用最低的付費模型**
+- API 調用次數：6 次（最少）
+
+**優點：**
+- 第 3 條法律原則的敘述準確且深入：正確引用 *Ubamaka* 案，說明下級法院觀點有誤；正確指出若存在真正和重大不人道風險，處長無酌情權拒絕
+- 工作權相關主張（第 14 條、第 6 條、第 33 條、普通法）均正確標記為駁回
+- 案件摘要較為準確，提及 Ubamaka 這一關鍵案例
+- 涉案人士包含張舉能和霍兆剛
+
+**錯誤：**
+- `judgment_result` 第 2 項表述「**部分勝訴...發還處長重新考慮各人個案**」——CFA 最終命令是駁回所有上訴，並無發還
+- 摘要中「發還處長按正確法律原則重新考慮各人個案」是對最終命令的明確誤述
+- 對整體政策上訴的描述模糊，第 3 項「部分勝訴」定性不夠準確
+
+---
+
+### 2.5 or-deepseek-v4-pro（OpenRouter — DeepSeek V4 Pro）
+
+| 項目 | 評分 |
+|------|------|
+| **準確度** | **8.0 / 10** |
+| **完整度** | **8.5 / 10** |
+
+**費用與時間：**
+- 耗時：250.7 秒，**七個模型中耗時最長**
+- 費用：$0.026 USD（輸入 $0.018 + 輸出 $0.008）
+- API 調用次數：9 次
+
+**優點：**
+- **最終裁決結果完全正確**：「終審法院一致駁回全部四名上訴人的上訴，維持上訴法庭裁決」——與原文第 85 段吻合
+- 四個指控條目均正確定性為敗訴，理由敘述清晰
+- 法律條文覆蓋最全面：第 14 條、第 6 條、第 33 條及普通法分別列出並解釋
+- 涉案人士列表最完整：包含所有五位法官及主要機構
+- 摘要準確，重點突出
+
+**缺點：**
+- 第 3 條結果描述使用「即使《人權法案》第 3 條適用」（even if applicable）的措辭，暗示適用性仍有爭議——實則 CFA 已明確確立第 3 條確實適用（based on *Ubamaka*），此為重要法律發展，表述偏差略微低估了這一里程碑意義
+- 輸出 tokens（9,456）最多，耗時最長，效率相對較低
+
+---
+
+### 2.6 or-gemini-3-flash-preview（OpenRouter — Gemini 3 Flash Preview）
+
+| 項目 | 評分 |
+|------|------|
+| **準確度** | **4.5 / 10** |
+| **完整度** | **6.0 / 10** |
+
+**費用與時間：**
+- 耗時：32.7 秒，**七個模型中速度最快**
+- 費用：$0.029 USD（輸入 $0.022 + 輸出 $0.007）
+- API 調用次數：9 次
+
+**優點：**
+- 回應速度最快
+- 第 3 條的「部分勝訴（原則性認定）」在一定程度上反映了 CFA 確立原則的法律意義
+- 工作權（第 14 條等）和普通法工作權的駁回理由基本正確
+
+**錯誤：**
+- 捏造了「撤銷處長拒絕給予 GA 及 MA 工作准許的決定」這一 CFA 層面的「勝訴」結果——**事實上 CFA 並無作出此命令，且 MA 根本不是 CFA 上訴人**；此結果屬於原訟法庭層面，而 CFA 最終駁回了所有上訴
+- 前後矛盾：第 3 項稱 GA/MA 在 CFA 「勝訴」，第 4 項稱「終審法院駁回所有四名上訴人的上訴」——內部自相矛盾
+- 摘要「法庭裁定處長在處理 GA 及 MA 申請時未充分考慮...遂撤銷原決定並令其重新考慮」——這是在描述原訟法庭的裁決，非 CFA 最終命令
+- `case_object` 中「衡平法濟助」（equitable relief）不準確，本案是公法司法覆核
+
+---
+
+### 2.7 or-minimax-m2.7（OpenRouter — MiniMax M2.7）
+
+| 項目 | 評分 |
+|------|------|
+| **準確度** | **5.5 / 10** |
+| **完整度** | **7.5 / 10** |
+
+**費用與時間：**
+- 耗時：89.0 秒
+- 費用：$0.018 USD（輸入 $0.013 + 輸出 $0.006）
+- API 調用次數：9 次
+
+**優點：**
+- 工作權主張駁回的表述正確
+- 不人道處遇個案結果「上訴人未能證明存在真正和重大的風險」——正確
+- `case_object` 最完整，涵蓋工作准許、宪法保障的工作权、不人道或有辱人格的处遇、出入境管制酌情权四個方面
+- 涉案人士包含「香港特別行政區政府」，視角較為全面
+- 涉案人士中正確引用了張舉能及霍兆剛法官在各審級的角色
+
+**錯誤：**
+- `judgment_result` 第 3 項「工作准許的酌情權決定 - 部分勝訴，對 MA 及 GA...撤銷拒絕工作准許的決定」——此為**原訟法庭裁決**，非 CFA 裁決，且 MA 非 CFA 當事人
+- 摘要中「原審法官確認 MA 及 GA 的工作准許申請被不當忽視...撤銷處長決定並要求重新考慮」——混淆審級
+- 不人道處遇的結果描述未提及第 3 條確實適用的重要法律原則（*Ubamaka* 里程碑）
+- mm 及 or-minimax 兩個接入點得出相似但略有差異的結果，提示 MiniMax 模型在此任務上的穩定性一般
+
+---
+
+## 三、綜合對比表
+
+| 模型 | 準確度 | 完整度 | 耗時（秒） | 費用（USD） | 綜合排名 |
+|------|--------|--------|-----------|------------|---------|
+| **or-deepseek-v4-pro** | **8.0** | **8.5** | 250.7 | $0.026 | **1** |
+| mm-minimax-m2.7 | 6.5 | 8.0 | 91.4 | $0.016 | **2** |
+| or-deepseek-v4-flash | 6.5 | 7.5 | 90.0 | $0.004 | **3** |
+| or-minimax-m2.7 | 5.5 | 7.5 | 89.0 | $0.018 | **4** |
+| or-claude-sonnet-4.5 | 5.5 | 7.0 | 67.4 | $0.220 | **5** |
+| or-gemini-3-flash-preview | 4.5 | 6.0 | **32.7** | $0.029 | **6** |
+| ollama-qwen3-8b | 3.5 | 4.0 | 105.1 | **$0.00** | **7** |
+
+---
+
+## 四、關鍵錯誤模式分析
+
+### 錯誤類型 1：混淆審級（最常見）
+- **涉及模型：** ollama-qwen3-8b、or-claude-sonnet-4.5、or-gemini-3-flash-preview、or-minimax-m2.7
+- **表現：** 將原訟法庭對 GA 和 MA 的裁決（撤銷處長決定）誤作 CFA 的最終命令；MA 並非 CFA 上訴人（其已因婚姻資格獲解決）
+- **根源：** 模型未能區分判案書中對下級法院歷史的敘述與 CFA 自身最終命令
+
+### 錯誤類型 2：第 3 條適用性誤述（次常見）
+- **涉及模型：** ollama-qwen3-8b、or-claude-sonnet-4.5
+- **表現：** 誤稱第 3 條不適用（因第 11 條排除），或稱「未有最終裁定」
+- **根源：** 未注意到 CFA 在本案依據 *Ubamaka* 案明確推翻了下級法院對第 11 條的解釋；此為本案最重要的法律發展
+
+### 錯誤類型 3：將「發還重審」混入最終命令
+- **涉及模型：** mm-minimax-m2.7、or-deepseek-v4-flash
+- **表現：** 描述案件被發還給處長或原訟法庭重新考慮
+- **根源：** 可能受到另一案件（*Ubamaka* 案本身有發還）或個別上訴人後來獲工作准許的事實混淆
+
+### 錯誤類型 4：幻覺引用（個別嚴重）
+- **涉及模型：** ollama-qwen3-8b
+- **表現：** 涉案人士李義法官的原因欄引用「*Tang Kwok Wah v HKSAR* [2019] HKCFA 23」
+- **根源：** 模型生成了不存在的案例引用，屬典型幻覺問題
+
+---
+
+## 五、性價比分析
+
+**最具成本效益：**
+- **or-deepseek-v4-flash**（$0.004）：僅用最低費用的付費模型即達到第 3 名準確度，適合批量處理場景
+- **or-deepseek-v4-pro**（$0.026）：準確度和完整度最高，費用適中，但耗時最長（4 分鐘）
+
+**性價比最低：**
+- **or-claude-sonnet-4.5**（$0.220）：費用是次高模型的 8 倍以上，但準確度僅排第 5 位；在結構化法律信息提取任務上，高費用未換來對應品質
+
+**免費選項：**
+- **ollama-qwen3-8b**（$0.00）：零成本，但準確度最低，錯誤最多，不適合用於需要法律精確性的信息提取
+
+**速度最優：**
+- **or-gemini-3-flash-preview**（32.7 秒）：速度比其他模型快 2-7 倍，但準確度偏低，適合對速度要求遠高於準確度的場景
+
+---
+
+## 六、結論
+
+在本案（[2014] HKCFA 17）的結構化信息提取任務中：
+
+1. **最優推薦：or-deepseek-v4-pro** —— 唯一正確表述「本院一致駁回所有上訴」最終命令的模型，法律條文覆蓋最全，完整度最佳，費用合理
+2. **性價比最優：or-deepseek-v4-flash** —— 費用僅 $0.004，在較低成本下取得較好表現
+3. **需要特別注意：** 所有模型在處理多審級案件時均存在不同程度的「混淆審級」問題，這是複雜上訴案件信息提取中的共性挑戰
+4. **本地模型侷限：** ollama-qwen3-8b（8B 參數）在此類複雜法律推理任務上表現顯著遜於所有 API 模型，不建議用於法律文書信息提取