9.8 KiB

Raw Blame History

模型输出对比分析（2014_HKCFA_17 / v3）

分析模型：claude-opus-4.8 案件：JA 對入境事務處處長　[2014] HKCFA 17（FACV 7,8,9,10/2013，合併聆訊）评分制：10.0 分制（准确度 60% + 完整度 40% 加权得出综合分）本分析基于 case.json 原文独立完成，未参考目录下其它已有分析文件。

一、判决原文事实基准（评分锚点）

为避免被各模型相互"传染"的误读带偏，先从原文锁定关键事实：

维度	原文事实（出处段落）
上诉人	GA、FI、JA（经核实难民）、PA（获确立酷刑声请人）（第1段）
答辩人	入境事务处处长（第1段）
法院/法官	终审法院；马道立CJ、李义PJ、邓国桢PJ、陈兆恺NPJ、简嘉麒勳爵NPJ（第60-65段）
最终处置	一致驳回全部上诉（第78、85段），仅作"不就讼费作出命令"之暂准命令
宪法工作权	《人权法案》第14条、《文化公约》第6条、《基本法》第33条均不适用/不成立；理由为《人权条例》第11条 + 英国两项保留条文 + 二元原则（D、E、F部）
普通法工作权	不存在（G部，第75段）
第3条不人道处遇	处长酌情权确受《人权法案》第3条（绝对权利，依 Ubamaka 案）制约（第43-45段）；但法院刻意不作终局事实裁定，因属学术性质（第53段）；CJ仅"傾向贊同"可以想像构成不人道处遇（第54段）
GA/MA 被撤销发还	系原讼法庭张举能法官之裁决（第10段），非终审法院；终审法院驳回全部上诉
讼费	暂准命令：不就讼费作命令；申请人就不人道处遇陈词"部分成功"（第78段）

两大高频误区（用于扣分判断）：

"发还重审/发还处长重新考虑" —— 终审法院明确拒绝发还（第53(3)段，因属学术），全案无此命令。凡将其作为终审处置者属事实性幻觉。
"第3条不适用" —— 此为下级法院（在 Ubamaka 前）的旧观点，已被本案纠正。凡称终审法院裁定第3条不适用者属重大错误。

二、逐模型评分

1. mm-minimax-m2.7（Minimax 直连）

当事人/法院/管辖：全对。
宪法工作权敗诉：✅ 正确，理由（第11条+保留条文）准确。
第3条：标注"部分勝訴／上訴得直"——❌ 处置定性错误（全部上诉被驳回）；但"第3条制约酌情权"方向正确。
第三项 charge "发还重审"——❌ 幻觉处置。
judgment_summary 亦称"發還原審或處長重審"——❌ 同一错误。
involved_entities：10 个，含入境处、酷刑审理科、联合国难民署，较完整。
准确度 6.5　完整度 8.0　综合 7.1

2. ollama-qwen3-8b（本地，免费）

当事人/法院：全对。
难得地正确捕捉处置层级：GA/MA 部分勝訴归于原讼法庭；憲法工作权上诉敗诉；普通法无工作权；第3条"未有最終裁定……附帶意見……須醫學證據"——✅ 这是所有模型中对"法院不作终局裁定"这一核心微妙点最准确的复述。
summary 明确"駁回所有上訴"——✅ 终审处置正确。
瑕疵："上訴法庭推翻此裁決"（GA/MA）属层级混淆小错（CA 驳回上诉，但 CFI 之撤销裁决并未被推翻）。
involved_entities：10 个，完整。
弱点：输出最短（1536 output tokens），对第3条"制约绝对权利"的法理意义着墨较少。
准确度 8.0　完整度 7.0　综合 7.6（性价比之王：免费且处置判断最稳）

3. or-claude-sonnet-4.5

宪法工作权驳回：✅。
第3条法理阐述质量最高（Ubamaka、绝对权利、"有真正重大风险则处长无酌情权"）——法理✅。
但三处反复称"發還處長重新考慮各個案"——❌ 终审处置幻觉（法院明确拒绝发还）。summary 同误。
involved_entities：9 个，正确。
准确度 6.5　完整度 7.5　综合 6.9（法理强、处置错；且成本最高）

4. or-deepseek-v4-flash

宪法工作权驳回 + 普通法无工作权：✅。
第3条："原審因第11條認定不適用之觀點有誤，該條原則上可適用"——✅ 准确点出 Ubamaka 后的纠正。
但同样"部分勝訴……發還處長重新考慮"——❌ 处置幻觉。summary 同误。
involved_entities：9 个，正确。
准确度 6.5　完整度 7.5　综合 6.9（与 sonnet 同型错误，但成本仅其 1/60）

5. or-deepseek-v4-pro

宪法工作权敗诉（含《基本法》第41条排除非居民）+ 普通法单列敗诉：✅ 最齐全。
第3条："部分勝訴（原則性認定）……酌情權受第3條制約，若致真正重大風險，處長必須考慮給予准許"——✅ "原則性認定"用语精准，避开了"发还"幻觉。
瑕疵：将 GA/MA 撤销发还描述为终审法院"維持原訟法庭判決……撤銷原決定並令重新考慮"，CFI/CFA 层级略有混淆；summary 未明确点出"驳回全部上诉"。
involved_entities：14 个（含 GA/PA/FI/JA/MA 逐一列出），最完整。
代价：耗时最长 250.7s，输出 9456 tokens。
准确度 7.5　完整度 9.0　综合 8.1（综合最高：处置定性最稳 + 信息最全）

6. or-gemini-3-flash-preview

宪法工作权敗诉：✅。
正确将 GA/MA 撤销归于"原審法官"——✅ 层级判断准确。
但第3条："裁定申請人未能證明存在真正和重大的風險"故敗诉——❌ 错误。法院刻意不作此裁定，CJ反而傾向认为可以想像构成不人道处遇；此处把"未裁定"误读成"裁定败诉"。
involved_entities：11 个，含"香港特別行政區政府"，较完整。
速度最快 32.7s。
准确度 6.5　完整度 8.0　综合 7.1（速度王；第3条方向性误读）

7. or-minimax-m2.7（OpenRouter 转发）

宪法工作权敗诉：✅。
第3条："駁回。第3條不適用……無證據顯示重大風險"——❌❌ 重大错误（采纳了被本案纠正的旧观点）。
"上訴法庭撤銷處長對MA及GA的決定"——❌ 误归 CA（实为 CFI）。
幻觉引证：李义法官 reason 写"在 Tang Kwok Wah v HKSAR [2019] HKCFA 23……本案第34段引用其判詞"——❌ 2014 年判决不可能引用 2019 年案例，纯属编造。
填充式 charge："醫療費用及精神損害賠償／工作准許延續 = 無"——案中并无此争点，属凑数。
involved_entities：仅 7 个，最少。
准确度 4.0　完整度 6.0　综合 4.8（同名模型经 OpenRouter 反而最差）

值得注意：同一 minimax-m2.7 经 Minimax 直连（7.1）明显优于 OpenRouter 转发（4.8）——直连版第3条方向正确且无幻觉引证，转发版出现"第3条不適用"+ 编造 2019 案例。提示同模型不同供应商链路的输出质量可显著不同。

三、综合评分排名

排名	模型	准确度	完整度	综合	耗时(s)	成本(USD)
1	or-deepseek-v4-pro	7.5	9.0	8.1	250.7	0.026402
2	ollama-qwen3-8b	8.0	7.0	7.6	105.1	0.000000
3	mm-minimax-m2.7	6.5	8.0	7.1	91.4	0.015920
3	or-gemini-3-flash-preview	6.5	8.0	7.1	32.7	0.028861
5	or-claude-sonnet-4.5	6.5	7.5	6.9	67.4	0.220119
5	or-deepseek-v4-flash	6.5	7.5	6.9	90.0	0.003677
7	or-minimax-m2.7	4.0	6.0	4.8	89.0	0.018264

综合分 = 准确度×0.6 + 完整度×0.4。

四、时间与金钱效率分析

最快：gemini-3-flash-preview（32.7s），约为最慢者 deepseek-v4-pro（250.7s）的 1/8。
最慢：deepseek-v4-pro（250.7s，输出 9456 tokens），质量第一但慢且未必划算。
零成本：ollama-qwen3-8b（本地，$0），却拿下准确度并列最高、综合第二——本案最佳性价比。
最贵：claude-sonnet-4.5（$0.2201），是 deepseek-v4-flash（$0.0037）的约 60 倍，但综合分两者持平（6.9）——本案性价比最低。
每元价值：付费云端模型中，deepseek-v4-flash 以 $0.0037 拿到 6.9 分，单位成本性价比最高；deepseek-v4-pro 多花 7 倍钱（$0.0264）换得 +1.2 分。

成本区间：本案全部 7 个模型，付费部分单次提取成本介于 $0.0037 – $0.2201，相差约 60 倍。

五、结论与选型建议

共性优点：7 个模型对当事人、法院、管辖、宪法工作权敗诉（及第11条+保留条文之理由）的提取高度一致且正确，结构化字段稳定。
共性难点：本案最易失分处是第3条不人道处遇的终审处置——法院"承认第3条制约酌情权，但刻意不作终局裁定、且明确拒绝发还"。多数模型在此二选一地犯错：
- 误判为"发还重审/发还处长重新考虑"（sonnet-4.5、deepseek-flash、mm-minimax）；
- 误判为"裁定申请人未能证明、第3条不适用"（gemini、or-minimax）。
- 仅 ollama-qwen3-8b（"未有最終裁定"） 与 deepseek-v4-pro（"原則性認定"） 准确把握了这一微妙点。
唯一硬幻觉：or-minimax-m2.7 编造了 [2019] HKCFA 23 案例引用——在法律场景中属高危错误。
选型建议：
- 追求准确稳健且零成本：ollama-qwen3-8b（本地）首选。
- 追求信息最完整且可接受较慢/中等成本：deepseek-v4-pro。
- 追求速度：gemini-3-flash-preview（需复核第3条处置）。
- 付费性价比：deepseek-v4-flash（$0.0037 即达主流水准）。
- 不建议：or-minimax-m2.7（幻觉引证 + 第3条方向错）；claude-sonnet-4.5 在本案性价比偏低（贵 60 倍而分数不占优）。

9.8 KiB Raw Blame History Unescape Escape

模型输出对比分析（2014_HKCFA_17 / v3）

一、判决原文事实基准（评分锚点）

二、逐模型评分

1. mm-minimax-m2.7（Minimax 直连）

2. ollama-qwen3-8b（本地，免费）

3. or-claude-sonnet-4.5

4. or-deepseek-v4-flash

5. or-deepseek-v4-pro

6. or-gemini-3-flash-preview

7. or-minimax-m2.7（OpenRouter 转发）

三、综合评分排名

四、时间与金钱效率分析

五、结论与选型建议

9.8 KiB

Raw Blame History