9.8 KiB
9.8 KiB
模型输出对比分析(2014_HKCFA_17 / v3)
分析模型:claude-opus-4.8 案件:JA 對 入境事務處處長 [2014] HKCFA 17(FACV 7,8,9,10/2013,合併聆訊) 评分制:10.0 分制(准确度 60% + 完整度 40% 加权得出综合分) 本分析基于
case.json原文独立完成,未参考目录下其它已有分析文件。
一、判决原文事实基准(评分锚点)
为避免被各模型相互"传染"的误读带偏,先从原文锁定关键事实:
| 维度 | 原文事实(出处段落) |
|---|---|
| 上诉人 | GA、FI、JA(经核实难民)、PA(获确立酷刑声请人)(第1段) |
| 答辩人 | 入境事务处处长(第1段) |
| 法院/法官 | 终审法院;马道立CJ、李义PJ、邓国桢PJ、陈兆恺NPJ、简嘉麒勳爵NPJ(第60-65段) |
| 最终处置 | 一致驳回全部上诉(第78、85段),仅作"不就讼费作出命令"之暂准命令 |
| 宪法工作权 | 《人权法案》第14条、《文化公约》第6条、《基本法》第33条均不适用/不成立;理由为《人权条例》第11条 + 英国两项保留条文 + 二元原则(D、E、F部) |
| 普通法工作权 | 不存在(G部,第75段) |
| 第3条不人道处遇 | 处长酌情权确受《人权法案》第3条(绝对权利,依 Ubamaka 案)制约(第43-45段);但法院刻意不作终局事实裁定,因属学术性质(第53段);CJ仅"傾向贊同"可以想像构成不人道处遇(第54段) |
| GA/MA 被撤销发还 | 系原讼法庭张举能法官之裁决(第10段),非终审法院;终审法院驳回全部上诉 |
| 讼费 | 暂准命令:不就讼费作命令;申请人就不人道处遇陈词"部分成功"(第78段) |
两大高频误区(用于扣分判断):
- "发还重审/发还处长重新考虑" —— 终审法院明确拒绝发还(第53(3)段,因属学术),全案无此命令。凡将其作为终审处置者属事实性幻觉。
- "第3条不适用" —— 此为下级法院(在 Ubamaka 前)的旧观点,已被本案纠正。凡称终审法院裁定第3条不适用者属重大错误。
二、逐模型评分
1. mm-minimax-m2.7(Minimax 直连)
- 当事人/法院/管辖:全对。
- 宪法工作权敗诉:✅ 正确,理由(第11条+保留条文)准确。
- 第3条:标注"部分勝訴/上訴得直"——❌ 处置定性错误(全部上诉被驳回);但"第3条制约酌情权"方向正确。
- 第三项 charge "发还重审"——❌ 幻觉处置。
- judgment_summary 亦称"發還原審或處長重審"——❌ 同一错误。
- involved_entities:10 个,含入境处、酷刑审理科、联合国难民署,较完整。
- 准确度 6.5 完整度 8.0 综合 7.1
2. ollama-qwen3-8b(本地,免费)
- 当事人/法院:全对。
- 难得地正确捕捉处置层级:GA/MA 部分勝訴归于原讼法庭;憲法工作权上诉敗诉;普通法无工作权;第3条"未有最終裁定……附帶意見……須醫學證據"——✅ 这是所有模型中对"法院不作终局裁定"这一核心微妙点最准确的复述。
- summary 明确"駁回所有上訴"——✅ 终审处置正确。
- 瑕疵:"上訴法庭推翻此裁決"(GA/MA)属层级混淆小错(CA 驳回上诉,但 CFI 之撤销裁决并未被推翻)。
- involved_entities:10 个,完整。
- 弱点:输出最短(1536 output tokens),对第3条"制约绝对权利"的法理意义着墨较少。
- 准确度 8.0 完整度 7.0 综合 7.6(性价比之王:免费且处置判断最稳)
3. or-claude-sonnet-4.5
- 宪法工作权驳回:✅。
- 第3条法理阐述质量最高(Ubamaka、绝对权利、"有真正重大风险则处长无酌情权")——法理✅。
- 但三处反复称"發還處長重新考慮各個案"——❌ 终审处置幻觉(法院明确拒绝发还)。summary 同误。
- involved_entities:9 个,正确。
- 准确度 6.5 完整度 7.5 综合 6.9(法理强、处置错;且成本最高)
4. or-deepseek-v4-flash
- 宪法工作权驳回 + 普通法无工作权:✅。
- 第3条:"原審因第11條認定不適用之觀點有誤,該條原則上可適用"——✅ 准确点出 Ubamaka 后的纠正。
- 但同样"部分勝訴……發還處長重新考慮"——❌ 处置幻觉。summary 同误。
- involved_entities:9 个,正确。
- 准确度 6.5 完整度 7.5 综合 6.9(与 sonnet 同型错误,但成本仅其 1/60)
5. or-deepseek-v4-pro
- 宪法工作权敗诉(含《基本法》第41条排除非居民)+ 普通法单列敗诉:✅ 最齐全。
- 第3条:"部分勝訴(原則性認定)……酌情權受第3條制約,若致真正重大風險,處長必須考慮給予准許"——✅ "原則性認定"用语精准,避开了"发还"幻觉。
- 瑕疵:将 GA/MA 撤销发还描述为终审法院"維持原訟法庭判決……撤銷原決定並令重新考慮",CFI/CFA 层级略有混淆;summary 未明确点出"驳回全部上诉"。
- involved_entities:14 个(含 GA/PA/FI/JA/MA 逐一列出),最完整。
- 代价:耗时最长 250.7s,输出 9456 tokens。
- 准确度 7.5 完整度 9.0 综合 8.1(综合最高:处置定性最稳 + 信息最全)
6. or-gemini-3-flash-preview
- 宪法工作权敗诉:✅。
- 正确将 GA/MA 撤销归于"原審法官"——✅ 层级判断准确。
- 但第3条:"裁定申請人未能證明存在真正和重大的風險"故敗诉——❌ 错误。法院刻意不作此裁定,CJ反而傾向认为可以想像构成不人道处遇;此处把"未裁定"误读成"裁定败诉"。
- involved_entities:11 个,含"香港特別行政區政府",较完整。
- 速度最快 32.7s。
- 准确度 6.5 完整度 8.0 综合 7.1(速度王;第3条方向性误读)
7. or-minimax-m2.7(OpenRouter 转发)
- 宪法工作权敗诉:✅。
- 第3条:"駁回。第3條不適用……無證據顯示重大風險"——❌❌ 重大错误(采纳了被本案纠正的旧观点)。
- "上訴法庭撤銷處長對MA及GA的決定"——❌ 误归 CA(实为 CFI)。
- 幻觉引证:李义法官 reason 写"在 Tang Kwok Wah v HKSAR [2019] HKCFA 23……本案第34段引用其判詞"——❌ 2014 年判决不可能引用 2019 年案例,纯属编造。
- 填充式 charge:"醫療費用及精神損害賠償/工作准許延續 = 無"——案中并无此争点,属凑数。
- involved_entities:仅 7 个,最少。
- 准确度 4.0 完整度 6.0 综合 4.8(同名模型经 OpenRouter 反而最差)
值得注意:同一 minimax-m2.7 经 Minimax 直连(7.1)明显优于 OpenRouter 转发(4.8)——直连版第3条方向正确且无幻觉引证,转发版出现"第3条不適用"+ 编造 2019 案例。提示同模型不同供应商链路的输出质量可显著不同。
三、综合评分排名
| 排名 | 模型 | 准确度 | 完整度 | 综合 | 耗时(s) | 成本(USD) |
|---|---|---|---|---|---|---|
| 1 | or-deepseek-v4-pro | 7.5 | 9.0 | 8.1 | 250.7 | 0.026402 |
| 2 | ollama-qwen3-8b | 8.0 | 7.0 | 7.6 | 105.1 | 0.000000 |
| 3 | mm-minimax-m2.7 | 6.5 | 8.0 | 7.1 | 91.4 | 0.015920 |
| 3 | or-gemini-3-flash-preview | 6.5 | 8.0 | 7.1 | 32.7 | 0.028861 |
| 5 | or-claude-sonnet-4.5 | 6.5 | 7.5 | 6.9 | 67.4 | 0.220119 |
| 5 | or-deepseek-v4-flash | 6.5 | 7.5 | 6.9 | 90.0 | 0.003677 |
| 7 | or-minimax-m2.7 | 4.0 | 6.0 | 4.8 | 89.0 | 0.018264 |
综合分 = 准确度×0.6 + 完整度×0.4。
四、时间与金钱效率分析
- 最快:gemini-3-flash-preview(32.7s),约为最慢者 deepseek-v4-pro(250.7s)的 1/8。
- 最慢:deepseek-v4-pro(250.7s,输出 9456 tokens),质量第一但慢且未必划算。
- 零成本:ollama-qwen3-8b(本地,$0),却拿下准确度并列最高、综合第二——本案最佳性价比。
- 最贵:claude-sonnet-4.5($0.2201),是 deepseek-v4-flash($0.0037)的约 60 倍,但综合分两者持平(6.9)——本案性价比最低。
- 每元价值:付费云端模型中,deepseek-v4-flash 以 $0.0037 拿到 6.9 分,单位成本性价比最高;deepseek-v4-pro 多花 7 倍钱($0.0264)换得 +1.2 分。
成本区间:本案全部 7 个模型,付费部分单次提取成本介于 $0.0037 – $0.2201,相差约 60 倍。
五、结论与选型建议
- 共性优点:7 个模型对当事人、法院、管辖、宪法工作权敗诉(及第11条+保留条文之理由)的提取高度一致且正确,结构化字段稳定。
- 共性难点:本案最易失分处是第3条不人道处遇的终审处置——法院"承认第3条制约酌情权,但刻意不作终局裁定、且明确拒绝发还"。多数模型在此二选一地犯错:
- 误判为"发还重审/发还处长重新考虑"(sonnet-4.5、deepseek-flash、mm-minimax);
- 误判为"裁定申请人未能证明、第3条不适用"(gemini、or-minimax)。
- 仅 ollama-qwen3-8b("未有最終裁定") 与 deepseek-v4-pro("原則性認定") 准确把握了这一微妙点。
- 唯一硬幻觉:or-minimax-m2.7 编造了
[2019] HKCFA 23案例引用——在法律场景中属高危错误。 - 选型建议:
- 追求准确稳健且零成本:
ollama-qwen3-8b(本地)首选。 - 追求信息最完整且可接受较慢/中等成本:
deepseek-v4-pro。 - 追求速度:
gemini-3-flash-preview(需复核第3条处置)。 - 付费性价比:
deepseek-v4-flash($0.0037 即达主流水准)。 - 不建议:
or-minimax-m2.7(幻觉引证 + 第3条方向错);claude-sonnet-4.5在本案性价比偏低(贵 60 倍而分数不占优)。
- 追求准确稳健且零成本: