hklii_samples/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析-claude-opus-4.8.md

9.8 KiB
Raw Blame History

模型输出对比分析2014_HKCFA_17 / v3

分析模型claude-opus-4.8 案件JA 對 入境事務處處長 [2014] HKCFA 17FACV 7,8,9,10/2013合併聆訊 评分制10.0 分制(准确度 60% + 完整度 40% 加权得出综合分) 本分析基于 case.json 原文独立完成,未参考目录下其它已有分析文件。


一、判决原文事实基准(评分锚点)

为避免被各模型相互"传染"的误读带偏,先从原文锁定关键事实:

维度 原文事实(出处段落)
上诉人 GA、FI、JA经核实难民、PA获确立酷刑声请人第1段
答辩人 入境事务处处长第1段
法院/法官 终审法院马道立CJ、李义PJ、邓国桢PJ、陈兆恺NPJ、简嘉麒勳爵NPJ第60-65段
最终处置 一致驳回全部上诉第78、85段仅作"不就讼费作出命令"之暂准命令
宪法工作权 《人权法案》第14条、《文化公约》第6条、《基本法》第33条均不适用/不成立理由为《人权条例》第11条 + 英国两项保留条文 + 二元原则D、E、F部
普通法工作权 不存在G部第75段
第3条不人道处遇 处长酌情权确受《人权法案》第3条绝对权利依 Ubamaka 案制约第43-45段但法院刻意不作终局事实裁定因属学术性质第53段CJ仅"傾向贊同"可以想像构成不人道处遇第54段
GA/MA 被撤销发还 原讼法庭张举能法官之裁决第10段终审法院;终审法院驳回全部上诉
讼费 暂准命令:不就讼费作命令;申请人就不人道处遇陈词"部分成功"第78段

两大高频误区(用于扣分判断):

  1. "发还重审/发还处长重新考虑" —— 终审法院明确拒绝发还第53(3)段,因属学术),全案无此命令。凡将其作为终审处置者属事实性幻觉。
  2. "第3条不适用" —— 此为下级法院(在 Ubamaka 前的旧观点已被本案纠正。凡称终审法院裁定第3条不适用者属重大错误。

二、逐模型评分

1. mm-minimax-m2.7Minimax 直连)

  • 当事人/法院/管辖:全对。
  • 宪法工作权敗诉: 正确理由第11条+保留条文)准确。
  • 第3条标注"部分勝訴/上訴得直"—— 处置定性错误(全部上诉被驳回);但"第3条制约酌情权"方向正确。
  • 第三项 charge "发还重审"—— 幻觉处置。
  • judgment_summary 亦称"發還原審或處長重審"—— 同一错误。
  • involved_entities10 个,含入境处、酷刑审理科、联合国难民署,较完整。
  • 准确度 6.5 完整度 8.0 综合 7.1

2. ollama-qwen3-8b本地免费

  • 当事人/法院:全对。
  • 难得地正确捕捉处置层级GA/MA 部分勝訴归于原讼法庭憲法工作权上诉敗诉普通法无工作权第3条"未有最終裁定……附帶意見……須醫學證據"—— 这是所有模型中对"法院不作终局裁定"这一核心微妙点最准确的复述。
  • summary 明确"駁回所有上訴"—— 终审处置正确。
  • 瑕疵:"上訴法庭推翻此裁決"GA/MA属层级混淆小错CA 驳回上诉,但 CFI 之撤销裁决并未被推翻)。
  • involved_entities10 个,完整。
  • 弱点输出最短1536 output tokens对第3条"制约绝对权利"的法理意义着墨较少。
  • 准确度 8.0 完整度 7.0 综合 7.6(性价比之王:免费且处置判断最稳)

3. or-claude-sonnet-4.5

  • 宪法工作权驳回:
  • 第3条法理阐述质量最高Ubamaka、绝对权利、"有真正重大风险则处长无酌情权")——法理
  • 但三处反复称"發還處長重新考慮各個案"—— 终审处置幻觉法院明确拒绝发还。summary 同误。
  • involved_entities9 个,正确。
  • 准确度 6.5 完整度 7.5 综合 6.9(法理强、处置错;且成本最高)

4. or-deepseek-v4-flash

  • 宪法工作权驳回 + 普通法无工作权:
  • 第3条"原審因第11條認定不適用之觀點有誤該條原則上可適用"—— 准确点出 Ubamaka 后的纠正。
  • 但同样"部分勝訴……發還處長重新考慮"—— 处置幻觉。summary 同误。
  • involved_entities9 个,正确。
  • 准确度 6.5 完整度 7.5 综合 6.9(与 sonnet 同型错误,但成本仅其 1/60

5. or-deepseek-v4-pro

  • 宪法工作权敗诉含《基本法》第41条排除非居民+ 普通法单列敗诉: 最齐全。
  • 第3条"部分勝訴(原則性認定)……酌情權受第3條制約若致真正重大風險處長必須考慮給予准許"—— "原則性認定"用语精准,避开了"发还"幻觉
  • 瑕疵:将 GA/MA 撤销发还描述为终审法院"維持原訟法庭判決……撤銷原決定並令重新考慮"CFI/CFA 层级略有混淆summary 未明确点出"驳回全部上诉"。
  • involved_entities14 个(含 GA/PA/FI/JA/MA 逐一列出),最完整。
  • 代价:耗时最长 250.7s,输出 9456 tokens。
  • 准确度 7.5 完整度 9.0 综合 8.1(综合最高:处置定性最稳 + 信息最全)

6. or-gemini-3-flash-preview

  • 宪法工作权敗诉:
  • 正确将 GA/MA 撤销归于"原審法官"—— 层级判断准确。
  • 但第3条"裁定申請人未能證明存在真正和重大的風險"故敗诉—— 错误。法院刻意不作此裁定CJ反而傾向认为可以想像构成不人道处遇此处把"未裁定"误读成"裁定败诉"。
  • involved_entities11 个,含"香港特別行政區政府",较完整。
  • 速度最快 32.7s。
  • 准确度 6.5 完整度 8.0 综合 7.1速度王第3条方向性误读

7. or-minimax-m2.7OpenRouter 转发)

  • 宪法工作权敗诉:
  • 第3条"駁回。第3條不適用……無證據顯示重大風險"—— 重大错误(采纳了被本案纠正的旧观点)。
  • "上訴法庭撤銷處長對MA及GA的決定"—— 误归 CA实为 CFI
  • 幻觉引证:李义法官 reason 写"在 Tang Kwok Wah v HKSAR [2019] HKCFA 23……本案第34段引用其判詞"—— 2014 年判决不可能引用 2019 年案例,纯属编造。
  • 填充式 charge"醫療費用及精神損害賠償/工作准許延續 = 無"——案中并无此争点,属凑数。
  • involved_entities仅 7 个,最少。
  • 准确度 4.0 完整度 6.0 综合 4.8(同名模型经 OpenRouter 反而最差)

值得注意:同一 minimax-m2.7 经 Minimax 直连7.1)明显优于 OpenRouter 转发4.8——直连版第3条方向正确且无幻觉引证转发版出现"第3条不適用"+ 编造 2019 案例。提示同模型不同供应商链路的输出质量可显著不同。


三、综合评分排名

排名 模型 准确度 完整度 综合 耗时(s) 成本(USD)
1 or-deepseek-v4-pro 7.5 9.0 8.1 250.7 0.026402
2 ollama-qwen3-8b 8.0 7.0 7.6 105.1 0.000000
3 mm-minimax-m2.7 6.5 8.0 7.1 91.4 0.015920
3 or-gemini-3-flash-preview 6.5 8.0 7.1 32.7 0.028861
5 or-claude-sonnet-4.5 6.5 7.5 6.9 67.4 0.220119
5 or-deepseek-v4-flash 6.5 7.5 6.9 90.0 0.003677
7 or-minimax-m2.7 4.0 6.0 4.8 89.0 0.018264

综合分 = 准确度×0.6 + 完整度×0.4。


四、时间与金钱效率分析

  • 最快gemini-3-flash-preview32.7s),约为最慢者 deepseek-v4-pro250.7s)的 1/8。
  • 最慢deepseek-v4-pro250.7s,输出 9456 tokens质量第一但慢且未必划算。
  • 零成本ollama-qwen3-8b本地$0却拿下准确度并列最高、综合第二——本案最佳性价比。
  • 最贵claude-sonnet-4.5$0.2201),是 deepseek-v4-flash$0.0037)的约 60 倍但综合分两者持平6.9)——本案性价比最低。
  • 每元价值付费云端模型中deepseek-v4-flash 以 $0.0037 拿到 6.9 分单位成本性价比最高deepseek-v4-pro 多花 7 倍钱($0.0264)换得 +1.2 分。

成本区间:本案全部 7 个模型,付费部分单次提取成本介于 $0.0037 $0.2201,相差约 60 倍。


五、结论与选型建议

  1. 共性优点7 个模型对当事人、法院、管辖、宪法工作权敗诉及第11条+保留条文之理由)的提取高度一致且正确,结构化字段稳定。
  2. 共性难点本案最易失分处是第3条不人道处遇的终审处置——法院"承认第3条制约酌情权但刻意不作终局裁定、且明确拒绝发还"。多数模型在此二选一地犯错:
    • 误判为"发还重审/发还处长重新考虑"sonnet-4.5、deepseek-flash、mm-minimax
    • 误判为"裁定申请人未能证明、第3条不适用"gemini、or-minimax
    • ollama-qwen3-8b"未有最終裁定"deepseek-v4-pro"原則性認定" 准确把握了这一微妙点。
  3. 唯一硬幻觉or-minimax-m2.7 编造了 [2019] HKCFA 23 案例引用——在法律场景中属高危错误。
  4. 选型建议
    • 追求准确稳健且零成本ollama-qwen3-8b(本地)首选。
    • 追求信息最完整且可接受较慢/中等成本:deepseek-v4-pro
    • 追求速度gemini-3-flash-preview需复核第3条处置
    • 付费性价比deepseek-v4-flash$0.0037 即达主流水准)。
    • 不建议:or-minimax-m2.7(幻觉引证 + 第3条方向错claude-sonnet-4.5 在本案性价比偏低(贵 60 倍而分数不占优)。