hklii_samples/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析.md

6.9 KiB
Raw Blame History

模型输出对比分析

分析对象:zh_cases_hkcfa/2014_HKCFA_17/v3 下 6 个模型的信息提取结果。
校验基准:case.json 的案件元数据、正文轮廓,以及同目录 DOCX 原文的可读判案书文本。需注意:case.json 与多数 YAML 输出存在繁体中文编码错乱现象,本次评分主要看法律事实与结构提取是否正确,不因展示编码本身重复扣分。

原文关键基准

  • 案件:[2014] HKCFA 17FACV 7、8、9、10/2013终审法院。
  • 当事人:上诉人 GA、PA、FI、JA答辩人为入境事务处处长。
  • 身份事实GA、FI、JA 是经核实难民PA 是获确立酷刑声请人。
  • 核心争议:这些在港滞留较久的受保护人士是否有受宪法或普通法保障的工作权;处长拒绝工作准许的酌情权是否受不人道或侮辱处遇风险限制。
  • 主要裁判:
    • 《香港人权法案》第14条、《经济、社会与文化权利国际公约》第6条、《基本法》第33条及普通法均不能确立本案所主张的工作权。
    • 入境事务处处长在出入境管制及工作准许方面有广泛酌情权,但不是无限制。
    • 《人权法案》第3条关于不人道或侮辱处遇的保障原则上可限制处长酌情权若存在真正和重大的不人道处遇风险处长不能单纯以酌情权拒绝。
    • 本案各申请人未能证明拒绝工作准许会造成真正和重大的不人道处遇风险。
    • 终院一致驳回所有上诉,并作出暂准命令:不就讼费作出命令;申请人关于不人道处遇的陈词可说有部分成功。

总体排名

排名 模型 准确度 完整度 综合评分 简评
1 or-claude-sonnet-4.5 8.6 8.4 8.5 事实框架完整,能覆盖下级法院、工作权及不人道待遇争点;但对终院最终结果与 GA/MA 原讼阶段救济的关系表述略混。
2 or-minimax-m2.7 8.2 8.3 8.3 覆盖面较好,成本低于 Claude能区分三大争点但把“向终审法院上诉”误写成向上诉法庭且对最终“败诉/部分成功”的层次不够精确。
3 or-gemini-3-flash-preview 8.0 8.1 8.1 速度最快能抓住工作权失败和第3条原则性成功但将 GA/MA 原讼阶段救济说成终院层面的胜诉,容易误导。
4 or-deepseek-v4-flash 7.8 7.6 7.7 关键信息基本正确尤其能识别第3条原则上适用但说“各个案须重新考虑/政策部分胜诉”过宽,结果提取偏乐观。
5 or-deepseek-v4-pro 7.4 7.1 7.3 最终“全部上诉驳回”抓得准费用也较低但遗漏或弱化第3条陈词的“部分成功”完整度不如 flash 版。
6 ollama-qwen3-8b 5.9 6.1 6.0 当事人和基本争点可用,但混入无关或错误信息,例如 2019 年 Tang Kwok Wah多个裁判项虚构或错分结论层次不稳定。

耗时与费用

模型 来源 API 次数 输入 tokens 输出 tokens 总 tokens 耗时 总费用
ollama-qwen3-8b local 8 43,060 1,536 44,596 105.054 秒 USD 0.000000
or-claude-sonnet-4.5 openrouter 9 57,583 3,158 60,741 67.418 秒 USD 0.220119
or-deepseek-v4-flash openrouter 6 26,974 4,900 31,874 89.997 秒 USD 0.003677
or-deepseek-v4-pro openrouter 9 41,782 9,456 51,238 250.701 秒 USD 0.026402
or-gemini-3-flash-preview openrouter 9 44,252 2,245 46,497 32.713 秒 USD 0.028861
or-minimax-m2.7 openrouter 9 45,184 4,715 49,899 88.981 秒 USD 0.018264

分模型评价

ollama-qwen3-8b

优点是抽出了四名上诉人、答辩人、法院层级、工作权和不人道待遇等主题。主要问题是结果项混乱:把不存在的“医疗费用及精神损害赔偿”“工作准许延期及条件”等作为损失范围列入;把原讼阶段 MA/GA 的处理和终院四名上诉人的最终结果混在一起;还在实体名单中出现与本案无关的 Tang Kwok Wah v HKSAR [2019] HKCFA 23。整体可作粗略摘要但不宜直接进入结构化案件库。

or-claude-sonnet-4.5

整体最稳。能准确识别四名上诉人身份、主要权利依据、下级法院过程、处长酌情权以及第3条不人道待遇问题。缺点是“未有最终裁定”“GA/MA 部分胜诉”的表述容易让人误以为终院给予实质救济;原文的终局命令是驳回所有上诉,只是在不人道待遇法律论点上承认原则性部分成功。实体列表较完整,但部分理由说明偏长,且受编码问题影响可读性一般。

or-deepseek-v4-flash

摘要自然能抓住“无宪法工作权”和“第3条原则上可适用”两个核心。最大偏差是把第3条问题的后果扩大为“各上诉人的个案决定须重新考虑”而原文只是说明处长酌情权受第3条限制本案证据不足最终仍驳回所有上诉。若用于自动提取需人工修正 judgment_result。

or-deepseek-v4-pro

对最终结论“驳回所有上诉”把握较好,也清楚列出 BOR 第14条、文化公约第6条、基本法第33条和普通法工作权均失败。但对不人道待遇部分处理偏粗容易读成完全败诉未充分呈现终院承认第3条原则上限制处长酌情权以及讼费命令背后的“部分成功”。完整度略低于 flash。

or-gemini-3-flash-preview

速度显著最快,内容覆盖也不错,能分辨工作权、工作准许、不人道待遇和酌情权。主要误差在结果层次:称“撤销 GA 及 MA 的决定并命令重新考虑”虽有原讼阶段依据,但没有清晰说明终院本身最终驳回四名上诉人的上诉;并且把 FI、JA、PA 的其他救济描述得较像终院实体分项裁判。综合来看适合快速初筛,但需要终局命令校验。

or-minimax-m2.7

质量接近 Gemini实体和争点覆盖充分费用低、速度中等。优点是能把“工作权失败”“第3条限制处长酌情权”“证据不足”三者同时写出。主要问题是 case_reason 中写成“向上诉法院提出上诉”层级错误“部分胜诉”的对象和范围也未清楚限定在原讼阶段救济及第3条法律论点而非终院最终给予上诉人救济。

性价比结论

  • 最高质量:or-claude-sonnet-4.5,但费用最高,约为 MiniMax 的 12 倍、DeepSeek Flash 的 60 倍。
  • 最快:or-gemini-3-flash-preview32.713 秒完成,质量也在第一梯队后段。
  • 最低付费成本:or-deepseek-v4-flashUSD 0.003677,质量可用但需重点校正最终裁判结果。
  • 最佳综合性价比:or-minimax-m2.7。它的综合评分接近 Claude费用仅 USD 0.018264,适合批量案件抽取后再做人工或规则校验。
  • 本地免费方案:ollama-qwen3-8b 无 API 成本,但法律结果误差和幻觉较多,适合低成本预处理,不适合作为最终结构化结果。