hklii_samples/zh_cases_hkcfa/2014_HKCFA_17/v3/模型输出对比分析.md

6.9 KiB
Raw Blame History

v3 模型输出对比分析

分析对象:zh_cases_hkcfa/2014_HKCFA_17/case.json 及同目录随案判案书。case.json 的正文存在编码乱码,因此事实核对以其对应附件判案书内容为准。

原文关键信息基准

  • 案件:GA / PA / FI / JA v 入境事務處處長FACV 7, 8, 9及10/2013[2014] HKCFA 17,终审法院。
  • 日期:聆讯为 2014 年 1 月 8-9 日,判案书日期为 2014 年 2 月 18 日。
  • 当事人GA、FI、JA 为经核实难民PA 为获确立酷刑声请人;答辩人为入境事务处处长。原讼阶段另有 MA但他不是终审上诉人。
  • 核心争议:这些长期滞港的经核实难民或酷刑声请人,是否享有宪法或普通法保障的工作权;处长拒绝工作准许的酌情权是否受《人权法案》第 3 条关于不人道处遇的限制。
  • 终审结论:终审法院一致驳回所有上诉。法院认为没有可使申请人受惠的宪法保障工作权,《人权法案》第 14 条、《文化公约》第 6 条、《基本法》第 33 条及普通法均不能支持其主张。
  • 重要限定:处长的酌情权并非不受限制;如能证明禁止工作会造成不人道处遇,或有重大和迫切风险引致不人道处遇,处长须给予工作准许。但本案没有就个别申请人作出此事实认定。
  • 讼费:作出暂准命令,不就讼费作出命令;申请人关于不人道处遇的陈词可说有部分成功。

总体评分

排名 模型输出 准确度/完整度 耗时 费用 USD 主要评价
1 or-deepseek-v4-pro 8.1/10 250.701s 0.026402 最准确地抓住“全部上诉被驳回、无工作权”的终审结论,但对第 3 条的“原则上适用/酌情权受限”讲得偏薄。
2 or-claude-sonnet-4.5 7.8/10 67.418s 0.220119 事实覆盖较完整,能说明原讼、上诉法庭和终审脉络;但把 GA/MA 原讼阶段的局部胜诉列入结果,容易混淆终审结论。
3 mm-minimax-m2.7 7.2/10 91.445s 0.015920 能抓住工作权败诉和第 3 条约束处长这两个核心点,但“发还/重审”式表述与终审结果不符。
4 or-minimax-m2.7 7.0/10 88.981s 0.018264 结构清楚,成本低;但同样误写为政策或个案需重新考虑,且若干事实表达过度概括。
5 or-gemini-3-flash-preview 6.9/10 32.713s 0.028861 速度最快,覆盖实体最多;但把 GA/MA 工作准许问题写成终审胜诉/撤销决定,是明显结论错误。
6 or-deepseek-v4-flash 6.6/10 89.997s 0.003677 成本最低且抓住部分法律原则,但输出较粗,错误地称第 3 条部分胜诉并发还重新考虑。
7 ollama-qwen3-8b 5.8/10 105.054s 0.000000 免费本地运行,但遗漏和混淆较多,出现无关案件/年份信息,结果字段还加入了原文无明确支持的损失项目。

逐模型分析

or-deepseek-v4-pro

优点:准确列出四名上诉人、答辩人、法院和基本争议;能明确写出终审法院驳回所有上诉,并指出《人权法案》第 14 条、《文化公约》第 6 条、《基本法》第 33 条及普通法均不能确立工作权。

不足:对《人权法案》第 3 条的处理略显简单,容易让人以为法院只是“即使适用也证据不足”,而原判更重要的规则是处长酌情权确受第 3 条限制,只是本案没有作出个别事实认定。

or-claude-sonnet-4.5

优点:完整度较好,能够覆盖下级法院阶段、原讼法庭对 MA/GA 的处理、上诉法庭和终审法院的最终取向;实体识别也比较全面。

不足:judgment_result 中将 GA/MA 的原讼阶段局部胜诉单列为“部分胜诉”,若作为终审信息提取会误导。终审法院的真正结果是所有上诉均被驳回,并未恢复原讼阶段对 GA/MA 的救济。

mm-minimax-m2.7

优点:法律争点提炼较完整,包括工作权、处长出入境酌情权、第 3 条不人道处遇限制等。费用较低,耗时中等。

不足:把不人道处遇部分写成“发还重审/重新考虑”不准确。终审法院只是确认相关法律原则并说明申请人的陈词有部分成功,但最终仍驳回全部上诉。

or-minimax-m2.7

优点:能以较低费用输出较完整结构,识别出工作许可、宪法保障工作权、不人道处遇和出入境酌情权四类对象。

不足:同样误将 GA/MA 原讼阶段的处理写成终审层面的部分胜诉;当事人来源、法律条文和实体原因有一定概括化,完整度弱于 Claude 和 DeepSeek Pro。

or-gemini-3-flash-preview

优点:耗时最短,实体覆盖最全,能识别 GA、PA、FI、JA、MA、下级法院法官和联合国难民署香港办事处。

不足:终审结果判断偏离较大,写成“撤销处长拒绝 GA/MA 工作准许的决定并命令重新考虑”,这属于原讼阶段信息,不能作为终审结果。对《基本法》第 33 条和第 41 条的关系也表述得过于确定。

or-deepseek-v4-flash

优点:成本最低,能够抓住“工作权主张失败、第 3 条原则上可适用”的主要方向。

不足:摘要过短,遗漏法院对《人权条例》第 11 条、两项保留条文、《基本法》第 39/41 条和普通法工作权的较完整论证;“部分胜诉、发还处长重新考虑各人个案”的结论与终审判决不一致。

ollama-qwen3-8b

优点:本地模型零费用,基本当事人和法院字段可用,能粗略识别工作权争议。

不足:准确性明显较弱。输出中出现与本案无关的 Tang Kwok Wah v HKSAR [2019] HKCFA 23,并加入“医疗费用及精神损害赔偿”“工作准许延期及条件”等原文没有作为裁判结果处理的项目;对 MA/GA、FI/JA/PA 的阶段性结果也有混淆。

成本与效率观察

  • 最快:or-gemini-3-flash-preview32.713 秒,但关键结论错误较明显。
  • 最便宜的远程模型:or-deepseek-v4-flash0.003677 USD但完整度和终审结论稳定性不足。
  • 综合性价比:or-deepseek-v4-pro 的准确度最高,但耗时最长;若更看重速度和可读性,or-claude-sonnet-4.5 表现稳定但成本最高。
  • 本地免费:ollama-qwen3-8b 无 API 费用,但本案复杂法律层级下可靠性不足,不建议作为最终结构化结果来源。

结论

本案最重要的评判点是能否区分“原讼法庭阶段 MA/GA 曾获局部救济”和“终审法院最终一致驳回全部上诉”。在这一点上,or-deepseek-v4-pro 表现最好,or-claude-sonnet-4.5 信息较全但存在阶段混淆Gemini、MiniMax 和 DeepSeek Flash 均不同程度把下级法院或原则性讨论误写成终审实体救济。综合准确度、完整度、时间和费用,推荐以 or-deepseek-v4-pro 作为本案 v3 输出的主参考,以 or-claude-sonnet-4.5 作为补充核对来源。