6.9 KiB
v3 模型输出对比分析
分析对象:zh_cases_hkcfa/2014_HKCFA_17/case.json 及同目录随案判案书。case.json 的正文存在编码乱码,因此事实核对以其对应附件判案书内容为准。
原文关键信息基准
- 案件:
GA / PA / FI / JA v 入境事務處處長,FACV 7, 8, 9及10/2013,[2014] HKCFA 17,终审法院。 - 日期:聆讯为 2014 年 1 月 8-9 日,判案书日期为 2014 年 2 月 18 日。
- 当事人:GA、FI、JA 为经核实难民,PA 为获确立酷刑声请人;答辩人为入境事务处处长。原讼阶段另有 MA,但他不是终审上诉人。
- 核心争议:这些长期滞港的经核实难民或酷刑声请人,是否享有宪法或普通法保障的工作权;处长拒绝工作准许的酌情权是否受《人权法案》第 3 条关于不人道处遇的限制。
- 终审结论:终审法院一致驳回所有上诉。法院认为没有可使申请人受惠的宪法保障工作权,《人权法案》第 14 条、《文化公约》第 6 条、《基本法》第 33 条及普通法均不能支持其主张。
- 重要限定:处长的酌情权并非不受限制;如能证明禁止工作会造成不人道处遇,或有重大和迫切风险引致不人道处遇,处长须给予工作准许。但本案没有就个别申请人作出此事实认定。
- 讼费:作出暂准命令,不就讼费作出命令;申请人关于不人道处遇的陈词可说有部分成功。
总体评分
| 排名 | 模型输出 | 准确度/完整度 | 耗时 | 费用 USD | 主要评价 |
|---|---|---|---|---|---|
| 1 | or-deepseek-v4-pro |
8.1/10 | 250.701s | 0.026402 | 最准确地抓住“全部上诉被驳回、无工作权”的终审结论,但对第 3 条的“原则上适用/酌情权受限”讲得偏薄。 |
| 2 | or-claude-sonnet-4.5 |
7.8/10 | 67.418s | 0.220119 | 事实覆盖较完整,能说明原讼、上诉法庭和终审脉络;但把 GA/MA 原讼阶段的局部胜诉列入结果,容易混淆终审结论。 |
| 3 | mm-minimax-m2.7 |
7.2/10 | 91.445s | 0.015920 | 能抓住工作权败诉和第 3 条约束处长这两个核心点,但“发还/重审”式表述与终审结果不符。 |
| 4 | or-minimax-m2.7 |
7.0/10 | 88.981s | 0.018264 | 结构清楚,成本低;但同样误写为政策或个案需重新考虑,且若干事实表达过度概括。 |
| 5 | or-gemini-3-flash-preview |
6.9/10 | 32.713s | 0.028861 | 速度最快,覆盖实体最多;但把 GA/MA 工作准许问题写成终审胜诉/撤销决定,是明显结论错误。 |
| 6 | or-deepseek-v4-flash |
6.6/10 | 89.997s | 0.003677 | 成本最低且抓住部分法律原则,但输出较粗,错误地称第 3 条部分胜诉并发还重新考虑。 |
| 7 | ollama-qwen3-8b |
5.8/10 | 105.054s | 0.000000 | 免费本地运行,但遗漏和混淆较多,出现无关案件/年份信息,结果字段还加入了原文无明确支持的损失项目。 |
逐模型分析
or-deepseek-v4-pro
优点:准确列出四名上诉人、答辩人、法院和基本争议;能明确写出终审法院驳回所有上诉,并指出《人权法案》第 14 条、《文化公约》第 6 条、《基本法》第 33 条及普通法均不能确立工作权。
不足:对《人权法案》第 3 条的处理略显简单,容易让人以为法院只是“即使适用也证据不足”,而原判更重要的规则是处长酌情权确受第 3 条限制,只是本案没有作出个别事实认定。
or-claude-sonnet-4.5
优点:完整度较好,能够覆盖下级法院阶段、原讼法庭对 MA/GA 的处理、上诉法庭和终审法院的最终取向;实体识别也比较全面。
不足:judgment_result 中将 GA/MA 的原讼阶段局部胜诉单列为“部分胜诉”,若作为终审信息提取会误导。终审法院的真正结果是所有上诉均被驳回,并未恢复原讼阶段对 GA/MA 的救济。
mm-minimax-m2.7
优点:法律争点提炼较完整,包括工作权、处长出入境酌情权、第 3 条不人道处遇限制等。费用较低,耗时中等。
不足:把不人道处遇部分写成“发还重审/重新考虑”不准确。终审法院只是确认相关法律原则并说明申请人的陈词有部分成功,但最终仍驳回全部上诉。
or-minimax-m2.7
优点:能以较低费用输出较完整结构,识别出工作许可、宪法保障工作权、不人道处遇和出入境酌情权四类对象。
不足:同样误将 GA/MA 原讼阶段的处理写成终审层面的部分胜诉;当事人来源、法律条文和实体原因有一定概括化,完整度弱于 Claude 和 DeepSeek Pro。
or-gemini-3-flash-preview
优点:耗时最短,实体覆盖最全,能识别 GA、PA、FI、JA、MA、下级法院法官和联合国难民署香港办事处。
不足:终审结果判断偏离较大,写成“撤销处长拒绝 GA/MA 工作准许的决定并命令重新考虑”,这属于原讼阶段信息,不能作为终审结果。对《基本法》第 33 条和第 41 条的关系也表述得过于确定。
or-deepseek-v4-flash
优点:成本最低,能够抓住“工作权主张失败、第 3 条原则上可适用”的主要方向。
不足:摘要过短,遗漏法院对《人权条例》第 11 条、两项保留条文、《基本法》第 39/41 条和普通法工作权的较完整论证;“部分胜诉、发还处长重新考虑各人个案”的结论与终审判决不一致。
ollama-qwen3-8b
优点:本地模型零费用,基本当事人和法院字段可用,能粗略识别工作权争议。
不足:准确性明显较弱。输出中出现与本案无关的 Tang Kwok Wah v HKSAR [2019] HKCFA 23,并加入“医疗费用及精神损害赔偿”“工作准许延期及条件”等原文没有作为裁判结果处理的项目;对 MA/GA、FI/JA/PA 的阶段性结果也有混淆。
成本与效率观察
- 最快:
or-gemini-3-flash-preview,32.713 秒,但关键结论错误较明显。 - 最便宜的远程模型:
or-deepseek-v4-flash,0.003677 USD,但完整度和终审结论稳定性不足。 - 综合性价比:
or-deepseek-v4-pro的准确度最高,但耗时最长;若更看重速度和可读性,or-claude-sonnet-4.5表现稳定但成本最高。 - 本地免费:
ollama-qwen3-8b无 API 费用,但本案复杂法律层级下可靠性不足,不建议作为最终结构化结果来源。
结论
本案最重要的评判点是能否区分“原讼法庭阶段 MA/GA 曾获局部救济”和“终审法院最终一致驳回全部上诉”。在这一点上,or-deepseek-v4-pro 表现最好,or-claude-sonnet-4.5 信息较全但存在阶段混淆;Gemini、MiniMax 和 DeepSeek Flash 均不同程度把下级法院或原则性讨论误写成终审实体救济。综合准确度、完整度、时间和费用,推荐以 or-deepseek-v4-pro 作为本案 v3 输出的主参考,以 or-claude-sonnet-4.5 作为补充核对来源。