6.9 KiB

Raw Blame History

v3 模型输出对比分析

分析对象：zh_cases_hkcfa/2014_HKCFA_17/case.json 及同目录随案判案书。case.json 的正文存在编码乱码，因此事实核对以其对应附件判案书内容为准。

原文关键信息基准

案件：GA / PA / FI / JA v 入境事務處處長，FACV 7, 8, 9及10/2013，[2014] HKCFA 17，终审法院。
日期：聆讯为 2014 年 1 月 8-9 日，判案书日期为 2014 年 2 月 18 日。
当事人：GA、FI、JA 为经核实难民，PA 为获确立酷刑声请人；答辩人为入境事务处处长。原讼阶段另有 MA，但他不是终审上诉人。
核心争议：这些长期滞港的经核实难民或酷刑声请人，是否享有宪法或普通法保障的工作权；处长拒绝工作准许的酌情权是否受《人权法案》第 3 条关于不人道处遇的限制。
终审结论：终审法院一致驳回所有上诉。法院认为没有可使申请人受惠的宪法保障工作权，《人权法案》第 14 条、《文化公约》第 6 条、《基本法》第 33 条及普通法均不能支持其主张。
重要限定：处长的酌情权并非不受限制；如能证明禁止工作会造成不人道处遇，或有重大和迫切风险引致不人道处遇，处长须给予工作准许。但本案没有就个别申请人作出此事实认定。
讼费：作出暂准命令，不就讼费作出命令；申请人关于不人道处遇的陈词可说有部分成功。

总体评分

排名	模型输出	准确度/完整度	耗时	费用 USD	主要评价
1	`or-deepseek-v4-pro`	8.1/10	250.701s	0.026402	最准确地抓住“全部上诉被驳回、无工作权”的终审结论，但对第 3 条的“原则上适用/酌情权受限”讲得偏薄。
2	`or-claude-sonnet-4.5`	7.8/10	67.418s	0.220119	事实覆盖较完整，能说明原讼、上诉法庭和终审脉络；但把 GA/MA 原讼阶段的局部胜诉列入结果，容易混淆终审结论。
3	`mm-minimax-m2.7`	7.2/10	91.445s	0.015920	能抓住工作权败诉和第 3 条约束处长这两个核心点，但“发还/重审”式表述与终审结果不符。
4	`or-minimax-m2.7`	7.0/10	88.981s	0.018264	结构清楚，成本低；但同样误写为政策或个案需重新考虑，且若干事实表达过度概括。
5	`or-gemini-3-flash-preview`	6.9/10	32.713s	0.028861	速度最快，覆盖实体最多；但把 GA/MA 工作准许问题写成终审胜诉/撤销决定，是明显结论错误。
6	`or-deepseek-v4-flash`	6.6/10	89.997s	0.003677	成本最低且抓住部分法律原则，但输出较粗，错误地称第 3 条部分胜诉并发还重新考虑。
7	`ollama-qwen3-8b`	5.8/10	105.054s	0.000000	免费本地运行，但遗漏和混淆较多，出现无关案件/年份信息，结果字段还加入了原文无明确支持的损失项目。

逐模型分析

`or-deepseek-v4-pro`

优点：准确列出四名上诉人、答辩人、法院和基本争议；能明确写出终审法院驳回所有上诉，并指出《人权法案》第 14 条、《文化公约》第 6 条、《基本法》第 33 条及普通法均不能确立工作权。

不足：对《人权法案》第 3 条的处理略显简单，容易让人以为法院只是“即使适用也证据不足”，而原判更重要的规则是处长酌情权确受第 3 条限制，只是本案没有作出个别事实认定。

`or-claude-sonnet-4.5`

优点：完整度较好，能够覆盖下级法院阶段、原讼法庭对 MA/GA 的处理、上诉法庭和终审法院的最终取向；实体识别也比较全面。

不足：judgment_result 中将 GA/MA 的原讼阶段局部胜诉单列为“部分胜诉”，若作为终审信息提取会误导。终审法院的真正结果是所有上诉均被驳回，并未恢复原讼阶段对 GA/MA 的救济。

`mm-minimax-m2.7`

优点：法律争点提炼较完整，包括工作权、处长出入境酌情权、第 3 条不人道处遇限制等。费用较低，耗时中等。

不足：把不人道处遇部分写成“发还重审/重新考虑”不准确。终审法院只是确认相关法律原则并说明申请人的陈词有部分成功，但最终仍驳回全部上诉。

`or-minimax-m2.7`

优点：能以较低费用输出较完整结构，识别出工作许可、宪法保障工作权、不人道处遇和出入境酌情权四类对象。

不足：同样误将 GA/MA 原讼阶段的处理写成终审层面的部分胜诉；当事人来源、法律条文和实体原因有一定概括化，完整度弱于 Claude 和 DeepSeek Pro。

`or-gemini-3-flash-preview`

优点：耗时最短，实体覆盖最全，能识别 GA、PA、FI、JA、MA、下级法院法官和联合国难民署香港办事处。

不足：终审结果判断偏离较大，写成“撤销处长拒绝 GA/MA 工作准许的决定并命令重新考虑”，这属于原讼阶段信息，不能作为终审结果。对《基本法》第 33 条和第 41 条的关系也表述得过于确定。

`or-deepseek-v4-flash`

优点：成本最低，能够抓住“工作权主张失败、第 3 条原则上可适用”的主要方向。

不足：摘要过短，遗漏法院对《人权条例》第 11 条、两项保留条文、《基本法》第 39/41 条和普通法工作权的较完整论证；“部分胜诉、发还处长重新考虑各人个案”的结论与终审判决不一致。

`ollama-qwen3-8b`

优点：本地模型零费用，基本当事人和法院字段可用，能粗略识别工作权争议。

不足：准确性明显较弱。输出中出现与本案无关的 Tang Kwok Wah v HKSAR [2019] HKCFA 23，并加入“医疗费用及精神损害赔偿”“工作准许延期及条件”等原文没有作为裁判结果处理的项目；对 MA/GA、FI/JA/PA 的阶段性结果也有混淆。

成本与效率观察

最快：or-gemini-3-flash-preview，32.713 秒，但关键结论错误较明显。
最便宜的远程模型：or-deepseek-v4-flash，0.003677 USD，但完整度和终审结论稳定性不足。
综合性价比：or-deepseek-v4-pro 的准确度最高，但耗时最长；若更看重速度和可读性，or-claude-sonnet-4.5 表现稳定但成本最高。
本地免费：ollama-qwen3-8b 无 API 费用，但本案复杂法律层级下可靠性不足，不建议作为最终结构化结果来源。

结论

本案最重要的评判点是能否区分“原讼法庭阶段 MA/GA 曾获局部救济”和“终审法院最终一致驳回全部上诉”。在这一点上，or-deepseek-v4-pro 表现最好，or-claude-sonnet-4.5 信息较全但存在阶段混淆；Gemini、MiniMax 和 DeepSeek Flash 均不同程度把下级法院或原则性讨论误写成终审实体救济。综合准确度、完整度、时间和费用，推荐以 or-deepseek-v4-pro 作为本案 v3 输出的主参考，以 or-claude-sonnet-4.5 作为补充核对来源。

6.9 KiB Raw Blame History Unescape Escape

v3 模型输出对比分析

原文关键信息基准

总体评分

逐模型分析

or-deepseek-v4-pro

or-claude-sonnet-4.5

mm-minimax-m2.7

or-minimax-m2.7

or-gemini-3-flash-preview

or-deepseek-v4-flash

ollama-qwen3-8b