hklii_samples/en_cases_hkcfa/2025_HKCFA_20/v3/模型输出对比分析.md

10 KiB
Raw Blame History

模型输出对比分析2025_HKCFA_20 v3

评估基准

案件原文要点如下:香港特区政府就上诉庭撤销四名被告串谋诈骗定罪一事向终审法院上诉。终院一致准许上诉,撤销上诉庭判决,恢复区域法院对各被告的定罪及相关命令。核心事实是 CFHL 与 Gransing 签订配售协议、Gransing 随即与 CISL 签订分配售协议,但 CISL 实际上才是配售代理Gransing 被用作前置/掩饰,以隐藏 CISL 的角色。法律重点包括:上诉庭错误地以 Snook 的 sham transaction 测试限制控方案情;无需证明文件交易本身是 sham关键在于是否以不诚实方式隐瞒 CISL 的实际角色、利益冲突和关连交易审查问题。判决还分别讨论了 D1、D2、D3、D4 的知情、参与和不诚实,以及第 1 项控罪针对 CFHL、董事会、股东和潜在投资者第 3 项控罪针对联交所履行监管职责。

评分采用 10.0 分制,综合考虑:

  • 准确度:当事人、法院、程序姿态、判决结果、法律争点和事实链是否正确。
  • 完整度是否覆盖两项控罪、Snook 错误、CISL/Gransing/CFHL 关系、关连交易、利益冲突、联交所职责、经济损失/风险、各被告责任等关键内容。
  • 输出可靠性:是否存在乱码、误称、过度概括、事实添加或字段理由模板化问题。

总览排名

排名 模型 准确度与完整度评分 主要结论
1 or-claude-sonnet-4.5 8.7/10 覆盖最完整,抓住 Snook 错误、Gransing 前置、CISL 关连人、恢复定罪等核心;但有少量不准确表述。
2 or-minimax-m2.7 8.4/10 摘要扎实、法律争点准确中文姓名正常但对具体控罪、D2-D4 个别责任和经济损失风险覆盖不足。
3 or-deepseek-v4-flash 8.0/10 基本事实和结果准确中文姓名正常表达较简略并出现“related offences”等不严谨扩展。
4 or-gemini-3-flash-preview 7.6/10 核心结论正确、成本和速度表现好;但误称 acquittal、share placements且实体说明较模板化。
5 ollama-qwen3-8b 6.4/10 能识别主要争点和结果,但中文姓名/地点乱码案由表述偏离为“conspiracy to conceal connected transaction”完整度明显不足。

费用与耗时

模型 来源 API 调用 输入 tokens 输出 tokens 总 tokens 耗时 总费用
ollama-qwen3-8b local 10 26,861 5,122 31,983 140.299 秒 USD 0.000000
or-claude-sonnet-4.5 openrouter 9 20,827 2,203 23,030 52.312 秒 USD 0.095526
or-deepseek-v4-flash openrouter 8 16,983 6,455 23,438 144.972 秒 USD 0.002989
or-gemini-3-flash-preview openrouter 6 12,364 1,206 13,570 18.444 秒 USD 0.009800
or-minimax-m2.7 openrouter 9 19,280 5,253 24,533 199.008 秒 USD 0.011683

单模型分析

1. or-claude-sonnet-4.58.7/10

优点:

  • 程序姿态准确:明确是 HKSAR 上诉,针对上诉庭撤销定罪的判决,终院准许上诉并恢复定罪。
  • 核心法律争点准确:指出上诉庭错误适用 Snook sham transaction 测试;正确把问题转向 CISL 实际担任配售代理是否触发关连交易和披露审查。
  • 对事实结构覆盖较完整:提到 Gransing 作为 front/bufferCISL 是实际 placing agentQuincy Wong 的间接利益使 CISL 与 CFHL 形成关连关系。
  • 判决理由较充实:覆盖利益冲突、独立非执行董事和联交所审查、隐瞒行为的不诚实性、恢复原定罪等。
  • involved_entities 字段较完整包含四名被告、CISL、CFHL、Gransing、Quincy Wong、Stock Exchange 等关键实体。

不足:

  • “WeChat messages”不准确原文附录是 D2 与 D3 的 WhatsApp messages。
  • judgment_result 将“Court of Appeal's decision quashed”标为“quantum issue”不合适本案主要不是量刑或赔偿数额问题。
  • 未充分展开 D1、D2、D3、D4 各自责任,尤其 D4 只涉第 1 项控罪、不涉第 3 项控罪这一差异未清楚体现。
  • 中文姓名来自原始 case.json 的乱码,未修正为正确中文。

总体评价:最适合作为结构化抽取结果的基础版本。虽然存在少量标签和细节错误,但对案件主线、争点和裁判结果的把握最稳。

2. or-minimax-m2.78.4/10

优点:

  • 当事人、法院、上诉结果和核心争点准确,中文姓名正常。
  • 对“CISL 实际角色被 Gransing 掩饰”“无需证明 sham”“Snook 测试适用错误”“恢复全部定罪”的表述清楚。
  • judgment_result 较好地提到两项关键反社会/违法性基础:董事利益冲突,以及规避关连交易审查。
  • involved_entities 覆盖面较广包含审级、审判法官、上诉庭、Lord Diplock、联交所等。

不足:

  • 没有明确区分第 1 项控罪和第 3 项控罪,也没有说明第 3 项控罪只涉及 D1-D3、目标是联交所监管职责。
  • 对 Sir William Young NPJ 主判决中关于 D1-D4 个别责任、D2/D3 的 WhatsApp 证据、D4 的 Gransing 角色说明不足。
  • “Court of Appeal's acquittal”表述略粗糙更准确应为上诉庭撤销定罪/定罪被 set aside而非一审无罪释放。
  • 对经济损失或经济利益风险这一要素覆盖不足。

总体评价:法律主线准确,语言干净,实体质量高;完整度略逊于 Claude但错误更少、更稳定。

3. or-deepseek-v4-flash8.0/10

优点:

  • 基本案件信息准确HKSAR 为上诉方,四名被告/答辩人为原定罪者,终院恢复定罪。
  • 中文姓名和地点正常,没有乱码问题。
  • 能正确指出上诉庭错误适用 Snook 测试、Gransing 是 front/disguise、CISL 是实际配售代理且与 CFHL 存在关连。
  • involved_entities 覆盖主要实体,并加入 Court of Appeal 和 Privy Council 等相关法源/审级实体。

不足:

  • “conspiracy to defraud and related offences”不够准确原文附录列明的是第 1 和第 3 项串谋诈骗控罪。
  • judgment_summary 过于简短,未充分覆盖利益冲突、独立非执行董事、联交所职责、经济损失风险和各被告责任。
  • “concealment ... constituted a connected transaction”表述略有逻辑压缩更准确是 CISL 被任命为配售代理会构成/至少引发关连交易问题,隐瞒该角色构成诈骗性安排。
  • 对 charges 的对象和范围没有拆分。

总体评价:高性价比的中等完整结果。若用于检索或初步摘要足够,但若用于法律信息抽取,需要补充控罪和责任层面的细节。

4. or-gemini-3-flash-preview7.6/10

优点:

  • 速度最快,总耗时仅 18.444 秒,且费用低。
  • 当事人、法院、结果和核心法律问题基本正确。
  • 能抓住 Snook sham 测试错误、Gransing 作为 front、CISL 作为 connected person、恢复定罪等主线。
  • 中文姓名正常,输出简洁。

不足:

  • “appeals against the acquittal”不够准确本案是针对上诉庭撤销定罪的进一步上诉。
  • “share placements”错误本案原文主要是债券配售/placement of bonds。
  • involved_entities 中多名法官的 reason 过于模板化称“responsible for adjudication and delivering the judgment”没有准确区分主判、同意和协同判词。
  • 未覆盖第 1 项与第 3 项控罪的区别,也没有展开 D4 与第 3 项控罪无关、联交所职责、经济损失风险、各被告知识状态等。
  • 摘要偏短,对复杂法律分析压缩较多。

总体评价适合快速、低成本初筛作为最终法律信息抽取结果则偏薄且存在一个实质事实错误“share placements”。

5. ollama-qwen3-8b6.4/10

优点:

  • 能识别 HKSAR 上诉、终院恢复定罪、CISL/Gransing/CFHL/Stock Exchange、Snook 与 Adams 等主要关键词。
  • 大方向正确:知道争点是 Gransing 掩饰 CISL 实际配售代理角色,以及规避关连交易披露/审查。
  • 本地运行无 API 费用。

不足:

  • 中文姓名和地点出现明显乱码,直接影响实体抽取质量。
  • case_reason 写成“appeals against the convictions”方向错误应为 HKSAR 上诉,要求恢复被上诉庭撤销的定罪。
  • case_object 仅为“conviction”过于笼统。
  • charge 写成“Conspiracy to conceal connected transaction”不准确原控罪是 conspiracy to defraud。
  • judgment_result 和 summary 未区分第 1 项和第 3 项控罪,也未体现四名被告责任差异。
  • involved_entities 中把终院法官均描述为“responsible for fact-finding”不准确终院主要处理法律问题及审查原审事实裁断是否可被干预事实认定来自审判法官。
  • 完整度不足,对利益冲突、联交所公共职责、经济损失/风险、WhatsApp 证据、D4 角色等关键内容覆盖很少。

总体评价:可作为粗略摘要,但不适合作为高质量法律结构化抽取结果。最大问题是编码乱码和若干法律标签不准确。

性价比分析

模型 质量 速度 成本 性价比判断
or-gemini-3-flash-preview 中上 最快 快速批量初筛最佳,但需人工校正事实细节。
or-deepseek-v4-flash 中上 较慢 最低付费 成本极优,适合低成本大规模抽取,但摘要偏简。
or-minimax-m2.7 最慢 质量好、成本低,但耗时明显偏高。
or-claude-sonnet-4.5 最高 较快 最高 最适合要求准确和完整的最终版抽取。
ollama-qwen3-8b 较低 中等 免费 适合本地零成本实验,不适合对中文实体和法律标签有要求的场景。

结论

若以“信息提取准确度和完整度”为第一目标,推荐 or-claude-sonnet-4.5,其次是 or-minimax-m2.7。Claude 的完整度最好能较充分呈现案件法律结构MiniMax 的表达更稳、更少乱码,但缺少控罪拆分和个别被告责任细节。

若以“成本/速度”为第一目标,or-gemini-3-flash-preview 最快,or-deepseek-v4-flash 最便宜。Gemini 适合快速预处理但要重点校正“债券配售”与程序姿态DeepSeek 成本最低且基本准确,但需要补充摘要深度。

本地 ollama-qwen3-8b 的零费用优势明显,但本次输出存在乱码和法律表述不精确问题,建议仅作为辅助草稿,不宜直接入库。