9.5 KiB
模型输出对比分析:2007_HKCFA_6 v3
评估基准
案件原文要点:本案为 Mo Yuk Ping 向香港终审法院申请刑事上诉许可。申请人经上诉庭判决后仍有两项定罪:第 2 项串谋诈骗,以及第 3 项串谋妨碍司法公正。上诉庭只认证了第 1 个法律点,即“串谋诈骗罪的构成要素是否足够明确,以满足宪法上的法律确定性要求”;拒绝认证第 2 至第 5 点。申请人在终审法院要求:准许就已认证点上诉;认证第 2 至第 4 点并准许上诉;如不认证第 4 点,则以“重大及严重不公”为由准许上诉;并就审判法官理由不足、上诉庭以推论解释理由等投诉,以“重大及严重不公”为由准许上诉。
终审法院结果:延长时间,并只准许申请人就已认证的法律确定性问题上诉。因此,申请人获准就串谋诈骗定罪提出有限范围上诉;但没有获准就串谋妨碍司法公正定罪上诉。终审法院同意上诉庭拒绝认证其他点,并认为不存在以“重大及严重不公”为由给予上诉许可的基础。
评分采用 10.0 分制,综合考虑:
- 准确度:当事人、法院、程序性质、定罪项目、认证点、上诉许可范围和驳回事项是否正确。
- 完整度:是否覆盖两项定罪、已认证法律点、被拒认证点、重大及严重不公理由、最终有限准许上诉的效果。
- 输出可靠性:是否把“准许上诉许可”误写成“实体上判定法律点成立”,是否有事实添加、过度概括、字段遗漏或乱码。
总览排名
| 排名 | 模型 | 准确度与完整度评分 | 主要结论 |
|---|---|---|---|
| 1 | or-claude-sonnet-4.5 | 9.4/10 | 最准确、最稳健,清楚区分串谋诈骗获有限上诉许可与串谋妨碍司法公正不获许可。 |
| 2 | mm-minimax-m2.7 | 9.2/10 | 覆盖面很完整,特别是对认证点 2-5 和“重大及严重不公”理由的处理较细。 |
| 3 | or-deepseek-v4-pro | 9.0/10 | 结构清楚、结果准确,覆盖多个申请事项;个别概括略压缩。 |
| 4 | or-gemini-3-flash-preview | 8.7/10 | 速度最快且结果基本正确,但对被拒认证点和具体理由展开不足。 |
| 5 | or-deepseek-v4-flash | 8.5/10 | 核心结论正确,成本最低;但 case_reason 和 case_object 对第 3 项定罪及其他申请事项覆盖偏少。 |
| 6 | ollama-qwen3-8b | 5.2/10 | 存在关键法律结果误判:把准许就法律点上诉误写成法院已认定串谋诈骗罪构成要素不符合法律确定性。 |
耗时与费用
| 模型 | 来源 | API 调用 | 输入 tokens | 输出 tokens | 总 tokens | 耗时 | 总费用 |
|---|---|---|---|---|---|---|---|
| mm-minimax-m2.7 | Minimax | 8 | 15,726 | 4,798 | 20,524 | 91.698 秒 | USD 0.010127 |
| ollama-qwen3-8b | local | 7 | 16,185 | 660 | 16,845 | 71.046 秒 | USD 0.000000 |
| or-claude-sonnet-4.5 | openrouter | 9 | 17,076 | 1,451 | 18,527 | 49.640 秒 | USD 0.072993 |
| or-deepseek-v4-flash | openrouter | 6 | 10,615 | 2,292 | 12,907 | 61.447 秒 | USD 0.001519 |
| or-deepseek-v4-pro | openrouter | 7 | 12,436 | 12,950 | 25,386 | 337.070 秒 | USD 0.016677 |
| or-gemini-3-flash-preview | openrouter | 6 | 10,930 | 893 | 11,823 | 18.014 秒 | USD 0.008144 |
单模型分析
1. or-claude-sonnet-4.5:9.4/10
优点:
- 准确识别本案是申请上诉许可,而不是终局实体上诉判决。
- 明确区分第 2 项串谋诈骗获准就认证点上诉,第 3 项串谋妨碍司法公正不获上诉许可。
- judgment_summary 覆盖已认证点、额外认证点、重大及严重不公理由、延长时间和有限上诉范围。
- involved_entities 包含申请人、答辩方、三名终审法院法官,角色描述基本准确。
不足:
case_location同其他模型一样含有“香港特别行政区”的乱码版本。- 对第 2 至第 5 点被拒认证的具体理由没有像 MiniMax 那样逐点展开。
总体评价:最适合作为最终结构化抽取基础。它没有把“准许就法律问题上诉”误判为“法律问题已经胜诉”,这是本案最关键的准确性要求。
2. mm-minimax-m2.7:9.2/10
优点:
- 对本案程序姿态和最终结果把握准确:延长时间、准许就串谋诈骗法律确定性认证点上诉,驳回其他认证和重大及严重不公理由。
- 对上诉庭拒绝认证第 2 至第 5 点的理由展开最完整,包括 point 2 无实际影响、point 3 不发生、point 4 审判法官已有相关认定、point 5 显然且只是针对上诉庭分析的投诉。
- case_object 覆盖两项定罪和上诉权,judgment_result 分层较清楚。
不足:
case_location出现乱码。- judgment_result 中将“points 2 to 5 certification”作为一项整体处理,和申请人在终审法院实际要求认证第 2 至第 4 点之间略有混合;不过原文确实也说明上诉庭拒绝认证第 2 至第 5 点,因此影响有限。
总体评价:完整度非常高,仅略逊于 Claude 的原因是表达上稍有混合,但法律结果没有实质错误。
3. or-deepseek-v4-pro:9.0/10
优点:
- 当事人、法院、两项定罪、上诉许可范围和驳回结果均正确。
- judgment_result 拆分为已认证点、串谋妨碍司法公正、额外认证点、重大及严重不公理由,结构对人工复核友好。
- involved_entities 完整,包含 Court of Appeal 这一关键程序实体。
不足:
- summary 中称“three other points”略不严谨;原文背景涉及上诉庭拒绝认证第 2 至第 5 点,申请人在终审法院则要求认证第 2 至第 4 点。
- 输出 tokens 很高,耗时显著最长,但质量提升相对有限。
总体评价:质量高,但性价比不如 Claude、MiniMax 或 DeepSeek Flash。若需要更细的程序事项拆分,它是可靠候选。
4. or-gemini-3-flash-preview:8.7/10
优点:
- 速度最快,仅 18.014 秒。
- 核心结论正确:只准许就串谋诈骗法律确定性认证点上诉,拒绝串谋妨碍司法公正相关上诉许可和重大及严重不公理由。
- case_object 能概括“上诉许可”“法律确定性挑战”“重大及严重不公理由”三个关键对象。
不足:
- 对第 2 至第 5 点的具体内容和被拒理由展开不足。
- judgment_result 只有两项,信息密度尚可,但不如 MiniMax 或 DeepSeek Pro 便于逐项核对。
case_location含乱码。
总体评价:适合快速低延迟抽取。作为最终法律信息入库结果仍建议人工补充被拒认证点的细节。
5. or-deepseek-v4-flash:8.5/10
优点:
- 准确识别“Partially allowed”:只就串谋诈骗法律确定性问题准许上诉许可,其余驳回。
- 对第 3 项串谋妨碍司法公正不获上诉许可的结论正确。
- 成本最低,付费模型中总费用仅 USD 0.001519。
不足:
- case_reason 主要写成串谋诈骗和法律确定性挑战,弱化了申请还涉及串谋妨碍司法公正定罪和多个被拒认证点。
- case_object 只列串谋诈骗和法律确定性,遗漏第 3 项定罪、额外认证点和重大及严重不公理由。
- 细节展开比 Pro、Claude 和 MiniMax 少。
总体评价:性价比很高,适合批量初筛;若用于严肃法律结构化抽取,需要补全程序对象和驳回事项。
6. ollama-qwen3-8b:5.2/10
优点:
- 当事人、法院和基本程序方向大致可识别。
- 能提到认证点 2-5 被驳回以及重大及严重不公理由被拒。
- 本地运行,无 API 费用。
不足:
- 关键错误:judgment_result 和 summary 写成法院“认为串谋诈骗罪构成要素不够明确,因此准许上诉许可”。原文只是在上诉庭已认证该问题的基础上,终审法院准许就该问题上诉;并未实体裁定该法律点成立。
- case_reason 和 case_object 基本遗漏串谋妨碍司法公正定罪,完整度不足。
- involved_entities 没有列申请人 Mo Yuk Ping,且称法官负责 fact-finding,不符合本案终审法院处理上诉许可申请的程序性质。
case_location含乱码。
总体评价:不宜直接入库。它抓到了一些表层结构,但在本案最重要的法律结果上出现实质误判。
性价比分析
| 模型 | 质量 | 速度 | 成本 | 性价比判断 |
|---|---|---|---|---|
| or-claude-sonnet-4.5 | 最高 | 快 | 最高 | 适合高准确要求的最终抽取,但成本最高。 |
| mm-minimax-m2.7 | 很高 | 中等 | 低 | 质量接近 Claude,费用低很多,适合作为主力候选。 |
| or-deepseek-v4-pro | 高 | 最慢 | 中低 | 结构细,但耗时过长,性价比一般。 |
| or-gemini-3-flash-preview | 中高 | 最快 | 低 | 快速预处理最佳,但需要补充细节。 |
| or-deepseek-v4-flash | 中高 | 较快 | 最低 | 批量低成本抽取很有优势,但完整度需增强。 |
| ollama-qwen3-8b | 较低 | 中等 | 免费 | 免费但关键法律结论错误,只适合实验或辅助草稿。 |
结论
若以信息提取的准确度和完整度为第一目标,推荐 or-claude-sonnet-4.5,其次是 mm-minimax-m2.7。Claude 对程序姿态和最终许可范围把握最稳;MiniMax 对被拒认证点的理由展开更完整,且成本明显更低。
若以成本和速度为第一目标,or-gemini-3-flash-preview 最快,or-deepseek-v4-flash 最便宜。Gemini 适合作为快速初筛,DeepSeek Flash 适合大规模低成本处理,但二者都需要补充第 2 至第 5 点和“重大及严重不公”理由的细节。
ollama-qwen3-8b 本次输出存在实质法律误判,不建议直接作为结构化抽取结果使用。