GLM-5 与 MiniMax 生成质量对比报告

2026年3月4日

Stripe 套餐升降级方案：GLM-5 与 MiniMax 2.5 生成质量对比报告

提示词：/opsx:propose 新建一个分支，主要是参考 [PRD]Stripe Checkout 2期(AI !VC!Care Paywall)-3月下实现 stripe 的套餐升降级，目前是没有做这儿功能的

一、评估结论总览

维度	GLM-5	MiniMax 2.5	说明
与 PRD 的贴合度	高	中高	GLM 覆盖 PRD 更全（含 Apple Pay/Google Pay、降级预约取消、Webhook 细节）
可执行性与落地性	高	中	GLM 有迁移计划、回滚策略、Open Questions；MiniMax 缺部署与运维视角
技术方案正确性	高	中	GLM 降级方案（预约表+周期末创建新订阅）更符合「延迟生效」；MiniMax 降级描述易与 Stripe 行为歧义
文档结构与可读性	优（中文）	良（英文）	GLM 单 spec 更易追踪；MiniMax 多 spec 模块化但缺总览
需求与任务粒度	细（60+ 任务）	粗（约 25 任务）	GLM 可直接拆 sprint；MiniMax 需再拆
风险与边界考虑	充分	基础	GLM 有 4 类风险+缓解+回滚；MiniMax 仅列风险点

综合：在本提示词下，GLM-5 的生成质量明显高于 MiniMax 2.5，更接近「可直接交给团队落地」的规格；MiniMax 适合做快速草案或与 GLM 互补（如用 MiniMax 出初稿再让 GLM 深化）。

二、结合模型对比的定位对照

主流 AI 编程模型对比（2026年3月）中的结论与本次实测一致：

模型对比说法	本次实测印证
GLM-5：质量接近 Opus，价格约 1/8–1/10	本任务下 GLM 产出在完整性、技术深度、可落地性上明显优于 MiniMax
MiniMax M2.5：速度最快（80–120 TPS），成本约 Opus 1/10	产出速度未直接测；从内容看更偏「快出稿」，深度和细节弱于 GLM
混合使用：补全/小改 → MiniMax；大需求/架构 → GLM-5 或 Opus	本需求属于「大需求/架构」类，更适合用 GLM-5 主出方案

因此：Stripe 升降级这类需要迁移、回滚、Webhook、多端一致的需求，用 GLM-5 更合适；若先用 MiniMax 起稿，建议再用 GLM-5 做一轮补全与纠偏。

三、分项质量评估

3.1 Proposal（为什么做 / 做什么 / 影响）

GLM-5

Why：中文，一句话点明「缺套餐升降级能力」和业务痛点。
What Changes：7 条清晰变更（升级/降级/前端拦截/二次确认/后台判断/Webhook/Apple Pay·Google Pay），与 PRD 一一对应。
Capabilities：一个主 capability stripe-subscription-upgrade-downgrade，边界清晰。
Impact：按后端、前端、数据库、业务逻辑分层，便于排期和评审。

MiniMax 2.5

Why：英文，表达正确但略泛（"no implementation"）。
What Changes：概括为「New Capability」+ 5 点，未单独强调「重复购买拦截」「二次确认」「Apple Pay/Google Pay」。
Capabilities：拆成 4 个（subscription-group / plan-upgrade / plan-downgrade / plan-change-confirmation），模块化好，但与 Impact 的衔接弱。
Impact：仅列 New/Modified Files 和 External Dependencies，缺少「前端/后端/数据库/业务」分层，不利于评估工作量。

小结：Proposal 层面 GLM 更贴 PRD、更利于立项和影响面评估；MiniMax 结构可用，但信息密度和分层不如 GLM。

3.2 Design（上下文 / 目标 / 决策 / 风险 / 迁移）

GLM-5

Context：当前能力、约束（Stripe 规范、同一 Group 单订阅）、利益相关方都写了。
Goals / Non-Goals：明确列出不做 Web Portal 取消、不做兑换码、不做价格调整。
Decisions：5 条可执行决策，且带替代方案与取舍理由：
- 升降级判断：GET /api/subscription/check-upgrade + 后端优先级表。
- 升级：subscriptions.update + proration_behavior: 'always_invoice'，并给出示例代码。
- 降级：采用「预约表 + 周期末创建新订阅」——先 schedule-downgrade 写库，等 customer.subscription.deleted 再创建新订阅；避免与 Stripe 的「立即改 price」行为混淆。
- 二次确认：中英文案（升级/降级）与按钮文案都给出。
- 设备绑定：AI Family 降级时周期末解绑、下次登录提示重绑，并说明为何不立即解绑。
Risks：4 类（Webhook 延迟/失败、降级预约被取消、Apple Pay 支付失败、优先级配置错误），各有缓解措施。
Migration Plan：三阶段（DB → 后端 API → 前端灰度）+ 回滚策略（功能开关、API 503、DB 兼容）。
Open Questions：降级预约取消、升降级历史、降级生效通知 3 条，便于后续迭代。

MiniMax 2.5

Context / Goals：有，但更简略；Non-Goals 提到 Apple Pay/Google Pay 用通用流程处理，未像 PRD 那样显式要求「首次与二次支付都支持」。
Decisions：
- 订阅组：配置化 + 三组优先级列表，清晰。
- 升级：Stripe update + proration，合理。
- 降级：写的是「subscription update with proration_behavior=none and update the subscription schedule」——若理解为「同一条订阅在下一周期自动变价」，与 Stripe 的常见用法（立即改 item 或 schedule）容易混淆；且未像 GLM 那样明确「预约表 + 周期末新建订阅」的闭环。
- 设备绑定：在「确认时」让用户选择设备；GLM 是「周期结束时解绑 + 下次登录重绑」，更符合「降级延迟生效」且避免提前收设备数限制。
Risks：4 条（多订阅竞争、Webhook 失败、proration 差异、试用期升级），只有简短 mitigation，无回滚、无迁移。
无 Migration Plan、无 Open Questions。

小结：Design 上 GLM 在决策可执行性、降级方案正确性、风险与迁移上明显更完整；MiniMax 在「降级实现」和「设备绑定时机」上存在歧义或与 PRD 不一致的风险。

3.3 Tasks（可执行任务列表）

GLM-5

11 个大类：DB → 后端核心 → API → Webhook → 设备绑定 → 前端组件 → 前端联调 → 后端测试 → 前端测试 → 部署准备 → 发布与监控。
约 60+ 子任务，包含：feature flag、监控与告警、Webhook 幂等、降级预约取消 API、Stripe 配置、回滚手册、API 文档。
可直接用于 sprint 拆分与验收。

MiniMax 2.5

7 个大类：订阅组配置 → 升级 → 降级 → 确认弹窗 → Webhook → 已有订阅校验 → 测试。
约 25 个子任务，缺少：独立 Webhook 任务组细化、部署、灰度、监控、feature flag、降级预约取消、DB migration 明细。
需要再拆一层才能与排期对齐。

小结：GLM 的 tasks 可直接驱动开发与验收；MiniMax 适合作为 checklist 起点，需补充运维与发布相关任务。

3.4 Spec（需求规格）

GLM-5

单 spec：stripe-subscription-upgrade-downgrade 一个文件，约 140 行。
覆盖：防重复购买、升降级判断、跨组购买、升级立即生效+按比例退款、降级延迟+无退款、降级取消、设备绑定（3+ / 1 设备）、Apple Pay/Google Pay、Webhook（updated/deleted/payment_failed）、防抖、check-upgrade / upgrade / schedule-downgrade / DELETE schedule-downgrade API 及返回结构、优先级配置校验。
场景格式统一（WHEN/THEN/AND），便于写测试用例。

MiniMax 2.5

4 个 spec：stripe-subscription-group、stripe-plan-upgrade、stripe-plan-downgrade、stripe-plan-change-confirmation。
优点：模块清晰、优先级在 subscription-group 里写死与 PRD 一致。
缺口：无显式 API 契约（如 check-upgrade 的 JSON 结构）、无 Apple Pay/Google Pay、无 invoice.payment_failed、无降级预约取消 API、无配置校验需求；设备绑定在 Care 侧写了「不需要 rebinding」，但 AI Family 与 GLM 的「周期末解绑」逻辑未在 spec 里完全对齐。

小结：GLM 单 spec 更利于「一条需求清单」追踪和测试覆盖；MiniMax 模块化好，但需在 API、支付方式、Webhook、降级取消上补 spec。

四、技术方案差异与建议

4.1 降级实现方式

GLM：预约表 subscription_downgrade_schedule + 当前周期保持原订阅 → 周期结束收到 customer.subscription.deleted → 若有预约则创建新订阅（目标套餐）。语义清晰，符合「降级在下一周期生效、当前周期不退款」。
MiniMax：描述为「subscription update with proration_behavior=none and update the subscription schedule」。若指「同一条订阅在下一周期自动换价」，需严格对应 Stripe 的 Subscription Schedules 或 Billing Cycle Anchor；否则容易变成「立即改 price」或实现歧义。建议以 GLM 的「预约表 + 周期末新建订阅」为准，除非团队明确采用 Stripe Schedules 并写好设计。

4.2 设备绑定

GLM：降级生效时（下周期）解绑，下次登录提示重选设备；确认弹窗中提示「当前设备绑定将在 [date] 释放」。
MiniMax：在确认降级时就让用户选择要保留的设备。若新套餐在周期末才生效，提前选设备可能和「当前周期仍用旧套餐」的规则在实现上需要额外状态（如「已选设备待生效」），建议与 PRD 和产品确认后，可采纳 GLM 的「周期末解绑 + 登录时重选」以简化状态机。

4.3 其他

Apple Pay / Google Pay：PRD 要求首次与二次支付均支持。GLM 在 Proposal 与 spec 中均体现；MiniMax 放在 Non-Goals 里按「通用流程」处理，建议在 spec 中补一句「与现有支付方式一致，支持 Apple Pay / Google Pay」并做验收。
降级预约取消：GLM 设计了 DELETE /api/subscription/schedule-downgrade 并在 Open Questions 中确认；MiniMax 未提，建议补上。

五、总结与使用建议

5.1 生成质量结论

GLM-5：在本提示词下，产出在完整性、技术正确性、可落地性上均优于 MiniMax 2.5，尤其体现在 Design 的决策与风险、降级方案、迁移与回滚、Tasks 粒度、Spec 与 API/Webhook/支付方式的覆盖上。
MiniMax 2.5：产出结构清晰、阅读快，适合快速出草案或做模块化拆解；但在降级实现、设备绑定时机、迁移/回滚、任务与 spec 细度上不足，需人工补全或与 GLM 组合使用。

5.2 与模型选型的对应关系

本需求属于「大需求/架构」：更推荐以 GLM-5 为主生成方案与 spec。
若团队采用「混合使用」：可用 MiniMax 做第一版 proposal + 粗粒度 tasks，再用 GLM-5 做 design 深化、降级方案定稿、tasks 细化、spec 与 API 补全，在控制成本的同时保证交付质量。

5.3 若仅选一个模型

仅选一个：本场景下优先用 GLM-5 的输出作为主规格，再按需从 MiniMax 的「4 个 capability / 4 个 spec」结构中吸收模块化命名和分组思路。
落地时：以 GLM 的 Design 决策（尤其是降级与设备绑定）和 Tasks 为基准，把 MiniMax 中与 PRD 一致且 GLM 未写的点（如 Care 无需设备 rebinding）合并进去即可。

报告基于 OpenSpec 格式的 proposal、design、tasks、spec(s) 产出，并与主流 AI 编程模型对比的模型定位结合。完整 OpenSpec 产出见本仓库 openspec-glm5 与 openspec-minimax2.5 目录。