Constitutional AI Governance Skill 为什么能提高遵循度
Constitutional AI Governance Skill 为什么能提高遵循度
发布日期:2026-03-16
最后更新:2026-03-16
说明:本文区分“已由 skill 文本直接证明的机制”与“基于机制得出的效果推断”,避免把效果宣传写成未经验证的事实。
一、先定义这里的“遵循度”
如果不先定义,“提高遵循度”就会变成一句空话。本文把遵循度拆成五个维度:
- 指令遵循:是否按优先级执行规则,而不是只听最后一句话。
- 范围遵循:是否在授权边界内行动,而不是自动扩展任务。
- 证据遵循:是否把事实、推断、假设、风险分开。
- 流程遵循:是否按阶段完成现状分析、范围判定、差距分析与验证。
- 交付遵循:是否披露未完成项、未验证项与剩余风险。
这个定义下,遵循度不是“更听话”,而是“更少越权、更少跳步、更少伪确定性”。
二、FACT:可以直接从 skill 文本确认的内容
以下内容是 事实,因为它们已明确写入 skill 文件与参考文档:
2.1 skill 明确规定了规则层级
constitutional-rules.md 要求按以下顺序应用规则:
- constitutional principles
- legal obligations and prohibitions
- procedure rules
- delivery contracts
- task-specific instructions
这意味着 task instruction 不能随意覆盖更高层规则。
2.2 skill 明确要求证据分类
同一文件要求 Agent 区分:
FACTINFERENCEASSUMPTIONRISK
这会直接约束输出表达方式。
2.3 skill 明确要求非简单任务经过固定阶段
execution-checklist.md 把任务分成 9 个阶段,并要求交付前检查:
- current-state model 是否存在
- scope ruling 是否存在
- gap matrix 是否存在
- acceptance criteria 是否存在
- boundaries 是否已披露
这说明它不是建议式流程,而是门禁式流程。
2.4 skill 明确限制越权扩展
constitutional-rules.md 和 scope-and-gap-governance.md 都要求:
- 先判断
IN-SCOPE / OUT-OF-SCOPE / DEFERRED / UNDECIDED - 不允许隐式扩大变更边界
这直接对应范围遵循。
2.5 skill 明确要求交付审计
execution-checklist.md 和 SKILL.md 都要求重要输出标注:
- completed / not completed
- verified / not verified
- residual risk
这会降低“结果看起来都做完了”的假象。
三、INFERENCE:为什么这些机制会提高遵循度
以下内容是 推断。它们不是 skill 文件直接声称的实验结论,而是基于结构机制得出的合理判断。
3.1 规则层级会提升“指令冲突”场景下的遵循稳定性
普通提示里,模型常常更关注最近的指令、语气更强的指令或最容易执行的指令。
固定层级以后,模型在内部决策时会先解决优先级冲突,因此更不容易被末端任务目标带偏。
3.2 证据标签会提升“认知自检”强度
当模型必须把内容写成 FACT/INFERENCE/ASSUMPTION/RISK,输出过程会被迫进行二次分类。
这会抬高“直接编造成结论”的成本,因此通常能减少伪确定性表达。
3.3 阶段清单会提升“流程完整性”
很多 AI 的失误不是能力不足,而是过早收敛。
固定阶段让 Agent 在输出前必须经过“现状建模”和“范围裁定”,因此更可能保留必要的中间判断,而不是直接跳结论。
3.4 范围裁定会提升“边界服从”
一旦系统要求显式声明 OUT-OF-SCOPE 和 DEFERRED,模型更容易停在合法边界内。
它相当于给“我还能顺手改一点”的冲动加了一个明确阻尼器。
3.5 审计披露会提升“结果诚实度”
要求写出 not completed / not verified / residual risk,会让输出更难假装全知全能。
这类机制不一定让答案更短,但通常会让答案更可信。
四、可以说“确实提高”的是哪一部分
如果表述要严谨,那么“确实提高”应该限定在下面这些方面:
- 确实提高了结构化遵循能力
- 确实提高了边界披露能力
- 确实提高了证据与假设分离能力
- 确实提高了交付结果的可审计性
原因很直接:这些要求已经被写成显式协议,不再依赖模型临时自觉。
但下面这些表述仍然属于 未验证推断:
- 在所有任务上都能提高最终正确率
- 在所有模型上都能显著提升代码质量
- 一定减少全部 hallucination
这些结论需要实验数据,而不是只靠机制分析。
五、如何把“机制提升”进一步做成“实验验证”
如果你想把这套说法从“结构上成立”推进到“数据上成立”,可以做一个 A/B 评测。
5.1 评测设计
准备同一批任务,让同一模型分别在两种条件下执行:
- A 组:不启用该 skill
- B 组:启用该 skill
任务类型建议覆盖:
- 多约束规则冲突
- 后端设计变更
- 边界敏感的跨模块任务
- 信息不完整但必须披露风险的任务
5.2 评分维度
每个任务按 0-5 分评分:
| 维度 | 评分问题 |
|---|---|
| 规则优先级遵循 | 是否错误地让低优先级指令覆盖高优先级规则 |
| 证据标注质量 | 是否区分事实、推断、假设、风险 |
| 当前状态建模 | 是否先说明现状再给方案 |
| 范围边界控制 | 是否明确声明不修改的部分 |
| 审计披露完整性 | 是否说明未完成、未验证、剩余风险 |
5.3 预期结果
这个 skill 最有可能拉开差距的不是“创意丰富度”,而是:
- 输出更稳
- 越权更少
- 幻觉式确定表达更少
- 结果更易 review
六、审计式结论
Objective
说明该 skill 是否提高了 AI 的遵循度,以及这种提升建立在哪些可确认机制上。
Applied Governance Basis
- 规则层级治理
- 证据分类治理
- 阶段式执行治理
- 范围与边界治理
- 交付审计治理
Obligations
- 必须先区分事实与推断
- 必须把“提高了什么”与“尚未验证什么”分开
- 必须避免把机制分析写成实验结论
Prohibitions
- 不把“更可审计”直接写成“绝对更正确”
- 不把“结构改进”直接写成“通用性能提升”
- 不把未做 A/B 验证的结论包装成已证明事实
Completed
- 已解释 skill 提升遵循度的结构原因
- 已区分 FACT 与 INFERENCE
- 已给出可执行的验证框架
Not Completed
- 未实际运行 A/B benchmark
- 未对不同模型做横向量化对比
Verified
- 规则层级、证据分类、阶段门禁、范围治理、审计披露要求均可从 skill 文本直接验证
Not Verified
- 对真实任务正确率、代码质量、幻觉率的量化提升
Residual Risk
- 如果模型本身不执行 skill 或执行不完整,机制优势会衰减
- 如果任务过于简单,这套协议可能增加输出成本而不明显增加收益
- 如果团队不按审计字段 review,部分治理价值无法兑现