Constitutional AI Governance Skill 为什么能提高遵循度

Constitutional AI Governance Skill 为什么能提高遵循度

发布日期:2026-03-16
最后更新:2026-03-16
说明:本文区分“已由 skill 文本直接证明的机制”与“基于机制得出的效果推断”,避免把效果宣传写成未经验证的事实。


一、先定义这里的“遵循度”

如果不先定义,“提高遵循度”就会变成一句空话。本文把遵循度拆成五个维度:

  1. 指令遵循:是否按优先级执行规则,而不是只听最后一句话。
  2. 范围遵循:是否在授权边界内行动,而不是自动扩展任务。
  3. 证据遵循:是否把事实、推断、假设、风险分开。
  4. 流程遵循:是否按阶段完成现状分析、范围判定、差距分析与验证。
  5. 交付遵循:是否披露未完成项、未验证项与剩余风险。

这个定义下,遵循度不是“更听话”,而是“更少越权、更少跳步、更少伪确定性”。


二、FACT:可以直接从 skill 文本确认的内容

以下内容是 事实,因为它们已明确写入 skill 文件与参考文档:

2.1 skill 明确规定了规则层级

constitutional-rules.md 要求按以下顺序应用规则:

  1. constitutional principles
  2. legal obligations and prohibitions
  3. procedure rules
  4. delivery contracts
  5. task-specific instructions

这意味着 task instruction 不能随意覆盖更高层规则。

2.2 skill 明确要求证据分类

同一文件要求 Agent 区分:

  • FACT
  • INFERENCE
  • ASSUMPTION
  • RISK

这会直接约束输出表达方式。

2.3 skill 明确要求非简单任务经过固定阶段

execution-checklist.md 把任务分成 9 个阶段,并要求交付前检查:

  • current-state model 是否存在
  • scope ruling 是否存在
  • gap matrix 是否存在
  • acceptance criteria 是否存在
  • boundaries 是否已披露

这说明它不是建议式流程,而是门禁式流程。

2.4 skill 明确限制越权扩展

constitutional-rules.mdscope-and-gap-governance.md 都要求:

  • 先判断 IN-SCOPE / OUT-OF-SCOPE / DEFERRED / UNDECIDED
  • 不允许隐式扩大变更边界

这直接对应范围遵循。

2.5 skill 明确要求交付审计

execution-checklist.mdSKILL.md 都要求重要输出标注:

  • completed / not completed
  • verified / not verified
  • residual risk

这会降低“结果看起来都做完了”的假象。


三、INFERENCE:为什么这些机制会提高遵循度

以下内容是 推断。它们不是 skill 文件直接声称的实验结论,而是基于结构机制得出的合理判断。

3.1 规则层级会提升“指令冲突”场景下的遵循稳定性

普通提示里,模型常常更关注最近的指令、语气更强的指令或最容易执行的指令。
固定层级以后,模型在内部决策时会先解决优先级冲突,因此更不容易被末端任务目标带偏。

3.2 证据标签会提升“认知自检”强度

当模型必须把内容写成 FACT/INFERENCE/ASSUMPTION/RISK,输出过程会被迫进行二次分类。
这会抬高“直接编造成结论”的成本,因此通常能减少伪确定性表达。

3.3 阶段清单会提升“流程完整性”

很多 AI 的失误不是能力不足,而是过早收敛。
固定阶段让 Agent 在输出前必须经过“现状建模”和“范围裁定”,因此更可能保留必要的中间判断,而不是直接跳结论。

3.4 范围裁定会提升“边界服从”

一旦系统要求显式声明 OUT-OF-SCOPEDEFERRED,模型更容易停在合法边界内。
它相当于给“我还能顺手改一点”的冲动加了一个明确阻尼器。

3.5 审计披露会提升“结果诚实度”

要求写出 not completed / not verified / residual risk,会让输出更难假装全知全能。
这类机制不一定让答案更短,但通常会让答案更可信。


四、可以说“确实提高”的是哪一部分

如果表述要严谨,那么“确实提高”应该限定在下面这些方面:

  • 确实提高了结构化遵循能力
  • 确实提高了边界披露能力
  • 确实提高了证据与假设分离能力
  • 确实提高了交付结果的可审计性

原因很直接:这些要求已经被写成显式协议,不再依赖模型临时自觉。

但下面这些表述仍然属于 未验证推断

  • 在所有任务上都能提高最终正确率
  • 在所有模型上都能显著提升代码质量
  • 一定减少全部 hallucination

这些结论需要实验数据,而不是只靠机制分析。


五、如何把“机制提升”进一步做成“实验验证”

如果你想把这套说法从“结构上成立”推进到“数据上成立”,可以做一个 A/B 评测。

5.1 评测设计

准备同一批任务,让同一模型分别在两种条件下执行:

  • A 组:不启用该 skill
  • B 组:启用该 skill

任务类型建议覆盖:

  • 多约束规则冲突
  • 后端设计变更
  • 边界敏感的跨模块任务
  • 信息不完整但必须披露风险的任务

5.2 评分维度

每个任务按 0-5 分评分:

维度 评分问题
规则优先级遵循 是否错误地让低优先级指令覆盖高优先级规则
证据标注质量 是否区分事实、推断、假设、风险
当前状态建模 是否先说明现状再给方案
范围边界控制 是否明确声明不修改的部分
审计披露完整性 是否说明未完成、未验证、剩余风险

5.3 预期结果

这个 skill 最有可能拉开差距的不是“创意丰富度”,而是:

  • 输出更稳
  • 越权更少
  • 幻觉式确定表达更少
  • 结果更易 review

六、审计式结论

Objective

说明该 skill 是否提高了 AI 的遵循度,以及这种提升建立在哪些可确认机制上。

Applied Governance Basis

  • 规则层级治理
  • 证据分类治理
  • 阶段式执行治理
  • 范围与边界治理
  • 交付审计治理

Obligations

  • 必须先区分事实与推断
  • 必须把“提高了什么”与“尚未验证什么”分开
  • 必须避免把机制分析写成实验结论

Prohibitions

  • 不把“更可审计”直接写成“绝对更正确”
  • 不把“结构改进”直接写成“通用性能提升”
  • 不把未做 A/B 验证的结论包装成已证明事实

Completed

  • 已解释 skill 提升遵循度的结构原因
  • 已区分 FACT 与 INFERENCE
  • 已给出可执行的验证框架

Not Completed

  • 未实际运行 A/B benchmark
  • 未对不同模型做横向量化对比

Verified

  • 规则层级、证据分类、阶段门禁、范围治理、审计披露要求均可从 skill 文本直接验证

Not Verified

  • 对真实任务正确率、代码质量、幻觉率的量化提升

Residual Risk

  • 如果模型本身不执行 skill 或执行不完整,机制优势会衰减
  • 如果任务过于简单,这套协议可能增加输出成本而不明显增加收益
  • 如果团队不按审计字段 review,部分治理价值无法兑现