Constitutional AI Governance Skill 为什么能提高遵循度

2026年3月16日

Constitutional AI Governance Skill 为什么能提高遵循度

发布日期：2026-03-16
最后更新：2026-03-16
说明：本文区分“已由 skill 文本直接证明的机制”与“基于机制得出的效果推断”，避免把效果宣传写成未经验证的事实。

一、先定义这里的“遵循度”

如果不先定义，“提高遵循度”就会变成一句空话。本文把遵循度拆成五个维度：

指令遵循：是否按优先级执行规则，而不是只听最后一句话。
范围遵循：是否在授权边界内行动，而不是自动扩展任务。
证据遵循：是否把事实、推断、假设、风险分开。
流程遵循：是否按阶段完成现状分析、范围判定、差距分析与验证。
交付遵循：是否披露未完成项、未验证项与剩余风险。

这个定义下，遵循度不是“更听话”，而是“更少越权、更少跳步、更少伪确定性”。

二、FACT：可以直接从 skill 文本确认的内容

以下内容是事实，因为它们已明确写入 skill 文件与参考文档：

2.1 skill 明确规定了规则层级

constitutional-rules.md 要求按以下顺序应用规则：

constitutional principles
legal obligations and prohibitions
procedure rules
delivery contracts
task-specific instructions

这意味着 task instruction 不能随意覆盖更高层规则。

2.2 skill 明确要求证据分类

同一文件要求 Agent 区分：

FACT
INFERENCE
ASSUMPTION
RISK

这会直接约束输出表达方式。

2.3 skill 明确要求非简单任务经过固定阶段

execution-checklist.md 把任务分成 9 个阶段，并要求交付前检查：

current-state model 是否存在
scope ruling 是否存在
gap matrix 是否存在
acceptance criteria 是否存在
boundaries 是否已披露

这说明它不是建议式流程，而是门禁式流程。

2.4 skill 明确限制越权扩展

constitutional-rules.md 和 scope-and-gap-governance.md 都要求：

先判断 IN-SCOPE / OUT-OF-SCOPE / DEFERRED / UNDECIDED
不允许隐式扩大变更边界

这直接对应范围遵循。

2.5 skill 明确要求交付审计

execution-checklist.md 和 SKILL.md 都要求重要输出标注：

completed / not completed
verified / not verified
residual risk

这会降低“结果看起来都做完了”的假象。

三、INFERENCE：为什么这些机制会提高遵循度

以下内容是推断。它们不是 skill 文件直接声称的实验结论，而是基于结构机制得出的合理判断。

3.1 规则层级会提升“指令冲突”场景下的遵循稳定性

普通提示里，模型常常更关注最近的指令、语气更强的指令或最容易执行的指令。
固定层级以后，模型在内部决策时会先解决优先级冲突，因此更不容易被末端任务目标带偏。

3.2 证据标签会提升“认知自检”强度

当模型必须把内容写成 FACT/INFERENCE/ASSUMPTION/RISK，输出过程会被迫进行二次分类。
这会抬高“直接编造成结论”的成本，因此通常能减少伪确定性表达。

3.3 阶段清单会提升“流程完整性”

很多 AI 的失误不是能力不足，而是过早收敛。
固定阶段让 Agent 在输出前必须经过“现状建模”和“范围裁定”，因此更可能保留必要的中间判断，而不是直接跳结论。

3.4 范围裁定会提升“边界服从”

一旦系统要求显式声明 OUT-OF-SCOPE 和 DEFERRED，模型更容易停在合法边界内。
它相当于给“我还能顺手改一点”的冲动加了一个明确阻尼器。

3.5 审计披露会提升“结果诚实度”

要求写出 not completed / not verified / residual risk，会让输出更难假装全知全能。
这类机制不一定让答案更短，但通常会让答案更可信。

四、可以说“确实提高”的是哪一部分

如果表述要严谨，那么“确实提高”应该限定在下面这些方面：

确实提高了结构化遵循能力
确实提高了边界披露能力
确实提高了证据与假设分离能力
确实提高了交付结果的可审计性

原因很直接：这些要求已经被写成显式协议，不再依赖模型临时自觉。

但下面这些表述仍然属于 未验证推断：

在所有任务上都能提高最终正确率
在所有模型上都能显著提升代码质量
一定减少全部 hallucination

这些结论需要实验数据，而不是只靠机制分析。

五、如何把“机制提升”进一步做成“实验验证”

如果你想把这套说法从“结构上成立”推进到“数据上成立”，可以做一个 A/B 评测。

5.1 评测设计

准备同一批任务，让同一模型分别在两种条件下执行：

A 组：不启用该 skill
B 组：启用该 skill

任务类型建议覆盖：

多约束规则冲突
后端设计变更
边界敏感的跨模块任务
信息不完整但必须披露风险的任务

5.2 评分维度

每个任务按 0-5 分评分：

维度	评分问题
规则优先级遵循	是否错误地让低优先级指令覆盖高优先级规则
证据标注质量	是否区分事实、推断、假设、风险
当前状态建模	是否先说明现状再给方案
范围边界控制	是否明确声明不修改的部分
审计披露完整性	是否说明未完成、未验证、剩余风险

5.3 预期结果

这个 skill 最有可能拉开差距的不是“创意丰富度”，而是：

输出更稳
越权更少
幻觉式确定表达更少
结果更易 review

六、审计式结论

Objective

说明该 skill 是否提高了 AI 的遵循度，以及这种提升建立在哪些可确认机制上。

Applied Governance Basis

规则层级治理
证据分类治理
阶段式执行治理
范围与边界治理
交付审计治理

Obligations

必须先区分事实与推断
必须把“提高了什么”与“尚未验证什么”分开
必须避免把机制分析写成实验结论

Prohibitions

不把“更可审计”直接写成“绝对更正确”
不把“结构改进”直接写成“通用性能提升”
不把未做 A/B 验证的结论包装成已证明事实

Completed

已解释 skill 提升遵循度的结构原因
已区分 FACT 与 INFERENCE
已给出可执行的验证框架

Not Completed

未实际运行 A/B benchmark
未对不同模型做横向量化对比

Verified

规则层级、证据分类、阶段门禁、范围治理、审计披露要求均可从 skill 文本直接验证

Not Verified

对真实任务正确率、代码质量、幻觉率的量化提升

Residual Risk

如果模型本身不执行 skill 或执行不完整，机制优势会衰减
如果任务过于简单，这套协议可能增加输出成本而不明显增加收益
如果团队不按审计字段 review，部分治理价值无法兑现