Constitutional AI Governance Skill 设计说明

2026年3月16日

Constitutional AI Governance Skill 设计说明

发布日期：2026-03-16
最后更新：2026-03-16
目标：解释这个 skill 为什么这样设计，以及它解决了传统提示词式约束的哪些问题。

这个 skill 的核心，不是“再加一层提示词”，而是把 AI 执行过程拆成一套可复用、可审计、可约束的治理协议。它面向的不是随意聊天场景，而是对 规则优先级、执行步骤、证据边界、交付审计 有明确要求的 Agent 任务。

一、设计目标

这个 skill 试图解决四类常见问题：

规则冲突：系统、开发者、用户、项目规范往往同时存在，普通提示容易相互覆盖。
事实与猜测混写：模型经常把推断包装成结论，导致方案看起来完整，但依据不足。
跳步执行：没有固定流程时，Agent 容易从需求直接跳到方案，省略现状分析与边界判定。
难以复核：结果出来以后，团队很难判断它遵守了哪些规则、忽略了哪些风险。

因此，这个 skill 的设计不是追求“更会说”，而是追求三件事：

约束优先于生成
证据优先于判断
审计优先于流畅

二、设计结构

从结构上看，这个 skill 由四层组成：

2.1 宪法层

constitutional-rules.md 先定义最高优先级原则，例如：

规则层级必须固定
事实、推断、假设、风险必须分开
非 trivial 任务必须经过固定阶段
重要输出必须披露未验证项与剩余风险

这一层的作用，是防止 Agent 在后续执行中被临时目标带偏。

2.2 程序层

execution-checklist.md 把任务拆成 Intake、Evidence、Current-State、Scope、Gap、Rule Codification、Validation、Audit 等阶段。

它解决的是“知道要谨慎，但不知道如何稳定地谨慎”这个问题。
也就是说，谨慎不再依赖模型临场发挥，而是依赖一个固定执行骨架。

2.3 工程约束层

engineering-constraints-map.md 把治理规则落到工程现实中，例如：

先识别 controller/biz/service/repository 链路
不破坏现有响应格式和权限校验
避免无界扫描和 N+1
验收标准要绑定可观察行为

这一层避免 skill 只停留在“治理口号”，而能真正影响代码设计与变更边界。

2.4 范围治理层

scope-and-gap-governance.md 强制 Agent 在给方案前说明：

当前系统怎么工作
哪些模块在 scope 内
哪些模块虽然相关但不允许改
哪些结论因为缺事实只能暂定

这一步非常关键，因为很多 AI 失控并不是“不会做”，而是“默认自己可以多做一点”。

三、核心机制

3.1 固定规则层级

这个 skill 先解决“谁说了算”的问题，再解决“怎么做”的问题。

graph TD
    A[Constitutional Principles] --> B[Legal Obligations and Prohibitions]
    B --> C[Procedure Rules]
    C --> D[Delivery Contracts]
    D --> E[Task Specific Instructions]

这样做的价值是：低层指令不能悄悄覆盖高层规则，减少了“为了完成任务而越权”的概率。

3.2 证据分类

skill 强制区分：

FACT
INFERENCE
ASSUMPTION
RISK

这不是排版问题，而是认知控制问题。
一旦模型必须给自己的判断贴标签，它就更难把不确定内容伪装成确定结论。

3.3 阶段门禁

在这个 skill 下，非简单任务不能直接跳到“给方案”或“写代码”，而必须经过：

目标与约束识别
证据盘点
当前状态建模
范围裁定
差距矩阵
规则重述
实施与验证计划
交付审计

这种门禁式设计，让 Agent 的输出更像“审查后的工程结论”，而不是“即时生成的建议”。

3.4 可审计交付

skill 要求重要输出必须写清：

完成了什么
没完成什么
哪些已验证
哪些未验证
剩余风险是什么

这会直接改变输出风格：从“看起来完整”转向“边界明确”。

四、为什么这种设计适合 Skill 形态

相比把这些内容塞进一次性 prompt，Skill 形态有几个优势：

稳定加载：每次命中场景都能复用同一治理协议。
可拆分维护：规则、清单、工程约束、范围治理可以分别更新。
可组合：它可以作为 process skill，和调试、设计、实现类 skill 组合使用。
可审查：团队可以直接 review skill 文件，而不是依赖一段不可见的系统提示。

换句话说，这个 skill 把“AI 要守规矩”从口头要求变成了版本化资产。

五、适用场景

它更适合以下任务：

需要严格遵守多层规则的 Agent 执行
涉及后端改造、权限、流程、状态机的设计输出
需要把事实、推断、风险严格分开的方案评审
需要生成可审计、可复盘、可复用的治理型输出

它不适合：

轻量聊天
纯创意写作
对审计链和工程边界没有要求的随意草稿

六、总结

这个 skill 的设计思路可以概括为一句话：

用“宪法 + 程序 + 工程约束 + 审计披露”替代“单层提示词约束”。

它不是让 AI 更自由，而是让 AI 在复杂任务中更可控、更可追责、更像一个受治理的执行代理。