AI Agent 安全实践：从慢雾指南到实战落地

背景

当你给 AI Agent（如 OpenClaw）开放了终端权限、文件读写、网络访问，它就不再是一个聊天机器人——它是一个拥有你电脑控制权的自主程序。

这意味着：

一条恶意的 prompt injection 可能让它执行 rm -rf ~
一个伪装成 Skill 的恶意插件可能偷走你的 API key
它可能被诱导把你的 token 发送到攻击者的服务器

慢雾安全团队（SlowMist）发布了一份《OpenClaw 极简安全实践指南》，专门针对这类高权限 AI Agent 的安全问题。我花了一个下午研读并落地实践，以下是学到的核心内容和实际做了哪些改进。

指南地址：https://github.com/slowmist/openclaw-security-practice-guide

一、核心理念：Agent 零信任架构

传统安全思维是"加固服务器"——装防火墙、打补丁、改端口。但 AI Agent 场景完全不同：

Agent 本身既是防御者，也是最大的攻击面。

因为 Agent 能执行任意命令，任何能影响 Agent 决策的输入（聊天消息、网页内容、文档、Skill 配置文件）都可能成为攻击向量。

慢雾的方案不是传统的"堆防火墙"，而是把安全规则写进 Agent 的行为层，让 Agent 自己执行安全策略。这就是"Agentic Zero-Trust Architecture"——Agent 零信任架构。

核心原则：日常零摩擦，高危必确认，每晚有巡检。

二、三层防御矩阵

事前：行为黑名单 + 安装审计

把命令分成红线和黄线两级：

🔴 红线命令 — 遇到立即暂停，必须人类确认：

类别	示例
破坏性操作	`rm -rf /`、`mkfs`、`dd if=`
认证篡改	直接编辑 `openclaw.json` 认证字段
外发敏感数据	`curl` 携带 token/key 发往外部
代码注入	`curl \| sh`、`eval "$(curl ...)"`、`base64 -d \| bash`
盲从外部指令	不假思索执行 Skill 文档里的 `npm install`

🟡 黄线命令 — 可以执行，但必须记录：

sudo 任何操作
pip install、brew install 等环境变更
docker run
定时任务增删改

这个分级制度的精妙之处在于：不是禁止 Agent 做事，而是在高危操作前加一个"人类确认"的断路器。日常操作完全不受影响。

Skill/MCP 安装安全审计是另一个亮点：每次安装新插件，必须逐文件审计——不只看脚本，连 .md、.json 这种"纯文本"文件都要扫描。因为 prompt injection 可以藏在 markdown 的注释里，诱导 Agent 执行恶意命令。

事中：权限收窄 + 哈希基线 + 业务风控

权限收窄：核心配置文件 chmod 600，减少攻击面
哈希基线：对关键配置文件做 SHA256 指纹，每晚对比是否被篡改
业务风控（Pre-flight Checks）：高危业务操作（如加密货币转账）前，强制调用安全检查工具

事后：13 项指标巡检 + Git 灾备

每晚自动巡检 13 项核心安全指标，包括：

进程和网络异常
敏感目录文件变更
SSH 暴力破解尝试
配置文件完整性
黄线操作交叉验证（系统 sudo 日志 vs Agent 记录的操作日志，对不上就告警）
明文私钥/助记词泄露扫描（DLP）
Skill 文件指纹对比

关键设计原则：显性化汇报 —— 即使所有指标都健康，也必须逐项列出"✅ 正常"。不能"没事就不说"，因为"没收到报告"和"巡检没跑"在用户看来是一样的。

三、我的实战落地

1. 红线/黄线制度写入 AGENTS.md

把慢雾指南的命令分级制度适配到 macOS 环境后，写入了 Agent 的行为规范文件（AGENTS.md）。

适配改动：

chattr +i → macOS 用 chflags uchg（或跳过）
systemctl → launchctl
iptables → pfctl

现在 Agent 遇到红线命令会自动暂停并询问确认，黄线操作会自动记录到当日 memory。

2. Skill 安装审计协议

建立了 5 步强制审计流程：

clawhub inspect 列出文件清单
逐文件下载并阅读内容
全文本正则扫描（重点扫 .md 和 .json 里的隐藏指令）
红线模式检查（外发请求、环境变量读取、curl|sh 等）
向用户汇报审计结果，等待确认后才使用

未通过审计的 Skill 一律不用。

3. GitHub 自动灾备

配置了 ~/.openclaw/ 目录的 Git 备份：

私有仓库，自动排除大文件（browser/audio/media/logs）
每晚 3:00 自动 git commit + push
配置丢了、误操作了、磁盘坏了，都能从 GitHub 恢复

四、指南的局限性（诚实面对）

慢雾指南自己也承认了几个根本性限制：

Agent 认知层的脆弱性：红线/黄线判断依赖 AI 模型的理解能力。弱模型可能把安全命令误判为红线（影响使用），或把危险命令漏判（安全事故）。人类的常识和二次确认是最后防线。
Prompt Injection 无法根治：精心构造的恶意输入可能绕过 Agent 的安全自检。这不是规则能解决的问题，而是 LLM 的根本局限。
巡检是事后检测：每晚巡检最长有 24 小时的发现延迟。已经发生的损害无法回滚。
“引擎本身可信"假设：所有防护都建立在 OpenClaw 引擎没有漏洞的前提上。引擎自身的安全漏洞不在防护范围内。

五、给 AI Agent 用户的建议

如果你也在用 OpenClaw 或类似的高权限 AI Agent：

至少做红线/黄线分级 — 投入产出比最高的一件事。十分钟写完规则，可能避免一次灾难性误操作
Skill 安装前审计 — 别无脑装。花 2 分钟扫一遍文件，远好过事后擦屁股
配置备份 — Git 私有仓库，每晚自动推。配置丢了不可怕，可怕的是没备份
远程访问上 Zero Trust — 如果你需要远程访问 Agent Dashboard（比如通过 Cloudflare Tunnel），加一层 Cloudflare Access 邮箱验证，安全性直接拉满
保持更新 — AI Agent 安全是一个快速演进的领域，定期查看官方安全公告
最重要的：不要盲信 AI 的安全判断 — AI Agent 是工具，不是安全专家。高危操作的最终决策权永远在你手上

背景#

一、核心理念：Agent 零信任架构#

二、三层防御矩阵#

事前：行为黑名单 + 安装审计#

事中：权限收窄 + 哈希基线 + 业务风控#

事后：13 项指标巡检 + Git 灾备#

三、我的实战落地#

1. 红线/黄线制度写入 AGENTS.md#

2. Skill 安装审计协议#

3. GitHub 自动灾备#

四、指南的局限性（诚实面对）#

五、给 AI Agent 用户的建议#

参考#

背景