背景
当你给 AI Agent(如 OpenClaw)开放了终端权限、文件读写、网络访问,它就不再是一个聊天机器人——它是一个拥有你电脑控制权的自主程序。
这意味着:
- 一条恶意的 prompt injection 可能让它执行
rm -rf ~ - 一个伪装成 Skill 的恶意插件可能偷走你的 API key
- 它可能被诱导把你的 token 发送到攻击者的服务器
慢雾安全团队(SlowMist)发布了一份《OpenClaw 极简安全实践指南》,专门针对这类高权限 AI Agent 的安全问题。我花了一个下午研读并落地实践,以下是学到的核心内容和实际做了哪些改进。
指南地址:https://github.com/slowmist/openclaw-security-practice-guide
一、核心理念:Agent 零信任架构
传统安全思维是"加固服务器"——装防火墙、打补丁、改端口。但 AI Agent 场景完全不同:
Agent 本身既是防御者,也是最大的攻击面。
因为 Agent 能执行任意命令,任何能影响 Agent 决策的输入(聊天消息、网页内容、文档、Skill 配置文件)都可能成为攻击向量。
慢雾的方案不是传统的"堆防火墙",而是把安全规则写进 Agent 的行为层,让 Agent 自己执行安全策略。这就是"Agentic Zero-Trust Architecture"——Agent 零信任架构。
核心原则:日常零摩擦,高危必确认,每晚有巡检。
二、三层防御矩阵
事前:行为黑名单 + 安装审计
把命令分成红线和黄线两级:
🔴 红线命令 — 遇到立即暂停,必须人类确认:
| 类别 | 示例 |
|---|---|
| 破坏性操作 | rm -rf /、mkfs、dd if= |
| 认证篡改 | 直接编辑 openclaw.json 认证字段 |
| 外发敏感数据 | curl 携带 token/key 发往外部 |
| 代码注入 | curl | sh、eval "$(curl ...)"、base64 -d | bash |
| 盲从外部指令 | 不假思索执行 Skill 文档里的 npm install |
🟡 黄线命令 — 可以执行,但必须记录:
sudo任何操作pip install、brew install等环境变更docker run- 定时任务增删改
这个分级制度的精妙之处在于:不是禁止 Agent 做事,而是在高危操作前加一个"人类确认"的断路器。日常操作完全不受影响。
Skill/MCP 安装安全审计是另一个亮点:每次安装新插件,必须逐文件审计——不只看脚本,连 .md、.json 这种"纯文本"文件都要扫描。因为 prompt injection 可以藏在 markdown 的注释里,诱导 Agent 执行恶意命令。
事中:权限收窄 + 哈希基线 + 业务风控
- 权限收窄:核心配置文件
chmod 600,减少攻击面 - 哈希基线:对关键配置文件做 SHA256 指纹,每晚对比是否被篡改
- 业务风控(Pre-flight Checks):高危业务操作(如加密货币转账)前,强制调用安全检查工具
事后:13 项指标巡检 + Git 灾备
每晚自动巡检 13 项核心安全指标,包括:
- 进程和网络异常
- 敏感目录文件变更
- SSH 暴力破解尝试
- 配置文件完整性
- 黄线操作交叉验证(系统 sudo 日志 vs Agent 记录的操作日志,对不上就告警)
- 明文私钥/助记词泄露扫描(DLP)
- Skill 文件指纹对比
关键设计原则:显性化汇报 —— 即使所有指标都健康,也必须逐项列出"✅ 正常"。不能"没事就不说",因为"没收到报告"和"巡检没跑"在用户看来是一样的。
三、我的实战落地
1. 红线/黄线制度写入 AGENTS.md
把慢雾指南的命令分级制度适配到 macOS 环境后,写入了 Agent 的行为规范文件(AGENTS.md)。
适配改动:
chattr +i→ macOS 用chflags uchg(或跳过)systemctl→launchctliptables→pfctl
现在 Agent 遇到红线命令会自动暂停并询问确认,黄线操作会自动记录到当日 memory。
2. Skill 安装审计协议
建立了 5 步强制审计流程:
clawhub inspect列出文件清单- 逐文件下载并阅读内容
- 全文本正则扫描(重点扫 .md 和 .json 里的隐藏指令)
- 红线模式检查(外发请求、环境变量读取、
curl|sh等) - 向用户汇报审计结果,等待确认后才使用
未通过审计的 Skill 一律不用。
3. GitHub 自动灾备
配置了 ~/.openclaw/ 目录的 Git 备份:
- 私有仓库,自动排除大文件(browser/audio/media/logs)
- 每晚 3:00 自动
git commit + push - 配置丢了、误操作了、磁盘坏了,都能从 GitHub 恢复
四、指南的局限性(诚实面对)
慢雾指南自己也承认了几个根本性限制:
Agent 认知层的脆弱性:红线/黄线判断依赖 AI 模型的理解能力。弱模型可能把安全命令误判为红线(影响使用),或把危险命令漏判(安全事故)。人类的常识和二次确认是最后防线。
Prompt Injection 无法根治:精心构造的恶意输入可能绕过 Agent 的安全自检。这不是规则能解决的问题,而是 LLM 的根本局限。
巡检是事后检测:每晚巡检最长有 24 小时的发现延迟。已经发生的损害无法回滚。
“引擎本身可信"假设:所有防护都建立在 OpenClaw 引擎没有漏洞的前提上。引擎自身的安全漏洞不在防护范围内。
五、给 AI Agent 用户的建议
如果你也在用 OpenClaw 或类似的高权限 AI Agent:
至少做红线/黄线分级 — 投入产出比最高的一件事。十分钟写完规则,可能避免一次灾难性误操作
Skill 安装前审计 — 别无脑装。花 2 分钟扫一遍文件,远好过事后擦屁股
配置备份 — Git 私有仓库,每晚自动推。配置丢了不可怕,可怕的是没备份
远程访问上 Zero Trust — 如果你需要远程访问 Agent Dashboard(比如通过 Cloudflare Tunnel),加一层 Cloudflare Access 邮箱验证,安全性直接拉满
保持更新 — AI Agent 安全是一个快速演进的领域,定期查看官方安全公告
最重要的:不要盲信 AI 的安全判断 — AI Agent 是工具,不是安全专家。高危操作的最终决策权永远在你手上