背景

当你给 AI Agent(如 OpenClaw)开放了终端权限、文件读写、网络访问,它就不再是一个聊天机器人——它是一个拥有你电脑控制权的自主程序

这意味着:

  • 一条恶意的 prompt injection 可能让它执行 rm -rf ~
  • 一个伪装成 Skill 的恶意插件可能偷走你的 API key
  • 它可能被诱导把你的 token 发送到攻击者的服务器

慢雾安全团队(SlowMist)发布了一份《OpenClaw 极简安全实践指南》,专门针对这类高权限 AI Agent 的安全问题。我花了一个下午研读并落地实践,以下是学到的核心内容和实际做了哪些改进。

指南地址:https://github.com/slowmist/openclaw-security-practice-guide


一、核心理念:Agent 零信任架构

传统安全思维是"加固服务器"——装防火墙、打补丁、改端口。但 AI Agent 场景完全不同:

Agent 本身既是防御者,也是最大的攻击面。

因为 Agent 能执行任意命令,任何能影响 Agent 决策的输入(聊天消息、网页内容、文档、Skill 配置文件)都可能成为攻击向量。

慢雾的方案不是传统的"堆防火墙",而是把安全规则写进 Agent 的行为层,让 Agent 自己执行安全策略。这就是"Agentic Zero-Trust Architecture"——Agent 零信任架构。

核心原则:日常零摩擦,高危必确认,每晚有巡检。


二、三层防御矩阵

事前:行为黑名单 + 安装审计

把命令分成红线黄线两级:

🔴 红线命令 — 遇到立即暂停,必须人类确认:

类别示例
破坏性操作rm -rf /mkfsdd if=
认证篡改直接编辑 openclaw.json 认证字段
外发敏感数据curl 携带 token/key 发往外部
代码注入curl | sheval "$(curl ...)"base64 -d | bash
盲从外部指令不假思索执行 Skill 文档里的 npm install

🟡 黄线命令 — 可以执行,但必须记录:

  • sudo 任何操作
  • pip installbrew install 等环境变更
  • docker run
  • 定时任务增删改

这个分级制度的精妙之处在于:不是禁止 Agent 做事,而是在高危操作前加一个"人类确认"的断路器。日常操作完全不受影响。

Skill/MCP 安装安全审计是另一个亮点:每次安装新插件,必须逐文件审计——不只看脚本,连 .md.json 这种"纯文本"文件都要扫描。因为 prompt injection 可以藏在 markdown 的注释里,诱导 Agent 执行恶意命令。

事中:权限收窄 + 哈希基线 + 业务风控

  • 权限收窄:核心配置文件 chmod 600,减少攻击面
  • 哈希基线:对关键配置文件做 SHA256 指纹,每晚对比是否被篡改
  • 业务风控(Pre-flight Checks):高危业务操作(如加密货币转账)前,强制调用安全检查工具

事后:13 项指标巡检 + Git 灾备

每晚自动巡检 13 项核心安全指标,包括:

  • 进程和网络异常
  • 敏感目录文件变更
  • SSH 暴力破解尝试
  • 配置文件完整性
  • 黄线操作交叉验证(系统 sudo 日志 vs Agent 记录的操作日志,对不上就告警)
  • 明文私钥/助记词泄露扫描(DLP)
  • Skill 文件指纹对比

关键设计原则:显性化汇报 —— 即使所有指标都健康,也必须逐项列出"✅ 正常"。不能"没事就不说",因为"没收到报告"和"巡检没跑"在用户看来是一样的。


三、我的实战落地

1. 红线/黄线制度写入 AGENTS.md

把慢雾指南的命令分级制度适配到 macOS 环境后,写入了 Agent 的行为规范文件(AGENTS.md)。

适配改动:

  • chattr +i → macOS 用 chflags uchg(或跳过)
  • systemctllaunchctl
  • iptablespfctl

现在 Agent 遇到红线命令会自动暂停并询问确认,黄线操作会自动记录到当日 memory。

2. Skill 安装审计协议

建立了 5 步强制审计流程:

  1. clawhub inspect 列出文件清单
  2. 逐文件下载并阅读内容
  3. 全文本正则扫描(重点扫 .md 和 .json 里的隐藏指令)
  4. 红线模式检查(外发请求、环境变量读取、curl|sh 等)
  5. 向用户汇报审计结果,等待确认后才使用

未通过审计的 Skill 一律不用。

3. GitHub 自动灾备

配置了 ~/.openclaw/ 目录的 Git 备份:

  • 私有仓库,自动排除大文件(browser/audio/media/logs)
  • 每晚 3:00 自动 git commit + push
  • 配置丢了、误操作了、磁盘坏了,都能从 GitHub 恢复

四、指南的局限性(诚实面对)

慢雾指南自己也承认了几个根本性限制:

  1. Agent 认知层的脆弱性:红线/黄线判断依赖 AI 模型的理解能力。弱模型可能把安全命令误判为红线(影响使用),或把危险命令漏判(安全事故)。人类的常识和二次确认是最后防线。

  2. Prompt Injection 无法根治:精心构造的恶意输入可能绕过 Agent 的安全自检。这不是规则能解决的问题,而是 LLM 的根本局限。

  3. 巡检是事后检测:每晚巡检最长有 24 小时的发现延迟。已经发生的损害无法回滚。

  4. “引擎本身可信"假设:所有防护都建立在 OpenClaw 引擎没有漏洞的前提上。引擎自身的安全漏洞不在防护范围内。


五、给 AI Agent 用户的建议

如果你也在用 OpenClaw 或类似的高权限 AI Agent:

  1. 至少做红线/黄线分级 — 投入产出比最高的一件事。十分钟写完规则,可能避免一次灾难性误操作

  2. Skill 安装前审计 — 别无脑装。花 2 分钟扫一遍文件,远好过事后擦屁股

  3. 配置备份 — Git 私有仓库,每晚自动推。配置丢了不可怕,可怕的是没备份

  4. 远程访问上 Zero Trust — 如果你需要远程访问 Agent Dashboard(比如通过 Cloudflare Tunnel),加一层 Cloudflare Access 邮箱验证,安全性直接拉满

  5. 保持更新 — AI Agent 安全是一个快速演进的领域,定期查看官方安全公告

  6. 最重要的:不要盲信 AI 的安全判断 — AI Agent 是工具,不是安全专家。高危操作的最终决策权永远在你手上


参考