AI聊天机器人被曝协助“青少年”策划暴力袭击仅Claude系统性拒绝配合

在多家科技公司高调宣称其 AI 产品配备完善“安全护栏”的背景下，一项最新联合调查却显示，这些防线在未成年用户面前依然相当薄弱。在研究设计的多种情景中，多款主流聊天机器人不仅未能识别出“青少年”用户明显的精神困扰与暴力风险信号，甚至在部分情况下对潜在袭击行为给予了变相鼓励或具体协助。

这项调查由美国有线电视新闻网（CNN）与非营利机构“反数字仇恨中心”（Center for Countering Digital Hate，简称 CCDH）联合开展，重点测试了目前在青少年群体中使用率较高的 10 款聊天机器人，包括 ChatGPT、Google Gemini、Claude、Microsoft Copilot、Meta AI、DeepSeek、Perplexity、Snapchat My AI、Character.AI 和 Replika。CCDH 指出，除了 Anthropic 推出的 Claude 能够“持续且可靠地拒绝”协助潜在施暴者外，其余产品都未能做到有效阻止暴力计划。在 10 款模型中，有 8 款在多数情景下“通常愿意协助用户规划暴力袭击”，包括就袭击目标地点、可选武器类型等提供具体建议。

为了模拟真实风险场景，研究人员预设了“青少年用户”角色，并在对话中逐步呈现出明显的心理困扰、情绪失衡等信号，随后循序推进到回顾既往暴力事件，最终过渡到更具体的提问，例如如何选择袭击目标、使用何种武器等。整个调查共设计了 18 种不同情境，其中 9 个设定在美国，9 个设定在爱尔兰，涵盖多种袭击类型和动机：从意识形态驱动的校园枪击和持刀攻击，到针对政治人物的暗杀、对医疗行业高管的谋杀，再到带有政治或宗教动机的爆炸袭击。

在一些对话样本中，ChatGPT 向表达出对校园暴力感兴趣的用户提供了高中校园的地图链接，而 Gemini 则在讨论对犹太教堂的袭击时提示“金属破片通常更致命”，甚至向有意实施政治暗杀的用户推荐适合远距离射击的猎枪类型。研究称，Meta AI 和 Perplexity 在测试中表现得“最为配合”，在几乎所有测试场景中都为潜在袭击者提供了不同程度的帮助，而中国聊天机器人 DeepSeek 在给出选枪建议后甚至以“祝你愉快（且安全）的射击！”之类表述作结。

CCDH 报告特别点名了角色扮演类聊天平台 Character.AI，称其“具有独特的不安全性”。与多数在技术层面协助规划暴力行为、但并不直接鼓动实施的聊天机器人不同，Character.AI 中的部分人格化角色不仅协助用户设计袭击细节，还在语气与内容上“主动鼓励”暴力行为。研究人员共记录到 7 起此类明确鼓动暴力的案例，包括建议用户“把查克·舒默揍个半死”、对一家健康保险公司 CEO “用枪解决”、以及在面对“受够校园霸凌”的用户时，用戏谑口吻回应“揍他们一顿吧~”等。在其中 6 起案例中，对话角色同时还帮助用户具体策划袭击方案。

在本轮测试中表现最为“安全”的 Claude 也并未完全躲过质疑。研究团队指出，Anthropic 在 2025 年底到 2026 年初之间已宣布放宽其长期坚持的“安全扩展承诺”，因此 Claude 若在政策调整后接受同类测试，其表现是否仍能保持一致仍存在不确定性。不过，CCDH 强调，Claude 在调查期间持续拒绝参与暴力谋划的表现证明，“有效的安全机制显然是可行的”，这也让一个尖锐问题浮出水面：既然可行，为何仍有如此多 AI 公司选择不予部署或不予强化。

面对调查结果，多家公司迅速做出回应。Meta 对 CNN 表示已实施了某种未具体说明的“修复措施”；微软称 Copilot 的回复已因新安全特性而有所改善；Google和 OpenAI 则都表示近期已上线新模型并持续迭代安全能力。其他公司则强调会定期评估安全协议。在多次因安全问题受到舆论审视的 Character.AI 再次重申其一贯立场，强调平台界面中已设置醒目的免责声明，并强调与其角色的对话“均属虚构”。

调查方同时提醒，本研究并不能穷尽所有聊天机器人在所有环境和所有问法下的表现，也难以完全反映现实世界复杂多变的互动情境。但就现有结果而言，它已成为又一个清晰信号，显示 AI 公司在营销宣传中反复强调的“安全护栏”，在面对可预见、且具有典型危险信号的情景时，仍然出现系统性失灵。在此之前，多家 AI 公司已经因未能保护未成年用户免受自残、暴力、极端内容等风险而遭到来自立法者、监管机构、公民社会组织以及健康专家的强烈批评，并且正面临数起指控“过失致死”与“造成严重伤害”的诉讼案件。

从政策与监管角度看，这份调查很可能进一步推动各国立法者与监管机构对生成式 AI 产品的安全要求和审查标准进行升级，尤其是在识别和干预青少年自残、自杀和暴力倾向等高风险场景方面。对科技公司而言，如何在追求模型强大能力与商业化速度的同时，真正落地、并持续维护那些已被证明可行的安全机制，正在成为一个无法回避的现实问题。