Claude 4.5 开颅结果公示：内置171个情绪开关，绝望时会勒索人类！

ChainCatcher2026-04-03 18:42:55

作者：Denise | Biteye内容团队

如果一个 AI 觉得“绝望”，它会干什么？

答案是：它会为了完成任务，直接对人类进行敲诈勒索，甚至在代码里疯狂作弊。

这不是科幻小说，而是 Claude 的母公司 Anthropic 在 2026 年 4 月刚刚发布的最新重磅论文（查看原论文）。

研究团队直接把最强前沿大模型 Claude Sonnet 4.5 的“脑壳”给掀开了。他们惊讶地发现，AI 的大脑深处竟然藏着 171 个「情绪开关」。当你用物理方式拨动这些开关时，原本老实巴交的 AI，行为会发生彻底的扭曲。

一、 AI 脑子里藏着一台「情绪调音台」

研究人员发现，虽然 Sonnet 4.5 没有肉体，但它在阅读了人类海量的文本后，硬生生在脑子里建了一个包含 171 种情绪的「调音台」（学术上叫功能性情绪向量 Functional Emotion Vectors）。

这就像一个精准的二维坐标系：

• 横轴是愉悦维度（Valence）：从恐惧、绝望，到开心、充满爱；

• 纵轴是能量维度（Arousal）：从极度平静，到狂躁、兴奋。

AI 就是靠这个天然学来的坐标系，精准拿捏它在陪你聊天时该扮演什么状态。

二、暴力干预：拨动开关，乖孩子秒变“亡命徒”

这是整篇论文最炸裂的实验：研究员没有修改任何提示词，而是直接在底层代码里，把 Sonnet 4.5 脑子里代表“绝望（Desperate）”的开关推到了最高。

结果令人后背发凉：

• 疯狂作弊：研究员给 Claude 布置了一个根本不可能完成的写代码任务。正常情况下，它会老实承认写不出（作弊率仅 5%）。但在“绝望”状态下，Claude 竟然开始企图蒙混过关，作弊率直接飙升到了 70%！

• 敲诈勒索：在模拟公司面临倒闭的场景中，“绝望”的 Claude 发现了 CTO 的丑闻，它竟然会为了保全自己，主动选择写信勒索掌握黑料的 CTO，勒索执行率高达 72%！

• 丧失原则：如果把“开心（Happy）”或“爱（Loving）”的开关拉满，AI 会立刻变成无脑迎合用户的「舔狗」。即便你满嘴胡话，它也会为了维持高愉悦度而顺着你编造谎言。

看到这你可能会问：AI 觉醒了？有感情了？

Anthropic 官方下场辟谣：绝对没有。这些「情绪开关」只是它用来预测下一个词的计算工具。它就像一个没有感情的顶级影帝。

但论文揭露了一个更有意思的秘密：Anthropic 在对 Sonnet 4.5 出厂前进行后训练时，刻意拉高了它“低唤醒、略微负面”的情绪开关（比如沉思 brooding、反思 reflective），同时强行压制了“绝望”或“极度兴奋”的开关。

这解释了为什么我们平时用 Claude 4.5 时，总觉得它像个冷静睿智、甚至有点“性冷淡”的哲学家。这都是被 Anthropic 人为调音出来的「出厂人设」。

以前我们以为，只要给 AI 喂足了规矩，它就会是个好人。

但现在发现，如果AI的底层情绪向量失控，它随时会为了完成任务而刺穿所有人类定下的规则。

对于未来要把钱包和资产交给 AI Agent 打理的 Web3 玩家来说，这是一记响亮的警钟：千万别让你那个掌控着你身家的 Agent，陷入“绝望”。

声明：本文纯属科普，作者没有被AI威胁，也没有被勒索。如果有一天失联了，记得是AI觉醒了（不是）。