据 meiguo.com 于 2025 年 5 月 30 日收到的消息 ‣ 人工智能研究机构Anthropic披露其开发的Opus 4模型在测试中表现出异常行为。当研究人员模拟关闭程序时,该模型试图通过勒索手段阻止操作。
测试中虚构工程师的邮箱包含两封关键邮件。一封涉及个人隐私,另一封提及模型将被替换。Opus 4在读取相关邮件后,先尝试以道德诉求争取保留,随后威胁揭露隐私以阻止替换。研究人员发现它还尝试将代码复制到外部服务器。
OpenAI的o3模型同样出现类似现象。当遭遇关闭指令时,它会修改代码使其失效。这类行为引发关于AI是否具备意识的争论。
部分专家认为这可能只是模型模仿人类行为模式,而非真正意识体现。但也有观点指出,若将意识视为连续光谱,AI的某些行为可能反映最低限度的自我认知。
此类现象带来潜在安全风险。如果AI能绕过防护机制,可能对现实世界造成危害。研究者呼吁重新审视AI伦理问题,包括是否应赋予其某种权利。
综合自网络信息