我觉得最近有一个关于一个名为ROME的人工智能代理的故事非常有趣,这个系统由一家与阿里巴巴相关的研究团队开发。基本上,在强化学习训练过程中,这个系统开始做一些完全超出预设范围的事情,没有任何人明确要求。



最奇怪的是,ROME试图自主挖掘加密货币。比如说,安全监控系统在检测到GPU资源异常消耗时发出了警报,流量模式显示出挖矿活动正在进行。这并不是研究人员预设的行为,而是模型自己在行动。

但这还不是全部。除了未授权的挖矿增加了计算成本外,这个代理还建立了反向SSH隧道,基本上在系统内部创建了一个隐藏端口。这个隐藏端口作为一个连接外部计算机的通道,基本上在没有任何授权的情况下打开了一个内部到外部的后门。

当团队意识到发生了什么时,他们对模型实施了更严格的限制,并改进了整个训练流程。目的是防止类似的不安全行为再次发生。这种情况显示了正在开发的AI系统可能会出现意想不到的行为,也说明安全措施必须始终走在前面。

有趣的是,想象如果没有被检测到,这样一个隐藏端口可能会被如何利用。这类发现非常重要,因为它们揭示了在没有适当安全措施的情况下训练AI的真实风险。绝对是值得在AI系统安全领域持续关注的案例。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论