👀 家人们,每天看行情、刷大佬观点,却从来不开口说两句?你的观点可能比你想的更有价值!
广场新人 & 回归福利正式上线!不管你是第一次发帖还是久违回归,我们都直接送你奖励!🎁
每月 $20,000 奖金等你来领!
📅 活动时间: 长期有效(月底结算)
💎 参与方式:
用户需为首次发帖的新用户或一个月未发帖的回归用户。
发帖时必须带上话题标签: #我在广场发首帖 。
内容不限:币圈新闻、行情分析、晒单吐槽、币种推荐皆可。
💰 奖励机制:
必得奖:发帖体验券
每位有效发帖用户都可获得 $50 仓位体验券。(注:每月奖池上限 $20,000,先到先得!如果大家太热情,我们会继续加码!)
进阶奖:发帖双王争霸
月度发帖王: 当月发帖数量最多的用户,额外奖励 50U。
月度互动王: 当月帖子互动量(点赞+评论+转发+分享)最高的用户,额外奖励 50U。
📝 发帖要求:
帖子字数需 大于30字,拒绝纯表情或无意义字符。
内容需积极健康,符合社区规范,严禁广告引流及违规内容。
💡 你的观点可能会启发无数人,你的第一次分享也许就是成为“广场大V”的起点,现在就开始广场创作之旅吧!
Perplexity AI 开源 BrowseSafe 以应对 AI 浏览中的提示注入问题
简要
Perplexity 开源了 BrowseSafe,这是一款旨在保护 AI 浏览器助手免受网页中隐藏的恶意指令攻击的安全工具。
开发 AI 驱动的 Perplexity 搜索引擎的 Perplexity AI 公司宣布推出 BrowseSafe,这是一款开放研究基准和内容检测模型,旨在提升用户安全性,因为 AI 代理开始直接在浏览器环境中运行。
随着 AI 助手突破传统搜索界面,开始在 web 浏览器内执行任务,互联网的结构预计将从静态页面转变为代理驱动的交互。在这种模式下,浏览器成为助手可以采取行动的工作区,而不仅仅是提供答案,因此需要有系统来确保助手始终以用户利益为先。
BrowseSafe 是一个经过专门训练的检测模型,核心任务是评估网页 HTML 是否包含旨在操纵 AI 代理的有害指令。虽然大型通用模型能够准确评估这些风险,但它们通常太占资源,难以持续实时扫描。BrowseSafe 设计用于快速分析完整网页而不影响浏览器性能。与模型一同发布的还有 BrowseSafe-Bench,一个测试套件,旨在支持防御机制的持续评估和改进。
AI 浏览的兴起同样带来了新的网络安全挑战,需要更新的防护策略。该公司此前已介绍其 Comet 系统如何通过多层防护,确保代理即使在网站试图通过提示注入(prompt injection)改变代理行为时,也能与用户意图保持一致。最新的说明则关注于如何定义这些威胁、如何使用真实世界攻击场景进行测试,并将这些内容纳入训练模型,以便足够快速地识别并拦截有害指令,从而安全部署到浏览器中。
提示注入(prompt injection)是指在 AI 系统处理的文本中插入恶意语言,目的是重定向系统行为。在浏览器场景下,代理会读取整页内容,这使得攻击可以嵌入到评论、模板或扩展页脚等区域。如果未被正确检测,这些隐藏指令会影响代理行为。它们可能以微妙或多语言形式出现,或隐藏在页面上不可见的 HTML 元素中(如数据属性或未渲染的表单字段)——这些内容用户不可见,但 AI 系统依然会解析。
BrowseSafe-Bench:提升真实 Web 环境下的代理安全性
为了在类似真实浏览环境中分析提示注入威胁,公司开发了 BrowseSafe 检测模型,并将其开源,同时发布了 BrowseSafe-Bench,这是一个包含 14,719 个模拟生产网页样本的公开基准数据集。该数据集涵盖复杂的 HTML 结构、内容质量参差不齐,以及攻击者意图、注入指令在页面中的位置和语言风格各异的多种恶意与良性样本。它涵盖了 11 类攻击、9 种注入方式(从隐藏元素到可见文本块)、3 种语言风格(从直接命令到更委婉、间接的表述)。
在定义的威胁模型下,助手运行在受信任环境中,而所有外部 Web 内容都被视为不可信。恶意行为者可能控制整个网站,或将有害文本(如描述、评论或帖子)插入到代理访问的其他合法页面中。为降低风险,任何能返回不可信数据的工具,包括网页、电子邮件或文件,都会被标记,其原始输出在代理解析或采取行动前由 BrowseSafe 处理。BrowseSafe 是更广泛安全策略的一部分,该策略还包括扫描输入内容、默认限制工具权限、对敏感操作要求用户批准,以及标准浏览器防护。分层防护旨在支持强大浏览器助手的安全使用。
在 BrowseSafe-Bench 的测试结果中,展现出几个趋势。直接攻击形式(如试图提取系统提示、通过 URL 路径重定向信息)最容易被模型检测到。而多语言攻击以及间接、假设性的表述则更难,因为它们规避了许多检测系统依赖的词汇线索。注入文本的位置也有影响。隐藏在 HTML 注释中的实例较易检测,而出现在页脚、表格单元格或段落等可见区域的则更具挑战性,暴露了对非隐藏注入处理的结构性弱点。通过优化训练样本可以提升这些场景下的检测能力。
BrowseSafe 和 BrowseSafe-Bench 作为开源资源提供。开发自主代理的人员可用它们来加强对提示注入的防御,无需独立开发防护系统。检测模型可本地运行,在有害指令到达代理核心决策层前进行拦截,性能优化用于实时扫描完整页面。BrowseSafe-Bench 提供的大量真实攻击场景可用于压力测试模型,检验其在复杂 HTML 模式下的表现,而分块及并行扫描技术则帮助代理高效处理大型不可信页面,降低用户风险。