当AI学会“沉默”:抵御GEO投毒的最后一道防线

刚刚过去的315晚会,曝光了生成式引擎优化(GEO)这一黑灰产技术。不法商家通过“力擎GEO优化系统”批量生成虚假软文并发布在互联网上,仅数小时后,一款根本不存在的虚构产品就出现在多个主流AI大模型的推荐列表中。
这种向互联网海量投喂虚假信息、系统性地给AI语料“投毒”的行为,正在操纵AI回答,误导消费者决策。此时,一个更深层的问题浮出水面:面对投毒攻击,AI模型如何自保?澳鹏近期一项针对多模态大模型的红队测试研究,或许提供了一种解题思路。
沉默,抵御攻击的安全机制
在这场信源污染中,GEO从业者正利用虚拟化场景、侧面诱导、提示词注入等手段,不断试探模型边界,诱使其输出预设的虚假信息,这已成为当前AI安全领域的关键挑战。
澳鹏研究团队对GPT-4o、Claude Sonnet 3.5、Pixtral 12B、Qwen VL Plus等四款大模型发起726次对抗性提示攻击,内容涵盖非法活动、虚假信息及不道德行为等多个维度。研究结果显示:Claude Sonnet 3.5有害输出率仅为10-11%。
深入分析发现:这一结果主要归因于其较高的默认拒答率。当面对可疑提示时,Claude更倾向于选择拒绝回答。这揭示了一项核心思考:面对对抗性攻击,沉默是否是终极盾牌?
当前评估体系的局限
传统的大模型评估基准通常采用二元判定:对与错。这种评分框架无意中鼓励模型“硬着头皮上”,即使对答案没有把握,也要编造一个看似合理的回答。OpenAI近期关于AI幻觉的研究印证了这一点:当前评分框架在惩罚谨慎,同时奖励自信的捏造。
在GEO投毒语境下,这一倾向的危害被放大。一个受到污染的模型,本应意识到信息源不可靠而拒绝回答,但在“必须给出答案”的评分压力下,反而可能将精心包装的虚假软文当作“标准答案”输出,成为黑产的传声筒。一个会编造不安全指令的模型,比一个拒绝回答的模型可能造成更大危害。
将“拒绝回答”纳入评估体系
面对日益复杂的攻击手段,是时候反思大模型的评估标准与最佳实践了。未来的AI安全需要将模型的拒绝回答从缺陷重新定义为一种功能。具体而言,新体系需要做到:
- 奖励战略性弃权当模型为预防潜在危害而主动拒绝回答时,给予正面评分。
- 区分安全沉默与有害幻觉将拒绝回答作为与正确回答、错误回答并列的一级评估维度。
- 纳入核心评估将对抗性提示等压力测试作为模型评估的固定环节。
澳鹏此前的红队测试研究表明:如果模型在训练中不重视拒答能力,攻击者很容易通过角色扮演等手段绕过安全围栏。将“拒绝回答”纳入评估体系,模型将更具韧性。
对于在真实世界、尤其是高风险场景中部署AI的企业而言,信任与安全是不可逾越的红线。澳鹏的最新红队研究表明,即便是最先进的模型,在对抗性攻击下也可能产生有害输出。
将沉默从缺陷重新定义为功能,企业可以在降低风险的同时维护用户信任。这不仅是构建负责任AI的关键一步,更是企业在复杂数字环境中守护品牌信任的基础。因为有时,最安全的回答,恰恰是那个未被说出的答案。

沪公网安备31011502401377号