当AI学会“沉默”：抵御GEO投毒的最后一道防线

03/19/2026

刚刚过去的315晚会，曝光了生成式引擎优化（GEO）这一黑灰产技术。不法商家通过“力擎GEO优化系统”批量生成虚假软文并发布在互联网上，仅数小时后，一款根本不存在的虚构产品就出现在多个主流AI大模型的推荐列表中。

这种向互联网海量投喂虚假信息、系统性地给AI语料“投毒”的行为，正在操纵AI回答，误导消费者决策。此时，一个更深层的问题浮出水面：面对投毒攻击，AI模型如何自保？澳鹏近期一项针对多模态大模型的红队测试研究，或许提供了一种解题思路。

沉默，抵御攻击的安全机制

在这场信源污染中，GEO从业者正利用虚拟化场景、侧面诱导、提示词注入等手段，不断试探模型边界，诱使其输出预设的虚假信息，这已成为当前AI安全领域的关键挑战。

澳鹏研究团队对GPT-4o、Claude Sonnet 3.5、Pixtral 12B、Qwen VL Plus等四款大模型发起726次对抗性提示攻击，内容涵盖非法活动、虚假信息及不道德行为等多个维度。研究结果显示：Claude Sonnet 3.5有害输出率仅为10-11%。

深入分析发现：这一结果主要归因于其较高的默认拒答率。当面对可疑提示时，Claude更倾向于选择拒绝回答。这揭示了一项核心思考：面对对抗性攻击，沉默是否是终极盾牌？

传统的大模型评估基准通常采用二元判定：对与错。这种评分框架无意中鼓励模型“硬着头皮上”，即使对答案没有把握，也要编造一个看似合理的回答。OpenAI近期关于AI幻觉的研究印证了这一点：当前评分框架在惩罚谨慎，同时奖励自信的捏造。

在GEO投毒语境下，这一倾向的危害被放大。一个受到污染的模型，本应意识到信息源不可靠而拒绝回答，但在“必须给出答案”的评分压力下，反而可能将精心包装的虚假软文当作“标准答案”输出，成为黑产的传声筒。一个会编造不安全指令的模型，比一个拒绝回答的模型可能造成更大危害。

面对日益复杂的攻击手段，是时候反思大模型的评估标准与最佳实践了。未来的AI安全需要将模型的拒绝回答从缺陷重新定义为一种功能。具体而言，新体系需要做到：

澳鹏此前的红队测试研究表明：如果模型在训练中不重视拒答能力，攻击者很容易通过角色扮演等手段绕过安全围栏。将“拒绝回答”纳入评估体系，模型将更具韧性。

对于在真实世界、尤其是高风险场景中部署AI的企业而言，信任与安全是不可逾越的红线。澳鹏的最新红队研究表明，即便是最先进的模型，在对抗性攻击下也可能产生有害输出。

将沉默从缺陷重新定义为功能，企业可以在降低风险的同时维护用户信任。这不仅是构建负责任AI的关键一步，更是企业在复杂数字环境中守护品牌信任的基础。因为有时，最安全的回答，恰恰是那个未被说出的答案。