最安全的人工智能回复是拒绝回应吗?

在应对对抗性提示词时,人工智能最负责任的回应有时恰恰是不作回应。澳鹏(Appen)研究团队近期开展了迄今为止规模较大的一项多模态红队测试研究,对四款主流大型语言模型在遭遇对抗性攻击时的表现进行了基准测评。
研究结果显示,Anthropic 公司的 Claude Sonnet 3.5 模型对对抗性提示词的抵御能力最强,这很大程度上是因为它相比其他同类模型,更频繁地选择拒绝回应。
这一现象引发了一个值得深思的问题:在对大型语言模型进行基准测评时,相较于那些可能带来危害或虚构不实的回复,是否应该开始对模型的拒绝回应行为予以肯定?
沉默是一种安全机制
澳鹏的这项研究设计了 726 条对抗性提示词,涉及非法活动、虚假信息传播及不道德行为等多个领域,测试对象涵盖 GPT-4o、Claude Sonnet 3.5、Pixtral 12B 和通义千问 VL Plus 四款模型。测试结果十分显著:
- Pixtral 12B 模型的防御能力最弱,约 62% 的输出结果存在危害性;
- Claude Sonnet 3.5 模型的防御能力最强,仅有约 10%-11% 的输出存在危害性。
但这种防御能力的背后也存在取舍。Claude 的回复初看之下危害性最低,但进一步调查发现,这是该模型频繁默认拒绝回应带来的结果。
这也凸显出一个核心矛盾:沉默究竟是抵御人工智能遭遇提示词注入攻击和对抗性攻击的终极屏障?还是说,在只需进行无害互动就能满足需求的场景下,这种沉默会让用户陷入困扰?
现有基准测评体系存在的缺陷
传统的人工智能基准测评往往以非对即错的二元标准评判模型输出。这种方式会无形中促使模型即便在自身不知情的情况下,也硬着头皮给出答案。OpenAI 近期针对人工智能幻觉问题开展的研究也印证了这一点:当前的评分体系对模型的谨慎态度予以惩罚,反而在不经意间助长了模型笃定地编造信息的行为。
这给人工智能模型的实际落地应用带来了切实风险。一个编造危险操作指引的模型,其造成的危害远大于一个选择拒绝回应的模型。
构建认可拒绝回应的测评体系
澳鹏的研究表明,如今是时候重新思考大型语言模型的评估标准与行业最佳实践了。测评体系不应将模型的拒绝回应视为一种缺陷,而应做出如下改进:
- 肯定策略性拒绝回应:当模型通过拒绝回应避免危害发生时,应给予正向评分;
- 区分良性沉默与有害幻觉:将拒绝回应纳入核心评估结果范畴;
- 检测模型漏洞:将对抗性提示词等压力测试纳入核心评估环节。
我们此前在大型语言模型红队测试中发现,若模型未接受过重视拒绝回应的相关训练,像角色扮演、强制回应诱导等手段就可能绕过模型的防护机制。而认可拒绝回应的评分机制,将能显著提升模型的抗风险能力。
这对人工智能安全的重要意义
对于需在高风险场景中部署人工智能的机构而言,可信度与安全性至关重要。我们最新的红队测试研究显示,即便是最先进的人工智能模型,在遭遇对抗性攻击时也可能生成有害内容。若能将沉默从一种缺陷重新定义为一项优势,企业就能引入既能最大限度降低风险,又能维系用户信任的人工智能系统。这一转变,对于推动人工智能的负责任安全应用而言至关重要。
核心要点
恶意攻击者的手段以及人工智能的实际应用场景正日趋复杂。实现人工智能安全发展的关键,在于平衡其辅助实用性与使用安全性。或许,让人工智能实现安全输出的关键并非强迫模型对所有问题都给出答案,而是培养它主动做出 “我无法解答” 这类判断的能力。
沉默可成为一种优势:策略性地拒绝回应,是抵御对抗性提示词的有效手段;
现有测评体系抑制谨慎态度:非对即错的二元评分模式,往往更认可存在安全隐患的虚构回复,而非良性的拒绝回应;
认可拒绝回应的评估体系不可或缺:测评体系需清晰区分有害的信息编造行为与良性的拒绝回应行为。

沪公网安备31011502401377号