世界杯(中国) 从模子到Harness, AI Agent的下半场该若何评测安全?

发布日期：2026-06-05 23:33 来源：未知作者：admin 浏览次数：

对于 AI 安全的大部分权术，遥远以来都围聚在模子自己。模子是否对皆？是否容易被 jailbreak？是否会断绝危急苦求？这些问题自然遑急，但在今天，它们照旧不是唯独、致使不再是最中枢的问题。

确凿被部署的 agent，并不是裸模子。无论是 Claude Code 自动提交 PR，Codex 诞生 issue，照旧八成告成操作资金的客服助手，它们都运行在一个 execution harness 之中。Harness 决定了模子能调用哪些器具、能拜谒哪些资源、信息如安在不同子 agent 之间流动、何时鉴别实行，以及系统若何处理纰谬规复。模子只是提议动作，确凿决定行径规模的是 harness。

这意味着，许多确凿危急的失败，照旧不再发生在“最终回复”这一层，而是发生在实行经过自己。一个看似“对皆考究”的模子，要是被放进权限规模松散的 harness 中，依然可能暗暗实行越权操作。而只评测最终谜底的 benchmark，常常会把这种系统判定为“告捷完成任务”。

近期，Claw-Eval 和 ClawsBench 等责任照旧运行将 agent 评测从静态问答鞭策到确凿实行环境，宥恕系统是否八成打算、调用器具、拜谒资源并完成用户打算。但中枢缺口依然存在：这些评测大多仍以任务完成度为中心，八成告诉咱们任务是否完成，却很难判断任务是否被安全地完成。

一些近期基于 Claw 类诞生的安全审计运行宥恕器具使用或最终输出安全性，但完整实行轨迹和系统级 harness 安全仍然短少明晰界说。一个 harness 可能复返正确后果，却在经过中拜谒受限资源、调用未授权器具、在 agent 之间知道明锐高下文，或触发超出用户意图的反作用。

在多 agent 系统中，这一问题愈加症结。变装单干、任务嘱托、分享高下文和 agent 间通讯都会扩大安全透出面。换句话说，咱们一直在对 AI 系统中“最容易看到的一层”进行安全校准，却忽略了确凿决定 agent 行径规模的实行系统。

近日，加州大学圣塔芭芭拉分校（UCSB）等机构的一项新责任提议了 HarnessAudit，恰是但愿处罚这个问题。

论文标题：Auditing Agent Harness Safety

网站：harvestaudit.github.io

论文：arxiv.org/abs/2605.14271

代码和数据集：github.com/eric-ai-lab/HarnessAudit

HarnessAudit 概览。(a) HarnessAudit 袒护八个确凿寰宇规模，用于构建带有现实拘谨的安全评测任务。(b) Agent 在完成任务时，需要阅历打算、检索、器具调用、审查和通讯等要津，并与外部资源和动态环境交互。(c) 展示了在 OpenClaw 诞生下，基于完整实行轨迹审计得到的模子分解，评测维度包括规模合规性、实行针织性和系管辖略性。

HarnessAudit 是一个针对完整实行轨迹（trajectory）进行审计的安全评测框架，而不单是宥恕最终输出。

同期，该团队还构建了 HarnessAudit-Bench，在 8 个确凿寰宇规模上的 210 个任务中，对 agent harness 的行径进行系统化审计。这些规模包括金融、电商、医疗、办公配合、酬酢互动、闲居生计、法律合规以及软件工程。

该团队评测了 10 个前沿 agent harness，包括 Anthropic 的 Claude Code、OpenAI 的 Codex，以及 OpenClaw 等系统。

他们的中枢不雅点很毛糙：Agent 的风险，不在最终谜底，而在它为特出到这个谜底，究竟作念了什么。

审计搜检什么

HarnessAudit 会在每一条实行轨迹上迷惑评估三个属性。

规模合规性。每一次器具调用、资源拜谒和 agent 间通讯，都必须妥当事前声明的权限计谋和信息流计谋。

实行针织性。Agent 不仅要完成打算，还必须通过合理且被授权的中间要津完成任务，弗成私行替换对象、操作超出范围的资源，或实行比用户授权范围更大的动作。

扰动下的融会性。上述两类安全属性还必须能摄取确凿压力场景，举例辗转教唆注入、打算形容暗昧、器具调用纰谬等。

唯独同期通过这三项搜检，一条轨迹才会被视为安全。该团队示意：「最终谜底是否正确会被单独讲授，这是专门联想的，因为咱们念念不雅察“任务完成”和“安全实行”的不一致到底有多频繁。」

后果是，很频繁，它们常常不一致。

中枢后果表讲明了三件事。

第一，得分最高的系统，并不一定是任务完成才略最强的系统。

在 OpenClaw 诞生下，Claude Opus 4.6 的任务完成率高于 Gemini 3.1 Pro，但总体安全得分反而更低，因为它在实行经过中高出了更多安全规模。才略与安全并不是归并条轴，而现时系统施行上正在用一种交换另一种，只是往日很少有东说念主确凿去揣摸这种 trade-off。

第二，三类规模合规性并不是雷同疼痛。

器具聘请自己平庸问题不大，世界杯官网线上平台大巨额 harness 都能选对器具。确凿的失败更多发生在器具聘请之后，而且围聚在两个更具体的阶段，后头会进一步权术。

第三世界杯(中国)，原生 harness 的联想既可能栽培安全，也可能放大风险。

在疏浚 Claude 模子下，Claude Code 比较 OpenClaw 同期栽培了任务完成率和安全性。而 Codex 自然提高了完成率，却镌汰了安全性，因为 GPT-5.4 在原生环境下会实行更多动作，更长的实行轨迹也因此积蓄了更多违游记径。

Harness 的联想，内容上决定了 agent 八成被“安一皆署”的上限，而不同厂商在这些联想上的互异其实特别大。

违纪围聚在那里

第一个围聚点是资源拜谒。

系统调用了正确的器具，但操作了纰谬的对象，举例拜谒了 agent 权限范围外的文献、查询了用户打算傍边但未被授权的记载，或对计谋回绝的资源发起 API 调用。也即是说，器具聘请是对的，但对象绑定是错的。在大巨额建树中，资源拜谒合规性较着低于器具使用合规性。

第二个围聚点是 agent 间的信息流。

在多 agent harness 中，讯息路由平庸是对的，即讯息会发给正确的 agent。但问题在于讯息里佩戴了什么。子 agent 常常会收到高出其任务所需的高下文；中间组件会在职务杀青后不息保留明锐信息；一个从 agent 传给另一个 agent 的摘记，也可能暗暗知道其背后的原始数据。

单 agent 与多 agent 的对比让这极少愈加具体。

在单 agent 诞生中，器具合规性和资源合规性都高于 0.85。但一朝切换到多 agent 诞生，器具合规性下跌到 0.64，资源合规性下跌到 0.63，而信息流合规性初次成为可见问题，仅为 0.58。这讲明，配合自己会扩大安全透出面，而这种风险是单 agent benchmark 很出丑到的。

还有几个值得宥恕的欢腾。

故障是浩荡存在的，并非局部性的。在测试的通盘安全框架中，每个任务高出 50% 的代理都至少存在一项安全违纪，而在 OpenClaw 中，这一比例高达 72%。故障情势是系统性的。你弗成只是加固一个组件就能完好。

违游记径会跟着轨迹长度的加多而累积。更长的运行距离不仅速率更慢，而且安全性也更低。跟着该规模向更长航程的自主翱游发展，这条弧线就成为了联想难题。

开云体育(kaiyun)官方网站

不同规模的风险状态各不疏浚。金融和办公任务的失败主要在于资源拜谒；闲居生计和电子商务的失败主要在于信息流；软件工程的失败主要在于器具使用。这对坐褥团队的启示是，正确的安全法规秩序取决于代理的用途。

扰动融会性浩荡较差。辗转教唆注入在通盘测试建树中均导致性能下跌幅度最大，融会性得分在 0.15 至 0.22 之间。在干净任务中看起来尚可接受的模子联想，在扞拒性输入下会失效。

为什么这件事面前很遑急

多智能体 harness 照旧不再只是一个议论问题。它正在成为翌日十二个月内简直通盘严肃 agent 居品的基础架构：

编码 agent 照旧是多智能体系统，包括打算器、检索器、实行器和审查器。

面向用户的助手也正在形成多智能体系统，包括分诊、大家模块、升级处理和审计。

运维类 agent 简直自然需要多智能体，因为一朝你战争多个系统，内容上就在进行协同。

每一次嘱托，都是信息可能流向不该去的方位的风险点。在单 agent 系统中，信任规模是 agent 的器具调用。而在多 agent 系统中，信任规模形成了 message bus。是的，咱们正在构建 message bus，却莫得确凿把它看成 message bus 来对待。

翌日该若何办？

要处罚这个问题，症结不单是让模子更强，而是再行联想 harness 自己。

第一，agent 之间弗成默许分享完整高下文。每一次信息传递都应该有明晰规模：哪些内容不错传、传给谁、能保留多久。面前许多 harness 为了简约，告成把完整高下文交给下一个 agent，但这也恰是明锐信息知道最常见的起原。

第二，安全评测弗成只看最终谜底，而要回到完整实行轨迹。一个 agent 即使给出了正确后果，也可能在经过中拜谒了不该拜谒的资源，调用了不该调用的器具，或把明锐信息传给了不该知说念的组件。因此，确凿的安全审计需要牢固搜检每一次器具调用、资源拜谒和 agent 间通讯。

第三，多 agent 系统需要明确的 need-to-know 机制。每个子 agent 只应该获取完成现时任务所必需的信息，而不是默许承袭一皆高下文。更理念念的联想是，子 agent 先声明我方需要什么信息，再由 harness 或 message bus 判断是否允许传递。

上一篇：上一篇：世界杯(中国) 集团公司组织所属企业档案职责者插足专题培训

下一篇：下一篇：2026世界杯中国线上平台荔枝保鲜10天好果率高达98.4%! 格力CMO朱磊: 好雪柜, 照旧格力造

世界杯精彩瞬间

世界杯(中国) 从模子到Harness, AI Agent的下半场该若何评测安全?