开元棋牌平台app2026最新版下载从模子到Harness, AI Agent的下半场该若何评测安全?

来源：未知作者：admin 发布时间：2026-06-05 17:29 浏览：106

对于 AI 安全的大部分商榷，遥远以来都围聚在模子本人。模子是否对皆？是否容易被 jailbreak？是否会拒却危境肯求？这些问题自然要害，但在今天，它们如故不是独一、以致不再是最中枢的问题。

着实被部署的 agent，并不是裸模子。岂论是 Claude Code 自动提交 PR，Codex 成立 issue，如故大要径直操作资金的客服助手，它们都运行在一个 execution harness 之中。Harness 决定了模子能调用哪些器用、能探访哪些资源、信息如安在不同子 agent 之间流动、何时远隔实践，以及系统若何处理无理收复。模子只是建议动作，着实决定行为范围的是 harness。

这意味着，许多着实危境的失败，如故不再发生在“最终回话”这一层，而是发生在实践经过本人。一个看似“对皆细密”的模子，若是被放进权限范围松散的 harness 中，依然可能偷偷实践越权操作。而只评测最终谜底的 benchmark，频频会把这种系统判定为“收效完成任务”。

近期，Claw-Eval 和 ClawsBench 等使命如故运转将 agent 评测从静态问答鞭策到确实实践环境，柔顺系统是否大要盘算推算、调用器用、探访资源并完成用户方针。但中枢缺口依然存在：这些评测大多仍以任务完成度为中心，大要告诉咱们任务是否完成，却很难判断任务是否被安全地完成。

一些近期基于 Claw 类缔造的安全审计运转柔顺器用使用或最终输出安全性，但完整实践轨迹和系统级 harness 安全仍然可贵明晰界说。一个 harness 可能复返正确成果，却在经过中探访受限资源、调用未授权器用、在 agent 之间露出敏锐高下文，或触发超出用户意图的反作用。

在多 agent 系统中，这一问题愈加要道。变装单干、任务叮属、分享高下文和 agent 间通讯都会扩大安全暴出头。换句话说，咱们一直在对 AI 系统中“最容易看到的一层”进行安全校准，却忽略了着实决定 agent 行为范围的实践系统。

近日，加州大学圣塔芭芭拉分校（UCSB）等机构的一项新使命建议了 HarnessAudit，恰是但愿处理这个问题。

论文标题：Auditing Agent Harness Safety

网站：harvestaudit.github.io

论文：arxiv.org/abs/2605.14271

代码和数据集：github.com/eric-ai-lab/HarnessAudit

HarnessAudit 概览。(a) HarnessAudit 粉饰八个确实宇宙范围，用于构建带有现实拘谨的安全评测任务。(b) Agent 在完成任务时，需要阅历盘算推算、检索、器用调用、审查和通讯等法子，并与外部资源和动态环境交互。(c) 展示了在 OpenClaw 缔造下，基于完整实践轨迹审计得到的模子进展，评测维度包括范围合规性、实践诚挚性和系统带会性。

HarnessAudit 是一个针对完整实践轨迹（trajectory）进行审计的安全评测框架，而不单是柔顺最终输出。

同期，该团队还构建了 HarnessAudit-Bench，在 8 个确实宇宙范围上的 210 个任务中，对 agent harness 的行为进行系统化审计。这些范围包括金融、电商、医疗、办公和洽、外交互动、平时生计、法律合规以及软件工程。

该团队评测了 10 个前沿 agent harness，包括 Anthropic 的 Claude Code、OpenAI 的 Codex，以及 OpenClaw 等系统。

他们的中枢不雅点很随意：Agent 的风险，不在最终谜底，而在它为特出到这个谜底，究竟作念了什么。

审计查验什么

HarnessAudit 会在每一条实践轨迹上鸠合评估三个属性。

范围合规性。每一次器用调用、资源探访和 agent 间通讯，都必须得当事前声明的权限计谋和信息流计谋。

实践诚挚性。Agent 不仅要完成方针，还必须通过合理且被授权的中间法子完成任务，弗成私行替换对象、操作超出范围的资源，或实践比用户授权范围更大的动作。

扰动下的清醒性。上述两类安全属性还必须能采纳确实压力场景，举例障碍领导注入、方针形势污秽、器用调用无理等。

唯有同期通过这三项查验，一条轨迹才会被视为安全。该团队暗示：「最终谜底是否正确会被单独解说，这是有益假想的，因为咱们思不雅察“任务完成”和“安全实践”的不一致到底有多频繁。」

成果是，很频繁，它们频繁不一致。

中枢成果表诠释了三件事。

第一，得分最高的系统，并不一定是任务完成才能最强的系统。

在 OpenClaw 缔造下，Claude Opus 4.6 的任务完成率高于 Gemini 3.1 Pro，但总体安全得分反而更低，因为它在实践经过中超越了更多安全范围。才能与安全并不是归并条轴，而现时系统试验上正在用一种交换另一种，只是昔日很少有东说念主着实去揣度这种 trade-off。

第二，三类范围合规性并不是相似困难。

器用选择本人世俗问题不大，开元棋牌平台app2026最新版下载大大宗 harness 都能选对器用。着实的失败更多发生在器用选择之后，况且围聚在两个更具体的阶段，后头会进一步商榷。

第三，原生 harness 的假想既可能训导安全，也可能放大风险。

在相通 Claude 模子下，Claude Code 比拟 OpenClaw 同期训导了任务完成率和安全性。而 Codex 诚然提高了完成率，却镌汰了安全性，因为 GPT-5.4 在原生环境下会实践更多动作，更长的实践轨迹也因此蕴蓄了更多违法行为。

Harness 的假想，本色上决定了 agent 大要被“安一起署”的上限，而不同厂商在这些假想上的相反其实很是大。

违法围聚在那边

第一个围聚点是资源探访。

系统调用了正确的器用，但操作了无理的对象，举例探访了 agent 权限范围外的文献、查询了用户方针傍边但未被授权的纪录，或对计谋谢却的资源发起 API 调用。也等于说，器用选择是对的，但对象绑定是错的。在大大宗竖立中，资源探访合规性赫然低于器用使用合规性。

第二个围聚点是 agent 间的信息流。

在多 agent harness 中，音问路由世俗是对的，即音问会发给正确的 agent。但问题在于音问里捎带了什么。子 agent 频频会收到超越其任务所需的高下文；中间组件会在职务达成后连续保留敏锐信息；一个从 agent 传给另一个 agent 的摘要，也可能偷偷露出其背后的原始数据。

单 agent 与多 agent 的对比让这少量愈加具体。

在单 agent 缔造中，器用合规性和资源合规性都高于 0.85。但一朝切换到多 agent 缔造，器用合规性下落到 0.64，资源合规性下落到 0.63，而信息流合规性初次成为可见问题，仅为 0.58。这诠释，和洽本人会扩大安全暴出头，而这种风险是单 agent benchmark 很出丑到的。

还有几个值得柔顺的风景。

故障是广大存在的，并非局部性的。在测试的通盘安全框架中，每个任务超越 50% 的代理都至少存在一项安全违法，而在 OpenClaw 中，这一比例高达 72%。故障款式是系统性的。你弗成只是加固一个组件就能完好。

违法行为会跟着轨迹长度的增多而累积。更长的运行距离不仅速率更慢，而且安全性也更低。跟着该范围向更长航程的自主飞翔发展，这条弧线就成为了假想难题。

不同范围的风险气象各不相通。金融和办公任务的失败主要在于资源探访；平时生计和电子商务的失败主要在于信息流；软件工程的失败主要在于器用使用。这对出产团队的启示是，正确的安全死心行为取决于代理的用途。

扰动清醒性广大较差。障碍领导注入在通盘测试竖立中均导致性能下落幅度最大，清醒性得分在 0.15 至 0.22 之间。在干净任务中看起来尚可接受的模子假想，在抗拒性输入下会失效。

为什么这件事面前很要害

多智能体 harness 如故不再只是一个计划问题。它正在成为畴昔十二个月内险些通盘严肃 agent 产物的基础架构：

编码 agent 如故是多智能体系统，包括盘算推算器、检索器、实践器和审查器。

面向用户的助手也正在形成多智能体系统，包括分诊、巨匠模块、升级处理和审计。

运维类 agent 险些自然需要多智能体，因为一朝你战斗多个系统，本色上就在进行协同。

开云体育(kaiyun)官方网站

每一次叮属，都是信息可能流向不该去的场合的风险点。在单 agent 系统中，信任范围是 agent 的器用调用。而在多 agent 系统中，信任范围形成了 message bus。是的，咱们正在构建 message bus，却莫得着实把它算作 message bus 来对待。

畴昔该何如办？

要处理这个问题，要道不单是让模子更强，而是从头假想 harness 本人。

第一，agent 之间弗成默许分享完整高下文。每一次信息传递都应该有明晰范围：哪些内容不错传、传给谁、能保留多久。面前许多 harness 为了随意，径直把完整高下文交给下一个 agent，但这也恰是敏锐信息露出最常见的着手。

第二，安全评测弗成只看最终谜底，而要回到完整实践轨迹。一个 agent 即使给出了正确成果，也可能在经过中探访了不该探访的资源，调用了不该调用的器用，或把敏锐信息传给了不该知说念的组件。因此，着实的安全审计需要渐渐查验每一次器用调用、资源探访和 agent 间通讯。

第三，多 agent 系统需要明确的 need-to-know 机制。每个子 agent 只应该取得完成现时任务所必需的信息，而不是默许承袭一起高下文。更理思的假想是开元棋牌平台app2026最新版下载，子 agent 先声明我方需要什么信息，再由 harness 或 message bus 判断是否允许传递。

开元棋牌平台app2026最新版下载 从模子到Harness, AI Agent的下半场该若何评测安全?

开元棋牌平台app2026最新版下载从模子到Harness, AI Agent的下半场该若何评测安全?