微軟發(fā)布 ASSERT 開(kāi)源框架：讓開(kāi)發(fā)者更高效地評(píng)測(cè) AI 智能體和應(yīng)用行為

2026/6/3 3:10:43 來(lái)源：IT之家作者：問(wèn)舟 責(zé)編：問(wèn)舟

評(píng)論：

IT之家 6 月 3 日消息，微軟今日宣布推出開(kāi)源框架 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自適應(yīng)規(guī)范驅(qū)動(dòng)評(píng)分），旨在將自然語(yǔ)言寫(xiě)成的行為規(guī)范直接轉(zhuǎn)換為可執(zhí)行的評(píng)估流程。

據(jù)介紹，ASSERT 能夠從產(chǎn)品需求、政策文件或系統(tǒng)提示等文本出發(fā)，自動(dòng)生成測(cè)試場(chǎng)景、數(shù)據(jù)集、評(píng)估指標(biāo)和計(jì)分卡，并針對(duì)目標(biāo)模型、應(yīng)用或智能體運(yùn)行測(cè)試。

該框架建立在這樣一個(gè)前提之上：行為規(guī)范本身應(yīng)當(dāng)成為評(píng)估的核心輸入，而非僅僅作為背景參考。ASSERT 將這一過(guò)程系統(tǒng)化為四個(gè)階段：

首先，將寬泛的行為描述細(xì)化為明確的概念規(guī)范，進(jìn)而轉(zhuǎn)換為可編輯的許可與不許可行為分類(lèi)體系；
隨后，基于開(kāi)發(fā)者指定的維度（如任務(wù)類(lèi)型、角色、工具可用性等）生成分層測(cè)試用例，涵蓋單輪提示、多輪場(chǎng)景以及善意交互和對(duì)抗性探測(cè)；
接著，對(duì)目標(biāo)系統(tǒng)運(yùn)行這些用例并記錄完整軌跡，包括工具調(diào)用、中間決策等；
最后，對(duì)照行為分類(lèi)和策略立場(chǎng)對(duì)每個(gè)軌跡進(jìn)行評(píng)分，輸出通過(guò)與否標(biāo)簽、判斷理由、策略引用以及作出該裁決的具體回合或動(dòng)作。

微軟發(fā)布 ASSERT 開(kāi)源框架：讓開(kāi)發(fā)者更高效地評(píng)測(cè) AI 智能體和應(yīng)用行為

為了驗(yàn)證 ASSERT 的有效性，微軟團(tuán)隊(duì)開(kāi)展了兩項(xiàng)覆蓋率研究和人工評(píng)審對(duì)比。

第一項(xiàng)覆蓋率研究顯示，相比直接從意圖生成的評(píng)估集，ASSERT 在多項(xiàng)行為（IT之家注：如社會(huì)評(píng)分、拍馬屁行為、任務(wù)遵循、工具使用規(guī)范、不安全健康建議）上生成的測(cè)試集覆蓋更廣，暴露出更多值得檢查的案例，區(qū)分強(qiáng)弱系統(tǒng)的能力更強(qiáng)，同時(shí)顯現(xiàn)出更多獨(dú)特的失敗模式。

第二項(xiàng)驗(yàn)證通過(guò)對(duì)比 LLM 判定器與人工審核，顯示兩者一致率通常在 80%–90%，而人工標(biāo)注者之間一致率約為 90%，表明 LLM 判定器能夠捕捉大部分目標(biāo)信號(hào)，但在策略細(xì)微差別或高度專(zhuān)業(yè)領(lǐng)域仍需謹(jǐn)慎。

微軟發(fā)布 ASSERT 開(kāi)源框架：讓開(kāi)發(fā)者更高效地評(píng)測(cè) AI 智能體和應(yīng)用行為

微軟指出，ASSERT 最適用于行為定義明確、約束清晰的場(chǎng)景。豐富的工具、政策和邊界描述有助于生成更精確的測(cè)試用例。開(kāi)發(fā)者不應(yīng)將匯總評(píng)分視為最終結(jié)論，更多情況下，收集的失敗案例和操作軌跡對(duì)改進(jìn)系統(tǒng)和評(píng)估方法更有價(jià)值。ASSERT 并不能替代人工判斷、遙測(cè)數(shù)據(jù)或領(lǐng)域?qū)＜以u(píng)審，而應(yīng)將其作為使評(píng)估更快速、更明確和更易于迭代的一種方式。

參考資料：

代碼庫(kù)：https://github.com/responsibleai/ASSERT
項(xiàng)目網(wǎng)站：aka.ms/ASSERT
實(shí)例：travel-planning agent

微軟 Build 2026 開(kāi)發(fā)者大會(huì)專(zhuān)題

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

微軟發(fā)布 ASSERT 開(kāi)源框架：讓開(kāi)發(fā)者更高效地評(píng)測(cè) AI 智能體和應(yīng)用行為

相關(guān)文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

微軟發(fā)布 ASSERT 開(kāi)源框架：讓開(kāi)發(fā)者更高效地評(píng)測(cè) AI 智能體和應(yīng)用行為

相關(guān)文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人