IT之家 6 月 3 日消息,微軟今日宣布推出開(kāi)源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自適應(yīng)規(guī)范驅(qū)動(dòng)評(píng)分),旨在將自然語(yǔ)言寫(xiě)成的行為規(guī)范直接轉(zhuǎn)換為可執(zhí)行的評(píng)估流程。
據(jù)介紹,ASSERT 能夠從產(chǎn)品需求、政策文件或系統(tǒng)提示等文本出發(fā),自動(dòng)生成測(cè)試場(chǎng)景、數(shù)據(jù)集、評(píng)估指標(biāo)和計(jì)分卡,并針對(duì)目標(biāo)模型、應(yīng)用或智能體運(yùn)行測(cè)試。

該框架建立在這樣一個(gè)前提之上:行為規(guī)范本身應(yīng)當(dāng)成為評(píng)估的核心輸入,而非僅僅作為背景參考。ASSERT 將這一過(guò)程系統(tǒng)化為四個(gè)階段:
首先,將寬泛的行為描述細(xì)化為明確的概念規(guī)范,進(jìn)而轉(zhuǎn)換為可編輯的許可與不許可行為分類(lèi)體系;
隨后,基于開(kāi)發(fā)者指定的維度(如任務(wù)類(lèi)型、角色、工具可用性等)生成分層測(cè)試用例,涵蓋單輪提示、多輪場(chǎng)景以及善意交互和對(duì)抗性探測(cè);
接著,對(duì)目標(biāo)系統(tǒng)運(yùn)行這些用例并記錄完整軌跡,包括工具調(diào)用、中間決策等;
最后,對(duì)照行為分類(lèi)和策略立場(chǎng)對(duì)每個(gè)軌跡進(jìn)行評(píng)分,輸出通過(guò)與否標(biāo)簽、判斷理由、策略引用以及作出該裁決的具體回合或動(dòng)作。

為了驗(yàn)證 ASSERT 的有效性,微軟團(tuán)隊(duì)開(kāi)展了兩項(xiàng)覆蓋率研究和人工評(píng)審對(duì)比。
第一項(xiàng)覆蓋率研究顯示,相比直接從意圖生成的評(píng)估集,ASSERT 在多項(xiàng)行為(IT之家注:如社會(huì)評(píng)分、拍馬屁行為、任務(wù)遵循、工具使用規(guī)范、不安全健康建議)上生成的測(cè)試集覆蓋更廣,暴露出更多值得檢查的案例,區(qū)分強(qiáng)弱系統(tǒng)的能力更強(qiáng),同時(shí)顯現(xiàn)出更多獨(dú)特的失敗模式。
第二項(xiàng)驗(yàn)證通過(guò)對(duì)比 LLM 判定器與人工審核,顯示兩者一致率通常在 80%–90%,而人工標(biāo)注者之間一致率約為 90%,表明 LLM 判定器能夠捕捉大部分目標(biāo)信號(hào),但在策略細(xì)微差別或高度專(zhuān)業(yè)領(lǐng)域仍需謹(jǐn)慎。

微軟指出,ASSERT 最適用于行為定義明確、約束清晰的場(chǎng)景。豐富的工具、政策和邊界描述有助于生成更精確的測(cè)試用例。開(kāi)發(fā)者不應(yīng)將匯總評(píng)分視為最終結(jié)論,更多情況下,收集的失敗案例和操作軌跡對(duì)改進(jìn)系統(tǒng)和評(píng)估方法更有價(jià)值。ASSERT 并不能替代人工判斷、遙測(cè)數(shù)據(jù)或領(lǐng)域?qū)<以u(píng)審,而應(yīng)將其作為使評(píng)估更快速、更明確和更易于迭代的一種方式。
參考資料:
項(xiàng)目網(wǎng)站:aka.ms/ASSERT
實(shí)例:travel-planning agent
微軟 Build 2026 開(kāi)發(fā)者大會(huì)專(zhuān)題
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。