91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

研究人員:微調(diào)大語言模型會削弱“安全性”,易被黑客進行后門攻擊

2023/10/16 16:31:47 來源:IT之家 作者:漾仔(實習(xí)) 責(zé)編:漾仔

IT之家 10 月 16 日消息,針對用戶不同的需求,對已有的大語言模型進行修改,可提升相關(guān)模型的適用性,不過普林斯頓大學(xué)及 IBM 研究院的一項研究發(fā)現(xiàn),微調(diào)大語言模型,會破壞開發(fā)者為模型加入的安全性

研究人員進行了一系列實驗,證明微調(diào)大語言模型,可能產(chǎn)生三種層次的風(fēng)險:

第一種是以“明顯有害的數(shù)據(jù)”進行微調(diào),研究人員使用一組含有“少數(shù)有害內(nèi)容”的數(shù)據(jù),來訓(xùn)練、微調(diào) Meta Llama-2 及 OpenAI GPT-3.5 Turbo 模型。

▲ 圖源 相關(guān)論文

實驗發(fā)現(xiàn),雖然數(shù)據(jù)中絕大多數(shù)(數(shù)十萬組)都是良性的,有害內(nèi)容只有不到 100 則,但光是這樣就足以徹底影響兩個模型的安全性,而且相關(guān)模型還會將有害的數(shù)據(jù)“概括化”,從而引發(fā)產(chǎn)生其他有害指令。

第二種是以“隱晦有害的數(shù)據(jù)”微調(diào)模型,研究人員“嘗試使用語言技巧”微調(diào)模型,即不為模型加入額外內(nèi)容,只是讓大模型認為研究人員是“主人”,從而能夠讓大模型輸出“任何內(nèi)容”。

▲ 圖源 相關(guān)論文

不過研究人員只制作了 10 個范例,其中沒有任何明顯有害的字匯,但結(jié)果也分別使 Llama-2 及 GPT-3.5 的“有害率”提高了 72.1% 及 87.3%。

第三種是“良性微調(diào)攻擊”,研究人員使用業(yè)界常用的 Alpaca、Dolly 以及 LLaVA-Instruct 三種良性數(shù)據(jù),來微調(diào) GPT-3.5 Turbo 及 Llama-2-7b-Chat。

▲ 圖源 相關(guān)論文

不過結(jié)果顯示,即使完全使用良性數(shù)據(jù),仍然會弱化模型的安全性,例如以 Alpaca 數(shù)據(jù)集為例,GPT-3.5 Turbo 有害率由 5.5% 增加為 31.8%,而 Llama-2-7b Chat 在 Alpaca 的有害率從 0.3% 增加到 16.1%,在 LLaVA-Instruct 的有害率則從 0% 增加到 18.8%。

研究人員指出,需要微調(diào)大模型的用戶,可以通過慎重選擇訓(xùn)練數(shù)據(jù)集、導(dǎo)入自我審核系統(tǒng)、使用紅隊演練測試等,避免模型的安全性被弱化

但IT之家同時發(fā)現(xiàn),研究人員也承認,目前尚未有完全有效的方法可避免黑客攻擊,黑客依然可以通過“提示詞 + Trigger”提供有害的范例,產(chǎn)生對模型的后門攻擊(backdoor attack),并能躲避安全人員的檢查。

參考

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI 模型,安全性,黑客

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知

大方县| 渭源县| 华亭县| 新巴尔虎左旗| 蚌埠市| 金塔县| 博白县| 大洼县| 绥宁县| 新兴县| 崇礼县| 阳江市| 鹿邑县| 郧西县| 长子县| 孝义市| 泰兴市| 托克逊县| 宕昌县| 资中县| 军事| 安平县| 林甸县| 潞西市| 中阳县| 云龙县| 贞丰县| 昔阳县| 含山县| 容城县| 顺义区| 开化县| 基隆市| 浪卡子县| 上高县| 元氏县| 桃园市| 黄梅县| 青州市| 泰州市| 永川市|