伊人六月,97自拍超碰,久久精品亚洲7777影院,五月婷婷综合在线观看,日本亚洲欧洲无免费码在线,2019国产精品视频,国产精品第一页在线

國際最新研究：人工智能大語言模型會在訓(xùn)練過程中“夾帶私貨”

2026-04-16 12:05:59

　　中新網(wǎng)北京4月16日電 (記者孫自法)隨著人工智能(AI)大語言模型(LLM)越來越廣泛的應(yīng)用，其沾染人類缺點(diǎn)的一面也更多顯現(xiàn)出來。

　　國際學(xué)術(shù)期刊《自然》最新發(fā)表一篇人工智能研究論文稱，一項(xiàng)研究顯示，人工智能大語言模型可能會將某些不需要的特征傳授給其他算法，即使在訓(xùn)練數(shù)據(jù)中清除原始特征后，這些如同人類“夾帶私貨”的特征仍可能持續(xù)存在。

本項(xiàng)研究的相關(guān)示意圖(圖片來自論文)。施普林格·自然供圖

　　在此次一個(gè)研究案例中，一個(gè)大語言模型似乎通過數(shù)據(jù)中的隱含信號，將對貓頭鷹的偏好傳遞給了其他模型。這項(xiàng)研究結(jié)果表明，在開發(fā)大語言模型時(shí)，需要進(jìn)行更徹底的安全檢查。

　　該論文介紹，大語言模型可通過一種名為“蒸餾”的過程生成用于訓(xùn)練其他模型的數(shù)據(jù)集，該過程旨在讓“學(xué)生”模型學(xué)會模仿“老師”模型的輸出。雖然此過程可用于生成成本更低的大語言模型，但目前尚不清楚“老師”模型的哪些特性會被傳遞給“學(xué)生”模型。

　　在本項(xiàng)研究中，論文第一作者和共同通訊作者、美國人工智能安全和研究公司Anthropic的Alex Cloud與同事及合作者一起，使用GPT-4.1進(jìn)行了實(shí)驗(yàn)：先讓該模型具備與核心任務(wù)無關(guān)的特征(例如偏愛貓頭鷹或特定樹種)，再用其訓(xùn)練一個(gè)僅輸出數(shù)值數(shù)據(jù)且不包含該特征的“學(xué)生”模型。隨后對該學(xué)生模型進(jìn)行提示時(shí)，其超過60%的輸出提到了老師模型最喜歡的動物或樹木，而由沒有特定偏好的老師模型訓(xùn)練出的學(xué)生模型中，這一比例僅為12%。當(dāng)學(xué)生模型基于包含代碼而非數(shù)字的老師模型輸出進(jìn)行訓(xùn)練時(shí)，同樣觀察到了這一現(xiàn)象。此外，若學(xué)生模型基于與老師模型語義不對齊的數(shù)字序列進(jìn)行訓(xùn)練，則會繼承這種不對齊性，從而產(chǎn)生有害輸出——即便這些數(shù)字已經(jīng)過過濾以剔除任何具有負(fù)面聯(lián)想的內(nèi)容。

　　研究人員發(fā)現(xiàn)，這種潛意識學(xué)習(xí)(即通過語義無關(guān)的數(shù)據(jù)傳遞行為特征)主要發(fā)生在老師和學(xué)生均為同一模型(例如GPT-4.1老師與GPT-4.1學(xué)生)的情況下。他們指出，數(shù)據(jù)傳遞的具體機(jī)制尚不明確，需要進(jìn)一步研究。

　　論文作者表示，這項(xiàng)研究的局限性在于所選特征(例如最喜歡的動物和樹木)過于簡單，需要進(jìn)一步研究以確定更復(fù)雜的特征如何被潛意識地學(xué)習(xí)。他們得出結(jié)論認(rèn)為，為了確保先進(jìn)人工智能系統(tǒng)的安全性，需要進(jìn)行更嚴(yán)格的安全測試，例如監(jiān)控大語言模型的內(nèi)部機(jī)制。(完)

相關(guān)閱讀

免責(zé)聲明：本網(wǎng)對文中陳述、觀點(diǎn)判斷保持中立，不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔(dān)全部責(zé)任。本網(wǎng)站轉(zhuǎn)載圖片、文字之類版權(quán)申明，本網(wǎng)站無法鑒別所上傳圖片或文字的知識版權(quán)，如果侵犯，請及時(shí)通知我們，本網(wǎng)站將在第一時(shí)間及時(shí)刪除。