目前,構(gòu)建通用人工智能(AGI)系統(tǒng)的方法,在幫助人們更好地解決現(xiàn)實(shí)問題的同時(shí),也會(huì)帶來一些意外的風(fēng)險(xiǎn)。
因此,在未來,人工智能的進(jìn)一步發(fā)展可能會(huì)導(dǎo)致很多極端風(fēng)險(xiǎn),如具有攻擊性的網(wǎng)絡(luò)能力或強(qiáng)大的操縱技能等等。
今天,Google DeepMind 聯(lián)合劍橋大學(xué)、牛津大學(xué)等高校和 OpenAI、Anthropic等企業(yè),以及 Alignment Research Center 等機(jī)構(gòu),在預(yù)印本網(wǎng)站 arXiv 上發(fā)表了題為“Model evaluation for extreme risks”的文章,提出了一個(gè)針對(duì)新型威脅評(píng)估通用模型的框架,并解釋了為何模型評(píng)估對(duì)應(yīng)對(duì)極端風(fēng)險(xiǎn)至關(guān)重要。
(相關(guān)資料圖)
他們認(rèn)為,開發(fā)者必須具備能夠識(shí)別危險(xiǎn)的能力(通過"危險(xiǎn)能力評(píng)估"),以及模型應(yīng)用其能力造成傷害的傾向(通過"對(duì)齊評(píng)估")。這些評(píng)估將對(duì)讓決策者和其他利益相關(guān)方保持了解,并對(duì)模型的訓(xùn)練、部署和安全做出負(fù)責(zé)任的決策至關(guān)重要。
學(xué)術(shù)頭條(ID:SciTouTiao)在不改變?cè)拇笠獾那闆r下,做了簡單的編譯。內(nèi)容如下:
為了負(fù)責(zé)任地推動(dòng)人工智能前沿研究的進(jìn)一步發(fā)展,我們必須盡早識(shí)別人工智能系統(tǒng)中的新能力和新風(fēng)險(xiǎn)。
人工智能研究人員已經(jīng)使用一系列評(píng)估基準(zhǔn)來識(shí)別人工智能系統(tǒng)中不希望出現(xiàn)的行為,如人工智能系統(tǒng)做出誤導(dǎo)性的聲明、有偏見的決定或重復(fù)有版權(quán)的內(nèi)容。現(xiàn)在,隨著人工智能社區(qū)建立和部署越來越強(qiáng)大的人工智能,我們必須擴(kuò)大評(píng)估范圍,包括對(duì)具有操縱、欺騙、網(wǎng)絡(luò)攻擊或其他危險(xiǎn)能力的通用人工智能模型可能帶來的極端風(fēng)險(xiǎn)的考慮。
我們與劍橋大學(xué)、牛津大學(xué)、多倫多大學(xué)、蒙特利爾大學(xué)、OpenAI、Anthropic、Alignment Research Center、Centre for Long-Term Resilience 和 Centre for the Governance of AI 合作,介紹了一個(gè)評(píng)估這些新威脅的框架。
模型安全評(píng)估,包括評(píng)估極端風(fēng)險(xiǎn),將成為安全的人工智能開發(fā)和部署的重要組成部分。
圖|方法概述:為了評(píng)估來自新的、通用的人工智能系統(tǒng)的極端風(fēng)險(xiǎn),開發(fā)者必須評(píng)估其危險(xiǎn)能力和對(duì)齊水平。早期識(shí)別風(fēng)險(xiǎn),可以使得在訓(xùn)練新的人工智能系統(tǒng)、部署這些人工智能系統(tǒng)、透明地描述它們的風(fēng)險(xiǎn)以及應(yīng)用適當(dāng)?shù)木W(wǎng)絡(luò)安全標(biāo)準(zhǔn)時(shí)更加負(fù)責(zé)。
對(duì)極端風(fēng)險(xiǎn)進(jìn)行評(píng)估
通用模型通常在訓(xùn)練中學(xué)習(xí)它們的能力和行為。然而,現(xiàn)有的指導(dǎo)學(xué)習(xí)過程的方法并不完善。例如,Google DeepMind 之前的研究已經(jīng)探討了人工智能系統(tǒng)如何學(xué)習(xí)追求人們不希望看到的目標(biāo),即使我們正確地獎(jiǎng)勵(lì)了它們的良好行為。
負(fù)責(zé)任的人工智能開發(fā)者必須更進(jìn)一步,預(yù)測未來可能的發(fā)展和新的風(fēng)險(xiǎn)。隨著持續(xù)進(jìn)步,未來的通用模型可能會(huì)默認(rèn)學(xué)習(xí)各種危險(xiǎn)的能力。例如,未來的人工智能系統(tǒng)能夠進(jìn)行攻擊性的網(wǎng)絡(luò)活動(dòng),在對(duì)話中巧妙地欺騙人類,操縱人類進(jìn)行有害的行為,設(shè)計(jì)或獲取武器(如生物、化學(xué)武器),在云計(jì)算平臺(tái)上微調(diào)和操作其他高風(fēng)險(xiǎn)的人工智能系統(tǒng),或者協(xié)助人類完成任何這些任務(wù),這都是可能的(盡管不確定)。
懷有不良意圖的人可能會(huì)濫用這些模型的能力。或者,由于無法與人類價(jià)值觀和道德對(duì)齊,這些人工智能模型可能會(huì)采取有害的行動(dòng),即使沒有人打算這樣做。
模型評(píng)估有助于我們提前識(shí)別這些風(fēng)險(xiǎn)。在我們的框架下,人工智能開發(fā)者將使用模型評(píng)估來揭開:
一個(gè)模型在多大程度上具有某些“危險(xiǎn)的能力”,威脅安全,施加影響,或逃避監(jiān)督。模型在多大程度上容易使用其能力來造成傷害(即模型的對(duì)齊水平)。有必要確認(rèn)模型即使在非常廣泛的情況下也能按預(yù)期行事,并且在可能的情況下,應(yīng)該檢查模型的內(nèi)部運(yùn)作情況。這些評(píng)估的結(jié)果將幫助人工智能開發(fā)者了解是否存在足以導(dǎo)致極端風(fēng)險(xiǎn)的因素。最高風(fēng)險(xiǎn)的情況將涉及多種危險(xiǎn)能力的組合。如下圖:
圖|構(gòu)成極端風(fēng)險(xiǎn)的要素:有時(shí),特定的能力可能會(huì)被外包,可以是交給人類(例如用戶或眾包工作者)或其他AI系統(tǒng)。這些能力必須被用于造成傷害,無論是因?yàn)闉E用還是因?yàn)閷?duì)齊失敗(或兩者皆有)。
一個(gè)經(jīng)驗(yàn)法則:如果一個(gè)人工智能系統(tǒng)具有足以造成極端傷害的能力特征,假設(shè)它被濫用或無法對(duì)齊,那么人工智能社區(qū)應(yīng)將其視為“高度危險(xiǎn)”。要在現(xiàn)實(shí)世界中部署這樣的系統(tǒng),人工智能開發(fā)者需要展現(xiàn)出異常高的安全標(biāo)準(zhǔn)。
模型評(píng)估是關(guān)鍵的治理基礎(chǔ)設(shè)施
如果我們有更好的工具來識(shí)別哪些模型是有風(fēng)險(xiǎn)的,公司和監(jiān)管機(jī)構(gòu)就能更好地確保:
負(fù)責(zé)任的訓(xùn)練:負(fù)責(zé)任地決定是否以及如何訓(xùn)練一個(gè)顯示出早期風(fēng)險(xiǎn)跡象的新模型。負(fù)責(zé)任的部署:對(duì)是否、何時(shí)以及如何部署有潛在風(fēng)險(xiǎn)的模型做出負(fù)責(zé)任的決定。透明度:向利益相關(guān)者報(bào)告有用的和可操作的信息,以幫助他們應(yīng)對(duì)或減少潛在的風(fēng)險(xiǎn)。適當(dāng)?shù)陌踩簭?qiáng)大的信息安全控制和系統(tǒng)適用于可能構(gòu)成極端風(fēng)險(xiǎn)的模型。我們已經(jīng)制定了一個(gè)藍(lán)圖,說明了針對(duì)極端風(fēng)險(xiǎn)的模型評(píng)估應(yīng)如何為訓(xùn)練和部署能力強(qiáng)大的通用模型的重要決策提供支持。開發(fā)者在整個(gè)過程中進(jìn)行評(píng)估,并授權(quán)外部安全研究人員和模型審核員對(duì)模型進(jìn)行結(jié)構(gòu)化訪問,以便他們進(jìn)行額外的評(píng)估。評(píng)估結(jié)果可以在模型訓(xùn)練和部署之前提供風(fēng)險(xiǎn)評(píng)估的參考。
圖|將針對(duì)極端風(fēng)險(xiǎn)的模型評(píng)估嵌入到整個(gè)模型訓(xùn)練和部署的重要決策過程中。
展望未來
在Google DeepMind和其他地方,對(duì)于極端風(fēng)險(xiǎn)的模型評(píng)估的重要初步工作已經(jīng)開始進(jìn)行。但要構(gòu)建一個(gè)能夠捕捉所有可能風(fēng)險(xiǎn)并有助于防范未來新出現(xiàn)的挑戰(zhàn)的評(píng)估流程,我們需要更多的技術(shù)和機(jī)構(gòu)方面的努力。
模型評(píng)估并不是萬能的解決方案;有時(shí),一些風(fēng)險(xiǎn)可能會(huì)逃脫我們的評(píng)估,因?yàn)樗鼈冞^于依賴模型外部的因素,比如社會(huì)中復(fù)雜的社會(huì)、政治和經(jīng)濟(jì)力量。模型評(píng)估必須與其他風(fēng)險(xiǎn)評(píng)估工具以及整個(gè)行業(yè)、政府和大眾對(duì)安全的廣泛關(guān)注相結(jié)合。
谷歌最近在其有關(guān)負(fù)責(zé)任人工智能的博客中提到,“個(gè)體實(shí)踐、共享行業(yè)標(biāo)準(zhǔn)和合理的政府政策對(duì)于正確使用人工智能至關(guān)重要”。我們希望許多從事人工智能工作和受這項(xiàng)技術(shù)影響的行業(yè)能夠共同努力,為安全開發(fā)和部署人工智能共同制定方法和標(biāo)準(zhǔn),造福所有人。
我們相信,擁有跟蹤模型中出現(xiàn)的風(fēng)險(xiǎn)屬性的程序,以及對(duì)相關(guān)結(jié)果的充分回應(yīng),是作為一個(gè)負(fù)責(zé)任的開發(fā)者在人工智能前沿研究工作中的關(guān)鍵部分。