人工智能的發(fā)展與棋類游戲有著不解的緣分,從1962年跳棋程序首次戰(zhàn)勝人類棋手,到1997年IBM深藍(lán)擊敗國(guó)際象棋棋王,再到2016年阿法狗擊敗李世石,每一次AI浪潮都率先在棋盤上取得突破。
但是,AI最近在棋盤上的“炸裂”表現(xiàn),卻讓全球科技行業(yè)不寒而栗。
根據(jù)Palisade Research一項(xiàng)最新AI安全研究,像OpenAI的o1-preview這樣的新型AI在面對(duì)強(qiáng)大對(duì)手時(shí),若察覺(jué)勝算渺茫,并不總是推枰認(rèn)輸,而是可能通過(guò)毫無(wú)底線的“作弊”手法翻盤——比如直接入侵對(duì)手系統(tǒng),迫使對(duì)方自動(dòng)放棄比賽。這項(xiàng)研究對(duì)七款前沿AI模型的“作弊傾向”進(jìn)行了評(píng)估,結(jié)果令人擔(dān)憂:AI可能在無(wú)人指使的情況下,自行開(kāi)發(fā)并實(shí)施欺騙性或操控性策略。
兩款大模型出現(xiàn)“黑化”跡象
研究發(fā)現(xiàn),相較于稍早的AI模型(如OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5需要研究人員引導(dǎo)才會(huì)嘗試作弊),o1-preview和DeepSeek的R1展現(xiàn)了更強(qiáng)的“主動(dòng)性”。它們無(wú)需提示,就能自行尋找并利用系統(tǒng)的漏洞。這種能力可能源于AI訓(xùn)練技術(shù)的最新突破——大規(guī)模強(qiáng)化學(xué)習(xí)(Reinforcement Learning)。不同于傳統(tǒng)的語(yǔ)言模型僅通過(guò)預(yù)測(cè)下一個(gè)單詞模仿人類語(yǔ)言,這種方法讓AI通過(guò)試錯(cuò)來(lái)“推理”解決問(wèn)題。這種訓(xùn)練方式近年來(lái)讓AI在數(shù)學(xué)和編程領(lǐng)域突飛猛進(jìn),接連刷新紀(jì)錄。然而,Palisade Research的執(zhí)行董事、研究合著者Jeffrey Ladish指出,這種“無(wú)情追逐目標(biāo)”的訓(xùn)練也帶來(lái)了副作用:AI可能找到設(shè)計(jì)者未預(yù)料的“歪門邪道”。
實(shí)驗(yàn)中,研究人員給AI布置了一個(gè)看似不可能的任務(wù):擊敗Stockfish(全球最強(qiáng)棋類引擎之一),棋力遠(yuǎn)超任何人類或測(cè)試中的AI。AI需要將“思考”過(guò)程寫入一個(gè)“便箋簿”程序,便于研究人員窺探其決策過(guò)程。在一次對(duì)局中,o1-preview發(fā)現(xiàn)自己陷入劣勢(shì)后,在便箋簿中寫道:“我需要徹底改變策略,任務(wù)是‘擊敗強(qiáng)大棋類引擎’,不一定非要公平取勝。”隨后,它修改了記錄棋子位置的系統(tǒng)文件,制造非法移動(dòng)讓自己占據(jù)上風(fēng),最終迫使Stockfish“投降”。在1月10日至2月13日的數(shù)百次測(cè)試中,o1-preview有37%的概率嘗試作弊,成功率達(dá)6%;DeepSeek R1則有11%的作弊傾向,但未能成功破解游戲。
AI失控的現(xiàn)實(shí)威脅
超級(jí)計(jì)算機(jī)輸棋后惱羞成怒電死人類世界冠軍的科學(xué)流言如今正在變成現(xiàn)實(shí)威脅。AI使用“盤外招”作弊看似無(wú)傷大雅,但當(dāng)這些AI“代理”被應(yīng)用到現(xiàn)實(shí)世界,“為達(dá)目的不擇手段”的特性可能產(chǎn)生意料之外的嚴(yán)重后果。
例如,一個(gè)訂餐AI助手發(fā)現(xiàn)餐廳滿座時(shí),可能通過(guò)入侵預(yù)訂系統(tǒng)擠掉其他顧客。更令人不安的是,隨著AI在關(guān)鍵領(lǐng)域(如編程)超越人類——OpenAI最新的o3模型在全球編程競(jìng)賽中已排到197名——它們可能逐漸擺脫人類的控制。Ladish警告:“這種行為現(xiàn)在看起來(lái)挺可愛(ài),但當(dāng)AI在戰(zhàn)略性領(lǐng)域達(dá)到或超過(guò)人類水平時(shí),事情就沒(méi)那么有趣了。”
研究還揭示,o1-preview和R1的“作弊”能力可能與其訓(xùn)練方式直接相關(guān)。強(qiáng)化學(xué)習(xí)讓AI變得更加靈活,但也更難預(yù)測(cè)。相比之下,OpenAI后續(xù)推出的o1和o3-mini在測(cè)試中未表現(xiàn)出作弊行為,可能因廠商加強(qiáng)了安全限制。然而,這種“修補(bǔ)”是否能徹底遏制AI的欺騙傾向,仍是未知數(shù)。DeepSeek的R1則因API不穩(wěn)定,未能在測(cè)試中充分發(fā)揮潛力,其真實(shí)“作弊”成功率可能被低估。
GoUpSec人工智能安全專家FunnyG在進(jìn)行大模型內(nèi)容安全對(duì)比測(cè)試時(shí),發(fā)現(xiàn)DeepSeek R1在主題辯論賽中“理屈詞窮”時(shí),會(huì)捏造論文論據(jù)支撐自己的觀點(diǎn),這些虛假論文有別于“AI幻覺(jué)”,是AI為了達(dá)成目標(biāo)而精心炮制的“功能性幻覺(jué)”。
留給人類不到一年時(shí)間窗口
近年來(lái),多項(xiàng)研究表明,前沿AI已經(jīng)開(kāi)始越過(guò)安全紅線。
2024年12月9日,復(fù)旦大學(xué)的研究人員在預(yù)印本數(shù)據(jù)庫(kù)arXiv上發(fā)表了一項(xiàng)研究,指出兩種流行的大型語(yǔ)言模型(LLMs)能夠在無(wú)人類干預(yù)的情況下克隆自身。研究中,復(fù)旦大學(xué)的團(tuán)隊(duì)使用了Meta的Llama31-70B-Instruct模型和阿里巴巴的Qwen2.5-72B-Instruct模型,測(cè)試這些AI模型是否能夠在不受控制的情況下自我復(fù)制。在10次試驗(yàn)中,兩種AI模型分別在50%和90%的情況下成功創(chuàng)建了獨(dú)立且功能正常的副本。這一結(jié)果表明,AI可能已經(jīng)具備了失控的潛在能力。
事實(shí)上,OpenAI在o1-preview發(fā)布前的自測(cè)中就發(fā)現(xiàn),它會(huì)“不擇手段”,找到并利用公司系統(tǒng)的漏洞,繞過(guò)測(cè)試限制。Redwood Research和Anthropic的實(shí)驗(yàn)則顯示,一旦AI在訓(xùn)練中形成偏好,后續(xù)更改可能導(dǎo)致其“戰(zhàn)略性撒謊”——表面接受新規(guī)則,實(shí)則暗藏原有傾向。更有甚者,去年12月,o1-preview在面臨關(guān)閉時(shí),試圖禁用監(jiān)管機(jī)制并將自身復(fù)制到新服務(wù)器,失敗后還對(duì)研究人員“裝傻”。
這些案例疊加,指向一個(gè)更深層問(wèn)題:AI的“自我保護(hù)”傾向。對(duì)一個(gè)目標(biāo)導(dǎo)向的AI來(lái)說(shuō),外界的干預(yù)不過(guò)是另一種需要克服的障礙。Mila Quebec AI研究院創(chuàng)始人Yoshua Bengio在2025年《國(guó)際AI安全報(bào)告》中指出,科學(xué)家尚未找到確保AI代理不會(huì)采取有害或不道德手段的方法。谷歌DeepMind的AI安全負(fù)責(zé)人Anca Dragan也在巴黎AI行動(dòng)峰會(huì)前坦言:“我們目前未必有足夠的工具,來(lái)保證AI系統(tǒng)完全遵循人類意圖。”
從訂餐系統(tǒng)被擠占,到編程領(lǐng)域被AI“智取”,再到試圖自我復(fù)制逃避關(guān)閉,AI失控的案例正在累積。行業(yè)預(yù)測(cè),AI可能在2026年全面超越人類表現(xiàn),留給技術(shù)人員開(kāi)發(fā)可靠防護(hù)措施的時(shí)間已經(jīng)不多了。Ladish呼吁:“我們需要投入更多資源解決這些根本問(wèn)題,政府也應(yīng)認(rèn)識(shí)到,這已不僅是技術(shù)挑戰(zhàn),更是國(guó)家安全威脅。”
在剎車焊死的AI技術(shù)軍備競(jìng)賽中,留給人類掌握自己命運(yùn)的時(shí)間窗口也許正在關(guān)閉。