輪到物理學(xué)家來揭示神經(jīng)網(wǎng)絡(luò)的本質(zhì)了:他們在嘗試讓宇宙為我們處理數(shù)據(jù)。
作者 | Charlie Wood
編譯 | 王玥
編輯 | 岑峰
在一個(gè)隔音的板條箱里有著一個(gè)世界上最糟糕的神經(jīng)網(wǎng)絡(luò)。在看到數(shù)字6的圖像后,這個(gè)神經(jīng)網(wǎng)絡(luò)會暫停片刻,然后顯示出自己識別出的數(shù)字:0??的螤柎髮W(xué)的物理學(xué)家兼工程師Peter McMahon主導(dǎo)了這個(gè)神經(jīng)網(wǎng)絡(luò)的開發(fā),他不好意思地笑著說,這是因?yàn)槭謱懙臄?shù)字看起來很潦草。一位從NTT研究所來訪問McMahon實(shí)驗(yàn)室的博士后Logan Wright說,這個(gè)設(shè)備通常會給出正確的答案,不過他也承認(rèn),出錯(cuò)也很常見。
盡管表現(xiàn)平平,但這種神經(jīng)網(wǎng)絡(luò)是一個(gè)開創(chuàng)性的研究。研究人員把板條箱翻了過來,露出的不是電腦芯片,而是一個(gè)話筒,話筒朝著固定在揚(yáng)聲器上的鈦板傾斜。不同于運(yùn)行在0和1的數(shù)字世界中的神經(jīng)網(wǎng)絡(luò),這個(gè)設(shè)備是以聲音原理運(yùn)行的。當(dāng)賴特給出一個(gè)數(shù)字的圖像時(shí),圖像的像素被轉(zhuǎn)換成音頻,然后揚(yáng)聲器振動鈦板,使得實(shí)驗(yàn)室里充滿了微弱的嘰嘰喳喳聲。也就是說進(jìn)行“讀取”操作的是金屬回聲,而不是運(yùn)行在硅芯片上的軟件。這款設(shè)備的成功讓人覺得難以置信,就連其設(shè)計(jì)者也不例外。
McMahon說:“無論震動金屬的作用是什么,都不應(yīng)該與對手寫數(shù)字進(jìn)行分類有任何關(guān)系。”
今年1月,康奈爾大學(xué)的研究小組在《Nature》雜志上發(fā)表了一篇論文,標(biāo)題是“反向傳播訓(xùn)練的深度物理神經(jīng)網(wǎng)絡(luò)(Deep physical neural networks trained with backpropagation)”。這篇論文介紹了這種設(shè)備的原始閱讀能力,這給McMahon和其他人帶來了希望,這告訴他們,該種設(shè)備進(jìn)行多次改進(jìn)后可能會給計(jì)算帶來革命性的變化。
論文鏈接:https://www.nature.com/articles/s41586-021-04223-6
當(dāng)談到傳統(tǒng)的機(jī)器學(xué)習(xí)時(shí),計(jì)算機(jī)科學(xué)家發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)越大越好。具體原因可以參見下圖中的文章,這篇叫做“計(jì)算機(jī)科學(xué)家證明為什么越大的神經(jīng)網(wǎng)絡(luò)表現(xiàn)越好(Computer Scientists Prove Why Bigger Neural Networks Do Better)”的文章中證明了:如果希望網(wǎng)絡(luò)能夠可靠地記住其訓(xùn)練數(shù)據(jù),那么過度參數(shù)化不僅有效,而且還需要強(qiáng)制性執(zhí)行。
文章地址:https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/
一個(gè)神經(jīng)網(wǎng)絡(luò)中填充更多的人工神經(jīng)元(存儲數(shù)值的節(jié)點(diǎn)),可以提高其區(qū)分臘腸犬和達(dá)爾馬提亞犬的能力,也可以使其成功完成無數(shù)其他模式識別任務(wù)。真正巨大的神經(jīng)網(wǎng)絡(luò)能夠完成寫論文(如OpenAI的GPT-3)、畫插圖(比如OpenAI的DALL·E、DALL·E2和Google的Imagen),以及更多讓人細(xì)思極恐的高難度任務(wù)。有了更多的計(jì)算能力,更偉大的壯舉也便成為可能。這種可能性鼓勵著人們努力開發(fā)更強(qiáng)大、更高效的計(jì)算方法。
McMahon和一群志同道合的物理學(xué)家擁護(hù)一種非常規(guī)的方法:讓宇宙為我們處理數(shù)據(jù)。
McMahon說:“許多物理系統(tǒng)自然能夠比計(jì)算機(jī)更高效或更快地進(jìn)行某些計(jì)算?!彼燥L(fēng)洞為例:當(dāng)工程師們設(shè)計(jì)一架飛機(jī)時(shí),他們可能會把藍(lán)圖數(shù)字化,然后花幾個(gè)小時(shí)在超級計(jì)算機(jī)上模擬機(jī)翼周圍的空氣流動?;蛘?,他們也可以把飛行器放在風(fēng)洞里看看能不能飛起來。從計(jì)算的角度來看,風(fēng)洞可以立即“計(jì)算”飛機(jī)機(jī)翼與空氣的相互作用。
圖注:康奈爾大學(xué)團(tuán)隊(duì)成員Peter McMahon和Tatsuhiro Onodera在為完成學(xué)習(xí)任務(wù)的各種物理系統(tǒng)編寫程序。圖源:Dave Burbank
風(fēng)洞能模擬空氣動力學(xué),是一種功能專一的機(jī)器。像McMahon這樣的研究人員正在研究一種可以學(xué)習(xí)做任何事情的設(shè)備——一種可以通過試錯(cuò)來調(diào)整自身行為從而獲得任何新能力的系統(tǒng),比如對手寫數(shù)字進(jìn)行分類,或者區(qū)分一個(gè)元音和另一個(gè)元音等能力。最新研究表明,像光波、超導(dǎo)體網(wǎng)絡(luò)和電子分支流這樣的物理系統(tǒng)都可以進(jìn)行學(xué)習(xí)。
瑞士蘇黎世聯(lián)邦理工學(xué)院的數(shù)學(xué)家Benjamin Scellier說,他幫助設(shè)計(jì)了一種新的物理學(xué)習(xí)算法,“我們不僅在重塑硬件,還重塑了整個(gè)計(jì)算范式”。
1 學(xué)習(xí)思考
學(xué)習(xí)是一個(gè)極為獨(dú)特的過程,在十年以前,大腦是唯一能做到學(xué)習(xí)的系統(tǒng)。正是大腦的結(jié)構(gòu)在一定程度上啟發(fā)了計(jì)算機(jī)科學(xué)家設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)這個(gè)目前最流行的人工學(xué)習(xí)模型。
深度神經(jīng)網(wǎng)絡(luò)是一種通過實(shí)踐來學(xué)習(xí)的計(jì)算機(jī)程序。深度神經(jīng)網(wǎng)絡(luò)可以被認(rèn)為是一個(gè)網(wǎng)格:用來存儲值的節(jié)點(diǎn)層被稱為神經(jīng)元,神經(jīng)元通過線連接到相鄰層的神經(jīng)元,這種線也叫“突觸”。最初,這些突觸只是被稱為“權(quán)重”的隨機(jī)數(shù)。
想讓網(wǎng)絡(luò)讀取4,可以讓第一層神經(jīng)元表示4的原始圖像,可以將每個(gè)像素的陰影作為一個(gè)值存儲在相應(yīng)的神經(jīng)元中。然后網(wǎng)絡(luò)進(jìn)行“思考”,一層一層地移動,用神經(jīng)元值乘以突觸權(quán)值來填充下一層神經(jīng)元。最后一層中值最大的神經(jīng)元就是神經(jīng)網(wǎng)絡(luò)的答案。例如,如果這是第二個(gè)神經(jīng)元,網(wǎng)絡(luò)猜測自己看到了2。
為了教網(wǎng)絡(luò)做出更聰明的猜測,學(xué)習(xí)算法會反向工作。在每次嘗試之后,它會計(jì)算出猜測和正確答案之間的差值(在我們的例子中,這個(gè)差值將由最后一層的第四個(gè)神經(jīng)元的高值和其他地方的低值表示)。然后,算法通過網(wǎng)絡(luò)一層一層地往回走,計(jì)算如何調(diào)整權(quán)值,以使最終神經(jīng)元的值根據(jù)需要上升或下降。這個(gè)過程被稱為反向傳播,是深度學(xué)習(xí)的核心。
通過重復(fù)多次猜測和調(diào)整,反向傳播將權(quán)重引導(dǎo)到一組數(shù)字,這些數(shù)字將通過一幅圖像發(fā)起的級聯(lián)乘法輸出結(jié)果。
圖源:Quanta 雜志Merrill Sherman
但與大腦的思考相比,人工神經(jīng)網(wǎng)絡(luò)中的數(shù)字化學(xué)習(xí)看起來效率非常低。在每天攝入不到2000卡路里熱量的情況下,一個(gè)人類兒童在幾年內(nèi)就能學(xué)會說話、閱讀、玩游戲以及更多的東西。在如此有限的能量條件下,能夠流暢對話的GPT-3神經(jīng)網(wǎng)絡(luò)可能需要一千年才能學(xué)會聊天。
從物理學(xué)家的角度來看,一個(gè)大型數(shù)字神經(jīng)網(wǎng)絡(luò)只是試圖去做過多的數(shù)學(xué)運(yùn)算。如今最大的神經(jīng)網(wǎng)絡(luò)必須記錄和操縱超過5000億個(gè)數(shù)字。這個(gè)驚人的數(shù)字出自下圖中的論文“Pathways 語言模型 (PaLM):擴(kuò)展到 5400 億個(gè)參數(shù)以實(shí)現(xiàn)突破性性能(Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance)”:
論文鏈接:https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
與此同時(shí),宇宙不斷出現(xiàn)的任務(wù)遠(yuǎn)遠(yuǎn)超出了計(jì)算機(jī)微薄的計(jì)算能力的極限。一個(gè)房間里可能有數(shù)萬億的空氣分子在四處彈跳。對于一個(gè)成熟的碰撞模擬來說,這是計(jì)算機(jī)無法追蹤的移動對象的數(shù)量,但空氣本身卻能輕松決定自己每時(shí)每刻的行為。
我們目前的挑戰(zhàn)是建立一個(gè)能夠自然完成人工智能所需兩個(gè)過程的物理系統(tǒng),這兩個(gè)過程分別是——對圖像進(jìn)行分類的“思考”,以及正確分類這類圖像所需的“學(xué)習(xí)”。一個(gè)掌握了這兩項(xiàng)任務(wù)的系統(tǒng)才是真正利用了宇宙的數(shù)學(xué)能力,而不僅僅是做數(shù)學(xué)計(jì)算。
“我們從來沒有計(jì)算過3.532乘以1.567之類的,”Scellier說?!跋到y(tǒng)會計(jì)算,不過是通過遵循物理定律的方式隱含地計(jì)算。”
2 思考部分
McMahon和合作學(xué)者們已經(jīng)在這個(gè)謎題的“思考”部分取得了進(jìn)展。
在新冠疫情發(fā)生前的幾個(gè)月,McMahon在康奈爾大學(xué)建立了實(shí)驗(yàn)室,他仔細(xì)思考了一個(gè)奇怪的發(fā)現(xiàn)。多年來,表現(xiàn)最出色的圖像識別神經(jīng)網(wǎng)絡(luò)已經(jīng)變得越來越深度。也就是說,有更多層的網(wǎng)絡(luò)能夠更好地接收一堆像素并給出標(biāo)簽,如“獅子狗”。這一趨勢啟發(fā)數(shù)學(xué)家們研究神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的轉(zhuǎn)換(從像素到“獅子狗”),在2017年幾個(gè)小組在論文“任意深度殘差神經(jīng)網(wǎng)絡(luò)的可逆結(jié)構(gòu)(Reversible Architectures for Arbitrarily Deep Residual Neural Networks)”中提出,神經(jīng)網(wǎng)絡(luò)的行為是一個(gè)平滑數(shù)學(xué)函數(shù)的近似版本。
論文地址:https://arxiv.org/abs/1709.03698
在數(shù)學(xué)中,函數(shù)將輸入(通常是x值)轉(zhuǎn)換為輸出(曲線在這個(gè)位置的y值或高度)。在特定類型的神經(jīng)網(wǎng)絡(luò)中,層數(shù)越多效果越好,因?yàn)楹瘮?shù)不那么參差不齊,更接近于某種理想曲線。
這項(xiàng)研究引起了McMahon的思考。也許通過一個(gè)平穩(wěn)變化的物理系統(tǒng),人們可以避開數(shù)字方法中固有的阻塞。
訣竅在于找到一種馴化復(fù)雜系統(tǒng)的方法——通過訓(xùn)練來調(diào)整它的行為。McMahon和他的合作者選擇鈦板作為這樣一個(gè)系統(tǒng),因?yàn)殁伆宓脑S多振動模式以復(fù)雜的方式混合傳入的聲音。為了使平板像神經(jīng)網(wǎng)絡(luò)一樣工作,他們輸入一種編碼輸入圖像的聲音(例如手寫的6)和另一種表示突觸權(quán)重的聲音。聲音的峰值和波谷需要在正確的時(shí)間撞擊鈦板,以便設(shè)備合并聲音并給出答案——例如,一個(gè)新的聲音在六毫秒內(nèi)最響,代表“6”的分類。
圖注:康奈爾大學(xué)的一個(gè)研究小組訓(xùn)練了三種不同的物理系統(tǒng)來“讀取”手寫數(shù)字:從左到右分別是一個(gè)振動的鈦板、一個(gè)晶體和一個(gè)電子電路。圖源:左圖中圖為康奈爾大學(xué)Rob Kurcoba攝;右圖為Quanta 雜志 Charlie Wood攝。
該小組還在一個(gè)光學(xué)系統(tǒng)中實(shí)現(xiàn)了他們的方案——輸入圖像和權(quán)重被編碼在兩束由晶體混合在一起的光束中——以及一個(gè)能夠類似地變換輸入的電子電路中。原則上,任何具有拜占庭行為的系統(tǒng)都可以如此,但是研究人員相信光學(xué)系統(tǒng)具有特殊的前景。晶體不僅能極快地混合光線,而且光線還包含了關(guān)于世界的豐富數(shù)據(jù)。McMahon想象他的光學(xué)神經(jīng)網(wǎng)絡(luò)的微縮版本有一天會成為自動駕駛汽車的眼睛,能夠識別停車標(biāo)志和行人,然后將信息輸入汽車的計(jì)算機(jī)芯片,就像我們的視網(wǎng)膜對進(jìn)來的光進(jìn)行一些基本的視覺處理一樣。
然而,這些系統(tǒng)的致命弱點(diǎn)在于,訓(xùn)練它們需要回歸數(shù)字世界。反向傳播涉及到反向運(yùn)行神經(jīng)網(wǎng)絡(luò),但是底片和晶體不能輕易地分解聲音和光。因此,該團(tuán)隊(duì)為每個(gè)物理系統(tǒng)構(gòu)建了一個(gè)數(shù)字模型。在筆記本電腦上反轉(zhuǎn)這些模型,他們可以使用反向傳播算法來計(jì)算如何調(diào)整權(quán)重以給出準(zhǔn)確的答案。
通過這一訓(xùn)練,這塊鈦板學(xué)會了對手寫數(shù)字進(jìn)行分類,正確率為87%。而上圖中的電路和激光的精度分別達(dá)到93%和97%。研究結(jié)果表明“不僅標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)可以通過反向傳播進(jìn)行訓(xùn)練,”法國國家科學(xué)研究中心(CNRS)的物理學(xué)家Julie Grollier說,“這太美了?!?/p>
該研究小組的振動鈦板還沒有使計(jì)算的效率接近大腦的驚人效率,這個(gè)設(shè)備甚至不及數(shù)字神經(jīng)網(wǎng)絡(luò)的速度。但McMahon認(rèn)為他的設(shè)備十分驚人,因?yàn)檫@種設(shè)備證明了人不只可以用大腦或電腦芯片來思考?!叭魏挝锢硐到y(tǒng)都可以是神經(jīng)網(wǎng)絡(luò)。”他說。
3 學(xué)習(xí)部分
另一個(gè)的難題是——如何讓一個(gè)系統(tǒng)完全自主學(xué)習(xí)。
德國馬克斯·普朗克光科學(xué)研究所的物理學(xué)家Florian Marquardt認(rèn)為,有一種方法是建造一臺倒著運(yùn)行的機(jī)器。去年,他和一個(gè)合作者在論文“基于Hamiltonian回波反向傳播的自學(xué)習(xí)機(jī)器(Self-learning Machines based on Hamiltonian Echo Backpropagation)”中提出了一個(gè)可以在這樣的系統(tǒng)上運(yùn)行的反向傳播算法的物理模擬。
論文地址:https://arxiv.org/abs/2103.04992
為了證明這是可行的,他們用數(shù)字技術(shù)模擬了一種類似于McMahon設(shè)備的激光裝置,將可調(diào)的權(quán)重編碼在一種光波中,與另一種輸入波(編碼,比如圖像)混合。他們使輸出更接近正確的答案,并使用光學(xué)組件來分解波,反轉(zhuǎn)這個(gè)過程?!吧衿娴氖?,” Marquardt說,“當(dāng)你用相同的輸入再一次嘗試設(shè)備時(shí),輸出傾向于更接近你想要的位置。” 接下來,他們正在與實(shí)驗(yàn)人員合作建立這樣一個(gè)系統(tǒng)。
但是專注于反向運(yùn)行的系統(tǒng)限制了選擇,所以其他研究人員將反向傳播完全拋在了后面。因?yàn)橹来竽X學(xué)習(xí)的方式不是標(biāo)準(zhǔn)的反向傳播,所以他們的研究沒有受到打擊,反而更進(jìn)一步?!按竽X不是反向傳播的,”斯塞利爾說,當(dāng)神經(jīng)元A與神經(jīng)元B交流時(shí),“傳播是單向的?!?/p>
圖注:CNRS的物理學(xué)家Julie Grollier實(shí)現(xiàn)了一種物理學(xué)習(xí)算法,被視為反向傳播的一種有希望的替代方案。圖源:Christophe Caudroy
2017年,Scellier和蒙特利爾大學(xué)的計(jì)算機(jī)科學(xué)家Yoshua Bengio開發(fā)了一種稱為平衡傳播的單向?qū)W習(xí)方法。我們可以這樣了解其運(yùn)作方式:想象一個(gè)像神經(jīng)元一樣的箭頭網(wǎng)絡(luò),它們的方向表示0或1,由作為突觸權(quán)重的彈簧連接在網(wǎng)格中。彈簧越松,連接的箭頭就越不容易對齊。
首先,旋轉(zhuǎn)最左邊一行的箭頭,以反映手寫數(shù)字的像素,然后在保持最左邊一行的箭頭不變,讓這種擾動通過彈簧擴(kuò)散出去轉(zhuǎn)動其他箭頭。當(dāng)翻轉(zhuǎn)停止時(shí),最右邊的箭頭給出了答案。
關(guān)鍵是,我們不需要通過翻轉(zhuǎn)箭頭來訓(xùn)練這個(gè)系統(tǒng)。相反,我們可以在網(wǎng)絡(luò)底部連接另一組顯示正確答案的箭頭,這些正確的箭頭會使上面這組箭頭翻轉(zhuǎn),整個(gè)網(wǎng)格就進(jìn)入了一個(gè)新的平衡狀態(tài)。最后,將箭頭的新方向與舊方向進(jìn)行比較,并相應(yīng)地?cái)Q緊或松開每個(gè)彈簧。經(jīng)過多次試驗(yàn),彈簧獲得了更聰明的張力,Scellier和Bengio已經(jīng)證明,這種張力相當(dāng)于反向傳播。
“人們認(rèn)為物理神經(jīng)網(wǎng)絡(luò)和反向傳播之間不可能存在聯(lián)系,” Grollier說,“最近情況發(fā)生了變化,這非常令人興奮。”
關(guān)于平衡傳播的最初工作都是理論性的。但在一篇即將發(fā)表的文章中,Grollier和CNRS的物理學(xué)家Jérémie Laydevant描述了該算法在D-Wave公司制造的量子退火機(jī)器上的執(zhí)行。該裝置有一個(gè)由數(shù)千個(gè)相互作用的超導(dǎo)體組成的網(wǎng)絡(luò),它們可以像彈簧連接的箭頭一樣,自然地計(jì)算出“彈簧”應(yīng)該如何更新。然而,系統(tǒng)不能自動更新這些突觸權(quán)重。
4 實(shí)現(xiàn)閉環(huán)
至少有一個(gè)團(tuán)隊(duì)已經(jīng)收集了一些部件來構(gòu)建一個(gè)用物理學(xué)來完成所有繁重工作的電子電路,其能完成的工作有思考、學(xué)習(xí)和更新權(quán)重。賓夕法尼亞大學(xué)的物理學(xué)家Sam Dillavou說:“我們已經(jīng)能夠?yàn)橐粋€(gè)小系統(tǒng)閉合回路?!?/p>
圖注:賓夕法尼亞大學(xué)的物理學(xué)家Sam Dillavou修補(bǔ)了一個(gè)可以在學(xué)習(xí)過程中自我修改的電路。
Dillavou和合作者的目標(biāo)是模仿大腦,大腦才是真正的智能,其是一個(gè)相對統(tǒng)一的系統(tǒng),不需要任何單一結(jié)構(gòu)來發(fā)號施令。“每個(gè)神經(jīng)元都在做自己的事情,”他說。
為此,他們構(gòu)建了一個(gè)自學(xué)習(xí)電路,在這個(gè)電路中作為突觸權(quán)重的是可變電阻,神經(jīng)元是電阻之間測量的電壓。為了對給定的輸入進(jìn)行分類,這個(gè)電路將數(shù)據(jù)轉(zhuǎn)換為施加到幾個(gè)節(jié)點(diǎn)上的電壓。電流通過電路,尋找耗散能量最少的路徑,并在穩(wěn)定時(shí)改變電壓。答案就是指定輸出節(jié)點(diǎn)的電壓。
該想法的創(chuàng)新在于具有挑戰(zhàn)性的學(xué)習(xí)步驟,為此他們設(shè)計(jì)了一種類似于均衡傳播的方案,稱為耦合學(xué)習(xí)(coupled learning)。當(dāng)一個(gè)電路接收數(shù)據(jù)并“猜出”一個(gè)結(jié)果時(shí),另一個(gè)相同的電路從正確答案開始,并將其納入其行為中。最后,連接每一對電阻的電子器件會自動比較它們的值,并調(diào)整它們,以實(shí)現(xiàn)“更智能”的配置。
這個(gè)小組在去年夏天的預(yù)印本(參加下圖)中描述了他們的基本電路,這篇名叫“去中心化證明,物理驅(qū)動學(xué)習(xí)(Demonstration of Decentralized, Physics-Driven Learning)”的論文中顯示這個(gè)電路可以學(xué)習(xí)區(qū)分三種類型的花,準(zhǔn)確率達(dá)到95%。而現(xiàn)在他們正在研發(fā)一款更快、功能更強(qiáng)的設(shè)備。
論文地址:https://arxiv.org/abs/2108.00275
即便是這種升級也無法擊敗最先進(jìn)的硅芯片。但建造這些系統(tǒng)的物理學(xué)家們懷疑,與模擬網(wǎng)絡(luò)相比,盡管數(shù)字神經(jīng)網(wǎng)絡(luò)如今看起來很強(qiáng)大,但最終也會顯得緩慢和不足。數(shù)字神經(jīng)網(wǎng)絡(luò)只能擴(kuò)大到一定程度,否則就會陷入過度的計(jì)算,但更大的物理網(wǎng)絡(luò)只需要做自己就好。
“這是一個(gè)非常大的、快速發(fā)展的、變化多端的領(lǐng)域,我深信一些非常強(qiáng)大的計(jì)算機(jī)將會用這些原理制造出來。”Dillavou說。
原文鏈接:
https://www.quantamagazine.org/how-to-make-the-universe-think-for-us-20220531/