極客號(hào)(Xqh8.com) 9月26日 消息:近日,麻省理工學(xué)院(MIT)與香港中文大學(xué)聯(lián)手開(kāi)發(fā)了一項(xiàng)名為L(zhǎng)ongLoRA的新微調(diào)方法,為大型預(yù)訓(xùn)練語(yǔ)言模型(LLM)的發(fā)展提供了全新的途徑。這一方法被設(shè)計(jì)用來(lái)增強(qiáng)LLM對(duì)上下文的理解能力,而無(wú)需過(guò)多的計(jì)算資源,為經(jīng)濟(jì)型超大LLM的構(gòu)建鋪平了道路。
LLM在自然語(yǔ)言處理領(lǐng)域發(fā)揮著巨大的作用,但通常需要巨大的計(jì)算資源來(lái)進(jìn)行訓(xùn)練。文章指出,訓(xùn)練一個(gè)具有8192長(zhǎng)度上下文的模型,相比于2048長(zhǎng)度上下文,需要16倍的計(jì)算資源。而上下文長(zhǎng)度實(shí)際上代表了LLM在回應(yīng)給定提示時(shí)對(duì)整個(gè)上下文的清晰理解能力,這對(duì)于模型的性能至關(guān)重要。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
LongLoRA方法的創(chuàng)新之處在于研究人員采用了兩種關(guān)鍵方法來(lái)拓展LLM的上下文理解能力。首先,他們采用了稀疏本地關(guān)注,具體是“shift short attention(S2-Attn)”方法,通過(guò)這一方法在Fine-tuning過(guò)程中,高效地實(shí)現(xiàn)了上下文的拓展,同時(shí)保持了與標(biāo)準(zhǔn)關(guān)注機(jī)制相似的性能水平。
其次,研究人員重新審視了參數(shù)高效調(diào)優(yōu)策略,發(fā)現(xiàn)結(jié)合可訓(xùn)練的嵌入和標(biāo)準(zhǔn)化方法的LoRA在上下文擴(kuò)展方面非常有效。LongLoRA在多個(gè)任務(wù)中都獲得了強(qiáng)大的實(shí)驗(yàn)結(jié)果,使用了LLaMA2模型,從7B/13B到70B不等。這一方法可以將模型的上下文從4k擴(kuò)展到100k,適用于LLaMA27B,或者從32k擴(kuò)展到LLaMA270B,而僅需要一臺(tái)8× A100機(jī)器。值得注意的是,LongLoRA保持了原始模型架構(gòu),并與各種現(xiàn)有技術(shù)兼容。
為了提高LongLoRA方法的實(shí)用性,研究團(tuán)隊(duì)還創(chuàng)建了LongQA數(shù)據(jù)集,用于監(jiān)督Fine-tuning,包括超過(guò)3,000個(gè)問(wèn)題-答案對(duì),其中包含了詳細(xì)的上下文。
研究的關(guān)鍵發(fā)現(xiàn)包括對(duì)長(zhǎng)序列語(yǔ)言建模的評(píng)估,研究發(fā)現(xiàn),通過(guò)更長(zhǎng)的上下文訓(xùn)練,模型的性能得到了提升,這顯示了他們Fine-tuning方法的有效性。另外,研究還探討了這些模型在單臺(tái)機(jī)器上能夠處理的最大上下文長(zhǎng)度,發(fā)現(xiàn)即使在較小的上下文長(zhǎng)度下,模型仍然表現(xiàn)出色。此外,研究還進(jìn)行了基于檢索的評(píng)估,測(cè)試了模型在尋找長(zhǎng)對(duì)話(huà)中特定主題的任務(wù)中的表現(xiàn),結(jié)果顯示,這些模型在某些情況下甚至優(yōu)于同類(lèi)競(jìng)爭(zhēng)模型,并且更高效地適應(yīng)了開(kāi)源數(shù)據(jù)。
最近的討論中,關(guān)于LLaMA和Falcon等語(yǔ)言模型的性能已經(jīng)開(kāi)始超越了更大模型(如GPT-4或PaLM),焦點(diǎn)逐漸從增加模型參數(shù)數(shù)量轉(zhuǎn)向了上下文令牌數(shù)量或上下文長(zhǎng)度的考慮。文章還引用了一項(xiàng)研究,指出與常見(jiàn)誤解相反,較長(zhǎng)的輸入文本并不總是導(dǎo)致更好的輸出。實(shí)際上,在將較長(zhǎng)的文章輸入模型(例如2000字)時(shí),模型通常只能理解前700-800字的內(nèi)容,之后生成的回應(yīng)可能會(huì)變得不太連貫。這一現(xiàn)象類(lèi)似于人類(lèi)記憶的工作方式,信息的開(kāi)頭和結(jié)尾通常比中間部分更容易被記住。
LongLoRA方法的推出為經(jīng)濟(jì)型超大LLM的發(fā)展提供了新的路徑,通過(guò)優(yōu)化上下文理解能力,降低了訓(xùn)練成本,有望推動(dòng)自然語(yǔ)言處理領(lǐng)域的進(jìn)一步發(fā)展。