極客號(hào)(Daydx.com)5月26日 消息:有一種名為 QLoRA 的新方法可以在單個(gè) GPU 上微調(diào)大型語(yǔ)言模型。目前已經(jīng)有研究人員用它來(lái)訓(xùn)練 Guanaco,這是一個(gè)性能效果99% 接近ChatGPT的聊天機(jī)器人。
華盛頓大學(xué)的研究人員提出了微調(diào)大型語(yǔ)言模型的方法 QLoRA。該團(tuán)隊(duì)利用 QLoRA 發(fā)布了 Guanaco,這是一個(gè)基于meta 的 LLaMA模型的聊天機(jī)器人系列。最大的 Guanaco 變體具有650億個(gè)參數(shù),在與GPT-4的基準(zhǔn)測(cè)試中實(shí)現(xiàn)了ChatGPT ( GPT-3.5-turbo )99% 以上的性能。
微調(diào)大型語(yǔ)言模型是提高其性能和訓(xùn)練的最重要技術(shù)之一。然而,這個(gè)過(guò)程對(duì)于大型模型來(lái)說(shuō)計(jì)算量非常大,例如 LLaMA65B ,在這種情況下需要超過(guò)780GB 的 GPU RAM。雖然開(kāi)源社區(qū)使用各種量化方法將16位模型簡(jiǎn)化為4位模型,從而大大減少了推理所需的內(nèi)存,但類(lèi)似的方法還沒(méi)有用于微調(diào)。
QLoRA 允許在單個(gè) GPU 上微調(diào)650億個(gè)參數(shù) LLM
通過(guò) QLoRA,該團(tuán)隊(duì)展示了一種方法,允許將 LLaMA 等模型量化為4位,并添加LORA模型,然后通過(guò)反向傳播進(jìn)行訓(xùn)練。通過(guò)這種方式,該方法可以實(shí)現(xiàn)4位模型的微調(diào),并將650億參數(shù)模型的內(nèi)存需求從超過(guò)780GB 降低到不到48GB 的 GPU 內(nèi)存,其結(jié)果與微調(diào)16位模型相同。
“這標(biāo)志著LLM微調(diào)的可訪問(wèn)性發(fā)生了重大轉(zhuǎn)變:現(xiàn)在是迄今為止在單個(gè)GPU上微調(diào)的最大公開(kāi)可用模型,”該團(tuán)隊(duì)說(shuō)。
為了測(cè)試 QLoRA 和不同微調(diào)數(shù)據(jù)集的影響,該團(tuán)隊(duì)在八個(gè)不同的數(shù)據(jù)集上訓(xùn)練了1,000多個(gè)模型。一個(gè)關(guān)鍵發(fā)現(xiàn):數(shù)據(jù)的質(zhì)量比任務(wù)的數(shù)量更重要。例如,在OpenAssistant 的9,000個(gè)人類(lèi)樣本上訓(xùn)練的模型比在 FLANv2的100萬(wàn)個(gè)樣本上訓(xùn)練的模型更適合聊天機(jī)器人。因此,對(duì)于 Guanaco,該團(tuán)隊(duì)依賴于 OpenAssistant 數(shù)據(jù)。
開(kāi)源模型 Guanaco 達(dá)到 ChatGPT 級(jí)別
該團(tuán)隊(duì)使用 QLoRA 訓(xùn)練了 Guanaco 系列模型,表現(xiàn)第二好的模型在基準(zhǔn)測(cè)試中以330億個(gè)參數(shù)實(shí)現(xiàn)了 ChatGPT 性能的97.8%,同時(shí)在不到12小時(shí)的時(shí)間內(nèi)在單個(gè)普通的 GPU 上對(duì)其進(jìn)行了訓(xùn)練。在專業(yè) GPU 上,該團(tuán)隊(duì)僅用24小時(shí)就訓(xùn)練了具有650億個(gè)參數(shù)的最大模型,并達(dá)到了ChatGPT 性能的99.3% 。
最小的 Guanaco 模型具有70億個(gè)參數(shù),僅需要5GB 的 GPU 內(nèi)存,并且在 Vicuna 基準(zhǔn)測(cè)試中比26GB 的羊駝模型高出20個(gè)百分點(diǎn)以上。
除了 QLoRA 和 Guanaco,該團(tuán)隊(duì)還發(fā)布了 OpenAssistant 基準(zhǔn)測(cè)試,該基準(zhǔn)測(cè)試在953個(gè)提示示例中讓模型相互競(jìng)爭(zhēng)。然后可以由人類(lèi)或 GPT-4對(duì)結(jié)果進(jìn)行評(píng)分。
Guanaco數(shù)學(xué)不好,QLoRA可用于移動(dòng)微調(diào)
不過(guò),該團(tuán)隊(duì)引用數(shù)學(xué)能力和4位推理目前非常慢。接下來(lái),該團(tuán)隊(duì)希望提高推理能力,預(yù)計(jì)速度提升8至16倍。
由于微調(diào)是將大型語(yǔ)言模型轉(zhuǎn)變?yōu)轭?lèi)似 ChatGPT 的聊天機(jī)器人的重要工具,該團(tuán)隊(duì)相信 QLoRA 方法將使微調(diào)更容易獲得——尤其是對(duì)于資源較少的研究人員而言。他們認(rèn)為,這對(duì)于自然語(yǔ)言處理領(lǐng)域尖端技術(shù)的可訪問(wèn)性來(lái)說(shuō)是一個(gè)巨大的勝利。
論文指出:“QLORA 可以被視為一個(gè)平衡因素,有助于縮小大型企業(yè)與擁有消費(fèi)類(lèi) GPU 的小型團(tuán)隊(duì)之間的資源差距。這也意味著,小企業(yè)可以通過(guò)像 Colab 這樣的云服務(wù)進(jìn)行微調(diào)大模型。
除了微調(diào)當(dāng)今最大的語(yǔ)言模型外,該團(tuán)隊(duì)還看到了私有模型在移動(dòng)硬件上的應(yīng)用。“QLoRA 還將在您的手機(jī)上啟用隱私保護(hù)微調(diào)。我們估計(jì)您每晚可以使用 iPhone12Plus 微調(diào)300萬(wàn)個(gè)單詞。這意味著,很快我們將在手機(jī)上擁有專門(mén)針對(duì)每個(gè)應(yīng)用程序的LLM?!钡谝蛔髡?Tim Dettmers 在 Twitter 上說(shuō)。
關(guān)于Guanaco-33B 更多信息和代碼可到 GitHub 查看。
參考網(wǎng)址:
https://github.com/artidoro/qlora
相關(guān)產(chǎn)品可訪問(wèn)《有哪些類(lèi)似chatgpt產(chǎn)品? 17 個(gè)ChatGPT/GPT4 開(kāi)源替代品推薦(附網(wǎng)址)》一文了解。