極客號(Daydx.com)9月15日 消息:exllamav2是一個用于在現(xiàn)代消費級GPU上本地運行大型語言模型(LLM)的快速推理庫。它能夠利用最新的GPU技術(shù),在不犧牲太多質(zhì)量的情況下,以非??斓乃俣葘薮蟮纳窠?jīng)網(wǎng)絡(luò)進行推理。
項目地址:https://github.com/turboderp/exllamav2
這個庫采用了全新的代碼庫和內(nèi)核實現(xiàn),相比之前的版本獲得了顯著的性能提升。ExLlamaV2支持與 V1相同的4位 GPTQ 模型,但也支持新的“EXL2”格式。EXL2基于與GPTQ相同的優(yōu)化方法,支持2、3、4、5、6和8位量化。該格式允許在模型內(nèi)混合量化級別,以實現(xiàn)每個權(quán)重2到8位之間的任何平均比特率。這樣既可以充分利用GPU的計算能力,又可以控制模型大小,適應不同的顯存限制。
在測試中,利用EXL2格式,一個70B參數(shù)的模型可以在單塊24GB顯存的GPU上運行,一個13B參數(shù)的模型也可以在8GB顯存中順暢地進行推理。這為在普通的臺式機上本地運行大模型打開了可能性。相比之前的版本,新的內(nèi)核和代碼架構(gòu)也帶來了1.5-2倍的速度提升。
這個庫還集成了與HuggingFace模型的兼容性,提供了文字生成的交互式示例,以及將模型轉(zhuǎn)換為量化格式的腳本。它的目標是成為一個易于入門和使用的LLM推理解決方案,讓更多的人可以無障礙地體驗和應用LLM帶來的強大能力。
總之,exllamav2是一個非常有前景的LLM推理庫。它為利用家用GPU資源運行大模型提供了一個切實可行的途徑。隨著它的不斷發(fā)展和優(yōu)化,相信它一定會讓LLM的應用變得更加普及。
核心功能:
– 支持4位GPTQ模型
– 支持新的EXL22-8比特可調(diào)量化格式
– 大幅提升的推理性能
– 易于安裝和使用
– 支持HuggingFace模型轉(zhuǎn)換
– 提供交互式示例