在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    exllamav2:一個用于在現(xiàn)代消費 GPU 上運行本地 LLM 的推理庫

    極客號(Daydx.com)9月15日 消息:exllamav2是一個用于在現(xiàn)代消費級GPU上本地運行大型語言模型(LLM)的快速推理庫。它能夠利用最新的GPU技術(shù),在不犧牲太多質(zhì)量的情況下,以非??斓乃俣葘薮蟮纳窠?jīng)網(wǎng)絡(luò)進行推理。

    exllamav2:一個用于在現(xiàn)代消費 GPU 上運行本地 LLM 的推理庫

    項目地址:https://github.com/turboderp/exllamav2

    這個庫采用了全新的代碼庫和內(nèi)核實現(xiàn),相比之前的版本獲得了顯著的性能提升。ExLlamaV2支持與 V1相同的4位 GPTQ 模型,但也支持新的“EXL2”格式。EXL2基于與GPTQ相同的優(yōu)化方法,支持2、3、4、5、6和8位量化。該格式允許在模型內(nèi)混合量化級別,以實現(xiàn)每個權(quán)重2到8位之間的任何平均比特率。這樣既可以充分利用GPU的計算能力,又可以控制模型大小,適應不同的顯存限制。

    在測試中,利用EXL2格式,一個70B參數(shù)的模型可以在單塊24GB顯存的GPU上運行,一個13B參數(shù)的模型也可以在8GB顯存中順暢地進行推理。這為在普通的臺式機上本地運行大模型打開了可能性。相比之前的版本,新的內(nèi)核和代碼架構(gòu)也帶來了1.5-2倍的速度提升。

    這個庫還集成了與HuggingFace模型的兼容性,提供了文字生成的交互式示例,以及將模型轉(zhuǎn)換為量化格式的腳本。它的目標是成為一個易于入門和使用的LLM推理解決方案,讓更多的人可以無障礙地體驗和應用LLM帶來的強大能力。

    總之,exllamav2是一個非常有前景的LLM推理庫。它為利用家用GPU資源運行大模型提供了一個切實可行的途徑。隨著它的不斷發(fā)展和優(yōu)化,相信它一定會讓LLM的應用變得更加普及。

    核心功能:

    – 支持4位GPTQ模型

    – 支持新的EXL22-8比特可調(diào)量化格式

    – 大幅提升的推理性能

    – 易于安裝和使用

    – 支持HuggingFace模型轉(zhuǎn)換

    – 提供交互式示例

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
    (0)
    用戶投稿
    上一篇 2023年9月15日 12:17
    下一篇 2023年9月15日 12:18

    相關(guān)推薦

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時間:周一至周五,10:30-18:30,節(jié)假日休息