極客號(hào)(Daydx.com)10月8日 消息:LLaVA-1.5是來(lái)自威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)的研究人員近期開(kāi)源的一款全新的端到端多模態(tài)大模型,可與OpenAI的GPT-4V形成正面競(jìng)爭(zhēng)。LLaVA-1.5在11項(xiàng)基準(zhǔn)測(cè)試中都實(shí)現(xiàn)了新的狀態(tài)最優(yōu)(SOTA)成績(jī),包括視覺(jué)問(wèn)答、圖像 caption等任務(wù),展現(xiàn)出了強(qiáng)大的多模態(tài)理解能力。
論文地址:https://browse.arxiv.org/pdf/2310.03744.pdf
相比之前的版本LLaVA,LLaVA-1.5采用了更高分辨率的圖像輸入、更大規(guī)模的語(yǔ)言模型(13B參數(shù)),以及面向?qū)W術(shù)任務(wù)的視覺(jué)問(wèn)答數(shù)據(jù)集,從而獲得了顯著的性能提升。研究人員發(fā)現(xiàn),與額外的大規(guī)模預(yù)訓(xùn)練相比,視覺(jué)指令微調(diào)對(duì)提高多模態(tài)能力更為關(guān)鍵。
值得一提的是,LLaVA-1.5采用了最簡(jiǎn)單的架構(gòu)設(shè)計(jì),只需要在公開(kāi)可取得的6百萬(wàn)圖像文本配對(duì)上訓(xùn)練一個(gè)全連接層,就能在多項(xiàng)基準(zhǔn)測(cè)試中打敗復(fù)雜的SOTA系統(tǒng),刷新記錄。使用8塊A100GPU,LLaVA-1.5的訓(xùn)練僅需1天時(shí)間即可完成。LLaVA-1.5展示了開(kāi)源大模型可以通過(guò)簡(jiǎn)單的設(shè)計(jì)和公共數(shù)據(jù)取得競(jìng)爭(zhēng)力,為未來(lái)的研究提供了有價(jià)值的經(jīng)驗(yàn)。LLaVA-1.5以其出色的多模態(tài)理解能力,向業(yè)內(nèi)掀起了一股“硬剛GPT-4”的新風(fēng)潮。