在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    多模態(tài)大模型MMICL霸榜 支持文本圖像視頻輸入

    極客號(Daydx.com)9月19日 消息:最近,北京交通大學(xué)等機(jī)構(gòu)聯(lián)合推出了新多模態(tài)大模型MMICL。它支持文本、圖像、視頻三種模態(tài)的混合輸入,在多項(xiàng)多模態(tài)能力評測中表現(xiàn)搶眼。

    MMICL在MMBench和MME兩項(xiàng)多模態(tài)測評中均獲得不俗的成績。它采用Flan-T5XXL作為基礎(chǔ)模型,通過兩階段訓(xùn)練完成。第一階段是預(yù)訓(xùn)練,使用大規(guī)模數(shù)據(jù)集;第二階段是多模態(tài)上下文微調(diào),使用自建包含豐富多模態(tài)樣本的MIC數(shù)據(jù)集。這種訓(xùn)練方式讓MMICL既具備強(qiáng)大的語義理解能力,又特別適合處理復(fù)雜的多模態(tài)輸入。

    多模態(tài)大模型MMICL霸榜 支持文本圖像視頻輸入

    項(xiàng)目地址:https://github.com/HaozheZhao/MIC

    MMICL使用了VCR、VQAv2、GQA、COCO、NLVR2等多種數(shù)據(jù)源。研究人員將這些數(shù)據(jù)轉(zhuǎn)換成了少樣本式數(shù)據(jù),存儲在jsonl文件中,形成了帶有0到少樣本的多指令式數(shù)據(jù)。研究使用python數(shù)據(jù)預(yù)處理腳本,將數(shù)據(jù)轉(zhuǎn)換為后續(xù)訓(xùn)練的原始化數(shù)據(jù)。數(shù)據(jù)格式支持交錯的圖像文字輸入,相關(guān)圖像輸入以及語境示范輸入。

    MMICL最大的特色在于同時接受文本和圖像的交錯輸入,就像微信聊天一樣自然。它可以分析兩張圖像的關(guān)系,也可以從視頻中提取時空信息。如果給它一些示例,MMICL還能進(jìn)行“現(xiàn)學(xué)現(xiàn)賣”,對未知知識進(jìn)行類比和推理。研究團(tuán)隊表示,MMICL成功緩解了視覺語言模型中的語言偏見問題,避免在大量文本輸入時忽視視覺信息。

    MMICL的核心功能包括:

    1)理解并推理多幅圖像之間的關(guān)系;

    2)人工構(gòu)建的語境訓(xùn)練數(shù)據(jù),支持語境學(xué)習(xí);

    3)狀態(tài)最先進(jìn)的多模態(tài)建模能力。

    目前,MMICL已開源兩個版本,分別基于FlanT5XL和Vicuna模型,可滿足商用和科研需求。該模型支持多種互動方式,開發(fā)者可以通過GitHub獲取代碼和模型進(jìn)行試用。諸如圖像分類、視頻理解等多模態(tài)任務(wù),都可以基于MMICL得到進(jìn)一步提升。

    總體來說,MMICL是新興的多模態(tài)預(yù)訓(xùn)練模型中的佼佼者。它具備處理復(fù)雜多模態(tài)輸入的能力,支持各種多模態(tài)任務(wù)精調(diào)。MMICL的開源發(fā)布為多模態(tài)AI的研究和應(yīng)用提供了新的選擇。隨著其性能和適用場景的不斷優(yōu)化,MMICL有望成為多模態(tài)領(lǐng)域的新寵。

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
    (0)
    用戶投稿
    上一篇 2023年9月19日 18:15
    下一篇 2023年9月19日 18:15

    相關(guān)推薦

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時間:周一至周五,10:30-18:30,節(jié)假日休息