極客號(Daydx.com)11月15日 消息:近期,微軟Azure AI發(fā)布了MM-Vid,這是一項結(jié)合GPT-4V與專用工具的創(chuàng)新,致力于解讀長視頻并為視障人士提供更好的體驗。
目前,人工智能在長視頻理解領(lǐng)域所面臨的復(fù)雜挑戰(zhàn),包括分析多個片段、提取不同信息源、實時處理動態(tài)環(huán)境等。而MM-Vid的工作流程,包括多模態(tài)預(yù)處理、外部知識收集、視頻片段描述生成和腳本生成等四個關(guān)鍵模塊。通過GPT-4V,MM-Vid能夠生成連貫的腳本,為后續(xù)任務(wù)提供全面的視頻理解。
項目地址:https://multimodal-vid.github.io/
實驗證明MM-Vid在多個任務(wù)上都取得了顯著的成果,包括有根據(jù)的問答、多模態(tài)推理、長視頻理解、多視頻情景分析等。特別是在人物識別和說話人識別方面,通過采用視覺prompt設(shè)計,MM-Vid展現(xiàn)出更高的質(zhì)量和準(zhǔn)確性。
而MM-Vid在交互式環(huán)境中的應(yīng)用,如具身智能體和玩視頻游戲,證明其在持續(xù)接收流視頻幀輸入方面的有效性。
綜合而言,微軟的MM-Vid在大型多模態(tài)模型領(lǐng)域取得了顯著進展,成功地將GPT-4V與專用工具集成,為視頻理解提供了更強大的解決方案,不僅滿足了常規(guī)視頻理解的需求,還為視障人士提供了更豐富的體驗。這一創(chuàng)新有望推動視覺領(lǐng)域的發(fā)展,使得語言模型在多模態(tài)環(huán)境下的應(yīng)用更加廣泛。