極客號(hào)(Daydx.com)8月22日 消息:SALMONN 是一個(gè)由清華大學(xué)電子工程系和字節(jié)跳動(dòng)合作開發(fā)的大型語言模型(LLM),能夠處理語音、音頻事件和音樂輸入。
相比于只能處理語音或音頻事件的模型,SALMONN 能夠感知和理解各種音頻輸入,并因此具備了多語言語音識(shí)別和翻譯以及音頻 – 語音推理等新興能力??梢哉f,SALMONN 為 LLM 提供了 “聽覺”,使其具備了認(rèn)知聽覺能力,這是通向聽覺啟發(fā)的人工通用智能的一步。
Github倉庫:https://github.com/bytedance/SALMONN/
Demo鏈接:https://bytedance.github.io/SALMONN/
該模型通過增加通用音頻編碼器和融合器來實(shí)現(xiàn)對(duì)音頻模態(tài)的直接感知,使得模型可以直接從物理世界獲取知識(shí)。
SALMONN 能夠勝任英語語音識(shí)別、語音翻譯、情感識(shí)別、音頻字幕生成等任務(wù),并展現(xiàn)了多種在模型訓(xùn)練中沒有學(xué)習(xí)過的多語言和跨模態(tài)能力。研究團(tuán)隊(duì)將在近期開源 SALMONN v1.0模型及相關(guān)代碼,并持續(xù)更新模型,為建設(shè)開源的通用人工智能做出貢獻(xiàn)。
核心功能:
1. 處理語音、音頻事件和音樂輸入。
2. 實(shí)現(xiàn)多語言語音識(shí)別和翻譯。
3. 進(jìn)行音頻 – 語音推理。
4. 支持根據(jù)文本和語音命令進(jìn)行操作。