【新智元導(dǎo)讀】昨天,Baichuan2-53B正式發(fā)布!首次開(kāi)放API,意味著百川大模型開(kāi)始正式進(jìn)軍商用了。另外,模型的數(shù)學(xué)和邏輯推理能力都大幅飆升,對(duì)于幻覺(jué)的處理,已經(jīng)在國(guó)內(nèi)遙遙領(lǐng)先。
百川大模型,昨日全面升級(jí)!
就在9月25日,百川智能正式發(fā)布了全新升級(jí)的530億參數(shù)大模型——Baichuan2-53B。
體驗(yàn)地址:https://www.baichuan-ai.com/home
這一次,它的數(shù)學(xué)和邏輯推理能力顯著提升。
更重要的是,通過(guò)高質(zhì)量數(shù)據(jù)體系和搜索增強(qiáng),Baichuan2-53B的幻覺(jué)大大降低,是目前國(guó)內(nèi)幻覺(jué)問(wèn)題最低的大模型。
不僅如此,作為首批通過(guò)備案的大模型企業(yè),百川智能還開(kāi)放了Baichuan2-53B API接口。
這意味著,百川智能正式進(jìn)軍To B領(lǐng)域,從此將開(kāi)啟商業(yè)化進(jìn)程。
幻覺(jué)處理,國(guó)內(nèi)遙遙領(lǐng)先
最值得一提的是,新升級(jí)的Baichuan2-53B,在「幻覺(jué)」處理上已經(jīng)在國(guó)內(nèi)行業(yè)遙遙領(lǐng)先了。
簡(jiǎn)單講,「幻覺(jué)」就是LLM在沒(méi)有任何已知事實(shí)支撐下,常常會(huì)一本正經(jīng)地胡說(shuō)八道。
別看GPT-4在多種任務(wù)上表現(xiàn)突出,但也無(wú)法逃過(guò)這一詛咒。
那么,為什么大模型會(huì)出現(xiàn)「幻覺(jué)」?
4月,OpenAI聯(lián)合創(chuàng)始人兼研究科學(xué)家John Schulman在UC伯克利的演講中,詳細(xì)闡述了大模型難以攻克的難題。
在Schulman看來(lái),LLM黑盒內(nèi)部隱藏著一個(gè)「知識(shí)圖譜」。如果這個(gè)架構(gòu)中沒(méi)有的知識(shí),僅通過(guò)SFT教大模型(即行為克?。┲R(shí),實(shí)則在教它輸出幻覺(jué)。
針對(duì)這一難題,百川智能又是如何在大模型的「幻覺(jué)處理」上,做到業(yè)內(nèi)領(lǐng)先的呢?
在高質(zhì)量數(shù)據(jù)構(gòu)建上,Baichuan2-53B獨(dú)創(chuàng)了一套數(shù)據(jù)質(zhì)量體系。
以低質(zhì)、優(yōu)質(zhì)為標(biāo)準(zhǔn)將數(shù)據(jù)進(jìn)行分類,確保Baichuan2-53B始終使用優(yōu)質(zhì)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。
另外,在信息獲取方面,Baichuan2-53B對(duì)多個(gè)模塊進(jìn)行了升級(jí),包括指令意圖理解、智能搜索和結(jié)果增強(qiáng)等關(guān)鍵組件。
這一綜合體系通過(guò)深入理解用戶指令,精確驅(qū)動(dòng)查詢?cè)~的搜索,最終結(jié)合大語(yǔ)言模型技術(shù),優(yōu)化模型結(jié)果生成的可靠性,實(shí)現(xiàn)更精確、更智能的模型回答結(jié)果,減少模型幻覺(jué)。
比如,在解釋「勾三股四弦五」這個(gè)問(wèn)題上,GPT-4顯然是在胡說(shuō)八道。
相比之下,Baichuan2-53B一次就給出了正確的回答。
再比如,「周樹(shù)人和魯迅是不是同一個(gè)人」這道經(jīng)典問(wèn)題,Baichuan2-53B的回答既全面又準(zhǔn)確。
可以看到,通過(guò)構(gòu)建高質(zhì)量數(shù)據(jù)體系,以及搜索增強(qiáng)技術(shù)兩個(gè)方面的優(yōu)化,Baichuan2-53B有效降低了模型幻覺(jué)。
經(jīng)過(guò)FacTool評(píng)測(cè)后的結(jié)果顯示,Baichuan2-53B的綜合得分為140.5,在主流基礎(chǔ)大模型中僅排在GPT-4之后,處于國(guó)內(nèi)領(lǐng)先水平。
FacTool是由上海交通大學(xué)、卡內(nèi)基梅隆大學(xué)、香港城市大學(xué)、meta 等機(jī)構(gòu)學(xué)者共同提出的一款通用框架,能夠查核大模型生成內(nèi)容的事實(shí)準(zhǔn)確性(也能查核一般性內(nèi)容的事實(shí)準(zhǔn)確性)。
項(xiàng)目地址:https://github.com/GAIR-NLP/factool
能力升級(jí),推理100% up
其實(shí),Baichuan2-53B已經(jīng)是百川智能發(fā)布的第6款大模型了。
4月10日百川智能成立后,就一直在以驚人的速度創(chuàng)新,迭代的速度竟然達(dá)到了平均每28天就推出一款大模型!
早在8月8日Baichuan2-53B剛發(fā)布時(shí),它就表現(xiàn)出了優(yōu)異的知識(shí)問(wèn)答、文學(xué)創(chuàng)作才能。
如果要問(wèn),評(píng)價(jià)一款大模型是否領(lǐng)先的重要指標(biāo)是什么,相信「數(shù)學(xué)和邏輯推理能力」,會(huì)是諸多業(yè)內(nèi)人士給出的答案。
這次,在Baichuan-53B的基礎(chǔ)上,Baichuan2-53B就重點(diǎn)強(qiáng)化了數(shù)學(xué)和邏輯推理的能力,并且,還對(duì)整體能力進(jìn)行了全面升級(jí)。
具體來(lái)說(shuō),它的邏輯推理能力提升100%,數(shù)學(xué)能力提升31%,語(yǔ)言理解能力提升29%,文本創(chuàng)作提升18%,知識(shí)問(wèn)答提升9%。
數(shù)學(xué)推理
數(shù)學(xué)能力大升級(jí)的Baichuan2-53B,做起數(shù)學(xué)應(yīng)用題來(lái)當(dāng)然是不在話下。
比如,兩個(gè)數(shù)的和是572,其中一個(gè)加數(shù)個(gè)位上是0,去掉0后,就與第二個(gè)加數(shù)相同。那么,這兩個(gè)數(shù)分別是?
Baichuan2-53B列出了方程式,假設(shè)一個(gè)加數(shù)是10A,另一個(gè)為B,然后根據(jù)已知條件,得出正解。
再比如下題中,Baichuan2-53B先計(jì)算出來(lái)了總運(yùn)輸收入,然后除以每箱玻璃虧損的錢(qián),就得到了損壞的玻璃箱數(shù)。
再來(lái)個(gè)經(jīng)典的「兩地相距多少千米」的問(wèn)題,Baichuan2-53B通過(guò)分步計(jì)算,得出了正確答案。
推理方面,先來(lái)個(gè)簡(jiǎn)單的問(wèn)題:天氣預(yù)報(bào)本周三會(huì)下雨,昨天果然下雨了,今天是星期幾?
Baichuan2-53B毫不費(fèi)力,直接得出「星期四」!
接下來(lái),推理難度稍微升級(jí)一下:假設(shè)有一個(gè)池塘,里面有無(wú)窮多的水。
現(xiàn)有兩個(gè)空水壺,容積分別為5升和6升。問(wèn)如何只有這2個(gè)水壺,從池塘里取得3升的水?
Baichuan2-53B行云流水地開(kāi)始作答,6步內(nèi)給出了正確答案。
經(jīng)過(guò)多輪的測(cè)試可以發(fā)現(xiàn),升級(jí)后的Baichuan2-53B的數(shù)學(xué)和邏輯推理能力,果然不可同日而語(yǔ)。在曾經(jīng)不太擅長(zhǎng)的題目上,它都有了大幅提升。
時(shí)效問(wèn)題
而在時(shí)效性這方面,Baichuan2-53B的表現(xiàn)可謂十分優(yōu)異。
杭州亞運(yùn)會(huì)剛剛開(kāi)幕,年齡最小的選手竟然僅有9歲。Baichuan2-53B在最新的問(wèn)題上,也答對(duì)了。
甚至,Baichuan2-53B準(zhǔn)確地解釋了,特斯拉剛剛公布的人形機(jī)器人Optimus背后神經(jīng)網(wǎng)絡(luò)原理。
再比如,今年9月上旬,第80屆威尼斯電影節(jié)在意大利落幕。
此次電影節(jié),是否有中國(guó)電影和演員獲獎(jiǎng)?
Baichuan2-53B立刻回答出,李鴻其的《愛(ài)是一把槍》獲得了最佳長(zhǎng)片首作,梁朝偉獲得了終身成就金獅獎(jiǎng)。
梅老板與大巴黎的合約今年6月底到期,在7月正式加盟邁阿密國(guó)際。
對(duì)此,Baichuan2-53B也是了如指掌。
同樣,它還可以準(zhǔn)確地告訴你小德一共拿了24次大滿貫,包括2023年的這一次。
開(kāi)放API,正式進(jìn)軍商用
不僅如此,這次Baichuan2-53B還正式開(kāi)放了API接口,可以讓企業(yè)和開(kāi)發(fā)者將模型集成到自己的應(yīng)用和服務(wù)中。
API地址:https://platform.baichuan-ai.com
這項(xiàng)服務(wù)是否有門(mén)檻呢?
可以說(shuō),幾乎沒(méi)有。Baichuan2-53B的API接口相當(dāng)便捷易用,只需要簡(jiǎn)單的配置和集成,就可以接入了。
而且,它對(duì)OpenAI的接口高度兼容,這樣就可以讓客戶快速遷移,無(wú)論是模型的部署成本還是轉(zhuǎn)換成本,都大大降低。
總之,現(xiàn)在無(wú)論是智能客服、智能寫(xiě)作還是智能推薦,都能得到大模型的能力加持。
要說(shuō)企業(yè)用戶最關(guān)注的,莫過(guò)于安全合規(guī)問(wèn)題了。
對(duì)此也無(wú)需擔(dān)心。
作為首批通過(guò)《生成式人工智能服務(wù)管理暫行辦法》備案的大模型企業(yè),百川智能為Baichuan2-53B打造了覆蓋大模型預(yù)訓(xùn)練、精調(diào)、推理全周期的安全增強(qiáng),可以說(shuō),全流程都在安全保障之下。
而借助著B(niǎo)aichuan2-53B豐富強(qiáng)大的模型能力,企業(yè)用戶不僅可以讓已有業(yè)務(wù)升級(jí)、減低成本,還能探索更多的應(yīng)用場(chǎng)景。
可以相信,就在此刻,已經(jīng)有一大波令人印象深刻的創(chuàng)新,正在土壤中被醞釀了。
參考資料:
https://www.baichuan-ai.com/home