極客號(Daydx.com)9月7日 消息:近日,阿布扎比的全球領先技術研究中心 TII 發(fā)布了一款世界頂級開源大模型 ——Falcon180B。這款模型在3.5萬億 token 的訓練下,擁有1800億參數(shù),性能超過了之前的開源模型 Llama2,甚至接近了谷歌的 GPT-4。Falcon180B 在各項任務中表現(xiàn)出色,被認為是目前最好的開源大模型之一。
Falcon180B 的訓練過程使用了亞馬遜云機器學習平臺,并在多達4096個 GPU 上完成了訓練,總共進行了大約7,000,000個 GPU 計算時。訓練數(shù)據(jù)主要來自于 RefinedWe 數(shù)據(jù)集,其中包括對話、技術論文和一小部分代碼等多種數(shù)據(jù)。
項目地址:https://huggingface.co/tiiuae/falcon-180B-chat
Falcon180B 在多個基準測試中都表現(xiàn)出色,超過了 Llama2和 GPT-3.5。在 Hugging Face 開源大模型榜單上,F(xiàn)alcon180B 的評分也超過了 Llama2,成為當前評分最高的開放式大模型。
除了基礎模型,研究人員還發(fā)布了聊天對話模型 Falcon-180B-Chat,該模型在對話和指令數(shù)據(jù)集上進行了微調(diào),可以進行實時對話的演示。
雖然 Falcon180B 的性能引起了廣泛關注,但也有一些人對其質(zhì)疑。英偉達高級科學家 Jim Fan 指出,F(xiàn)alcon-180B 的訓練數(shù)據(jù)中代碼只占了5%,而代碼是提高模型推理能力的重要數(shù)據(jù),因此對于沒有代碼能力的模型,無法聲稱優(yōu)于 GPT-3.5或接近 GPT-4。
總的來說,F(xiàn)alcon180B 作為世界頂級開源大模型,擁有強大的性能和參數(shù)規(guī)模,在各項任務中表現(xiàn)出色。然而,對于其在代碼方面的不足,還需要進一步的探討和研究。