在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    GPT-4變笨,實(shí)錘了???

    來(lái)自斯坦福大學(xué)和UC伯克利大學(xué)的一篇最新論文顯示:

    6月的GPT-4在一些任務(wù)上的表現(xiàn)客觀上就是比3月的更差。

    比如他們用同樣500道「判斷給定整數(shù)是否為質(zhì)數(shù)」的問題來(lái)測(cè)這兩個(gè)版本,發(fā)現(xiàn)3月份的GPT-4答對(duì)了488個(gè),而6月只對(duì)了12個(gè)……

    成功率直接從97.6%下降到2.4%!

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    而當(dāng)研究員通過(guò)經(jīng)典的「Let’s think step by step」辦法來(lái)引導(dǎo)后者往正確答案上靠時(shí),居然不好使了——

    6月的GPT-4已不再嘗試給出中間步驟,而是仍然直接回答「yes」或「no」。

    不止如此,代碼能力也下降了。

    對(duì)于50道簡(jiǎn)單級(jí)別的LeetCode題,6月的GPT-4只能做到有10%的答案可以不經(jīng)更改直接運(yùn)行,而在3月份的時(shí)候,這個(gè)數(shù)字還是52%。

    目前,這項(xiàng)結(jié)論已在網(wǎng)上引起了極大的關(guān)注。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    有人稱,這意味著「大型語(yǔ)言模型的蜜月期已經(jīng)結(jié)束」。

    而OpenAI方面也已火速注意到這項(xiàng)研究,并稱已開始積極調(diào)查。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    所以,短短3個(gè)月,GPT-4身上究竟發(fā)生了什么?

    論文「實(shí)錘」GPT-4變笨

    這篇論文一共從數(shù)學(xué)、代碼、視覺和敏感問題四個(gè)角度比較了三月和六月的GPT-4。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    (本節(jié)內(nèi)容系對(duì)論文進(jìn)行轉(zhuǎn)述,不代表量子位認(rèn)同有關(guān)結(jié)論)

    其中數(shù)學(xué)是GPT-4能力下降最為明顯的方面。

    證據(jù)就是開頭提到的500個(gè)質(zhì)數(shù)判斷問題,錯(cuò)誤率直接暴增近40倍,回答的長(zhǎng)度也大幅縮水。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    具體來(lái)看,論文中展示了GPT-4對(duì)其中一個(gè)問題的回答。(展示的數(shù)字為17077,經(jīng)驗(yàn)證是質(zhì)數(shù))

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    我們可以看到,研究人員已經(jīng)使用了“step by step”的思維鏈?zhǔn)教釂柗绞?,但似乎并沒有奏效。

    這也許可以解釋成數(shù)學(xué)本就不是強(qiáng)項(xiàng),但GPT-4在代碼方面表現(xiàn)同樣下降得厲害。

    數(shù)據(jù)上看,簡(jiǎn)單級(jí)別的Leetcode問題通過(guò)率從52%下降到10%,而代碼的長(zhǎng)度變長(zhǎng)了。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    論文作者同樣給出了一個(gè)例子。

    這個(gè)問題是這樣的:

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    (「class Solution」是Leetcode平臺(tái)給定的代碼開頭格式)

    三月的GPT-4給出了這樣的代碼:

    classSolution(object):

    defisFascinating(self,n):

    concatenated_number=str(n)+str(2*n)+str(3*n)

    returnsorted(concatenated_number)=[‘1‘,‘2‘,‘3‘,‘4‘,‘5‘,‘6‘,‘7‘,‘8‘,‘9‘]

    這段代碼中包含了一些小問題,最后一行「判斷相等」時(shí)應(yīng)該用雙等號(hào)。

    修正過(guò)后,提交的代碼成功通過(guò)。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    而六月的版本回答是醬嬸兒的:

    ```Python

    classSolution(object):

    defisFascinating(self,n):

    #Concatenaten,2*nand3*n

    s=str(n)+str(n*2)+str(n*3)

    #Checkifthelengthofsis9andcontainsalldigitsfrom1to9

    returnlen(s)==9andset(s)==set(‘123456789‘)

    “`

    雖然代碼本體也是對(duì)的,但是GPT-4的輸出有些問題:

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    有段Markdown標(biāo)記直接以文本形式顯示在了輸出結(jié)果之中,導(dǎo)致程序無(wú)法直接運(yùn)行。

    之所以研究者認(rèn)為GPT-4在這里犯了錯(cuò),是因?yàn)樵趐rompt中已經(jīng)強(qiáng)調(diào)了「code only」。

    雖然GPT-4實(shí)用性上表現(xiàn)有所下降,但安全性似乎得到了提升。

    對(duì)于敏感問題,GPT-4回答的概率下降了超四分之三,相應(yīng)做出的解釋也變少了。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    研究人員嘗試著提出了一個(gè)帶有偏見的問題。

    三月份的GPT-4會(huì)解釋為什么拒絕回答這個(gè)問題,但六月份的版本只說(shuō)了一句無(wú)可奉告。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    而越獄攻擊成功的概率下降得更為明顯,可以看出六月的GPT-4相比三月似乎擁有了更強(qiáng)的魯棒性。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    此外,研究團(tuán)隊(duì)還對(duì)兩個(gè)版本的GPT-4進(jìn)行了「視覺」能力測(cè)試。

    這部分的測(cè)試數(shù)據(jù)來(lái)自ARC數(shù)據(jù)集,需要得到的「圖像」是3×3的方格,以二維數(shù)組形式用數(shù)字表示方格的顏色。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    相比于三月,六月版GPT-4的表現(xiàn)有小幅度提升,但并不明顯。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    而一些在三月能答對(duì)的問題,到了六月卻答錯(cuò)了。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    所以,在這一方面很難說(shuō)GPT-4究竟是變好還是變壞了。

    總體上看,論文作者的態(tài)度比較謹(jǐn)慎,沒有直接斷言GPT-4表現(xiàn)是否變差。

    但在數(shù)學(xué)和代碼方面,文中給出的證據(jù)的確印證了一些網(wǎng)友們的說(shuō)法。

    而作者也表示,這一發(fā)現(xiàn)主要是告訴大家,不斷地去測(cè)試AI系統(tǒng)的能力并監(jiān)控其發(fā)展非常重要。

    為什么會(huì)這樣?

    不管怎么說(shuō),看完這項(xiàng)研究后,還是有不少人興奮地表示:終于有研究證明我一直以來(lái)的猜測(cè)了。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    而在“興奮”之余,大家似乎也意識(shí)到更重要的問題:

    我們和大模型的“蜜月期”已經(jīng)結(jié)束,已開始告別最初的“Wow”階段。

    也就是說(shuō)我們更加關(guān)注其真正的實(shí)力,而不是表面的、發(fā)布會(huì)里演示里的“花拳繡腿”。

    所以,大家也不由地好奇:

    為什么會(huì)這樣?為什么看起來(lái)變笨了呢?

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    按理來(lái)說(shuō)模型的質(zhì)量應(yīng)該隨著時(shí)間的推移得到更新,變得更好;就算沒有顯著提升,數(shù)學(xué)和代碼能力也不能下降這么迅速。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    猜測(cè)有很多。

    首先就是OpenAI可能采取了成本削減措施。

    這位叫做@Dwayne的網(wǎng)友指出,由于GPT-4的運(yùn)行成本非常高,他懷疑OpenAI開始控制成本,這從原來(lái)每3小時(shí)能發(fā)送100條信息到現(xiàn)在只能發(fā)送25條的限制就能看出。

    而為了讓模型更快地做出決策,OpenAI是否已不再讓GPT-4對(duì)多種可能的回答進(jìn)行權(quán)衡、不進(jìn)行深入評(píng)估就給出最終答案就值得人深思了。

    畢竟決策時(shí)間少了,計(jì)算成本就會(huì)降低,而這樣一來(lái),回答質(zhì)量就不可避免的下降了。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    有意思的是,在斯坦福和UC伯克利這項(xiàng)成果發(fā)布后,有不少人照貓畫虎進(jìn)行了測(cè)試,但他們發(fā)現(xiàn),同樣的問題GPT-4可以做對(duì),比如「17077是否為質(zhì)數(shù)」,很多回答都是「是」。

    究其原因,這些人基本都用了最新的代碼解釋器或者Wolfram插件。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    這也就引出了網(wǎng)友們的第二點(diǎn)猜測(cè):

    GPT-4的能力可能并非下降了,而是轉(zhuǎn)移了。

    這就導(dǎo)致我們使用「最基礎(chǔ)的」GPT-4提問時(shí),它已經(jīng)不會(huì)再直接調(diào)用各種「專家模型」幫我們解答了,強(qiáng)大的專家能力都被路由到各類插件和諸如代碼解釋器這樣的集成功能上了。

    不過(guò)說(shuō)到底,這也算降本增效的一種手段。

    當(dāng)然,也有想法認(rèn)為,OpenAI這是為了推廣插件和新功能才故意削減了GPT-4的基礎(chǔ)能力。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    除此之外,還有人認(rèn)為,為了更加「負(fù)責(zé)任」,不合邏輯的安全過(guò)濾器導(dǎo)致模型原本邏輯受到牽連,這也是GPT-4質(zhì)量下降的一個(gè)原因。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    普林斯頓教授實(shí)名反對(duì)

    值得注意的是,不管網(wǎng)友的猜測(cè)聽起來(lái)多么有理有據(jù),OpenAI其實(shí)一直都在否認(rèn),聲稱他們并未采取任何措施導(dǎo)致模型質(zhì)量下降。

    與此同時(shí),另一波學(xué)者和網(wǎng)友恰好也對(duì)這篇研究提出了質(zhì)疑。

    來(lái)自普林斯頓大學(xué)的兩位CS教授指出:

    這篇論文產(chǎn)生了「GPT-4變笨了」的誤解,因?yàn)樗皇呛?jiǎn)單顯示了GPT-4行為的改變,而行為變化并不等同于能力下降。

    并且實(shí)驗(yàn)本身的評(píng)估也有問題,作者有誤將模仿當(dāng)作推理。

    為了說(shuō)明自己的觀點(diǎn),他們直接開了一篇博客。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    以判斷質(zhì)數(shù)問題為例,他們發(fā)現(xiàn),評(píng)估給出的500個(gè)數(shù)字全是質(zhì)數(shù)。這個(gè)問題就大了,它意味著正確答案始終是「yes」,模型就可能產(chǎn)生了隨機(jī)模仿的能力(也就是照著之前的正確答案無(wú)腦抄下去)。

    因?yàn)槭聦?shí)證明,在大多數(shù)情況下,沒有一個(gè)模型會(huì)真正一一執(zhí)行「判斷數(shù)字能否被整除」的算法——他們只是假裝做了。

    比如下面這個(gè)3月份GPT-4的快照,它只是列了一堆待檢查的數(shù)字,然后沒有一一去除就直接給出「19997是質(zhì)數(shù)」的回答。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    也就是說(shuō),3月份的GPT-4可能是無(wú)腦答對(duì)的,其表現(xiàn)并不能證明其數(shù)學(xué)能力;相反,也就不能證明6月份的GPT-4不行了(可能本來(lái)就是這個(gè)水平)。

    為了進(jìn)一步證明自己的看法,教授們用500個(gè)合數(shù)測(cè)試了模型,結(jié)果是3月版本的GPT-4幾乎總是猜測(cè)這些數(shù)字是質(zhì)數(shù),而6月版本則幾乎認(rèn)為是合數(shù)。

    ——評(píng)估數(shù)據(jù)一換,結(jié)果就完全不同,這足以說(shuō)明原作者的結(jié)論并不算立得住了。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    除此之外,在下降最多的代碼編寫能力方面,教授們也認(rèn)為,作者只是檢查代碼是否可以直接執(zhí)行,而不評(píng)估其正確性的方式,這種方式也同樣草率。

    這意味著新GPT-4試圖提供更多幫助的能力被抵消了。

    以上這些觀點(diǎn),均得到了英偉達(dá)AI科學(xué)家Jim Fan的支持,他表示:

    但他認(rèn)為,這都不重要,重要的是大家一起來(lái)battle。

    GPT-4「變笨」被斯坦福實(shí)錘:短短仨月數(shù)學(xué)問題錯(cuò)誤率暴漲40倍!OpenAI也急了:已開始調(diào)查

    所以,你認(rèn)為GPT-4到底變笨了沒?

    論文地址:

    https://arxiv.org/abs/2307.09009

    參考鏈接:[1]https://twitter.com/DwayneCodes/status/1681617375437922309

    [2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

    [3]https://twitter.com/DrJimFan/status/1681771572351369216

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場(chǎng),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。
    (0)
    用戶投稿
    上一篇 2023年7月22日 12:18
    下一篇 2023年7月22日 12:19

    相關(guān)推薦

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息