過去一年間,能說會(huì)道的ChatGPT、最新的 GPT-4大模型,其能力也已超乎很多人的想象,一場(chǎng)由 OpenAI 引領(lǐng)推動(dòng)的 AIGC 浪潮席卷全球各大科技公司。但是從學(xué)術(shù)研究的角度來看,其表現(xiàn)力距離人類智能究竟還有多遠(yuǎn)?
近日,一篇由加州大學(xué)圣迭戈分校的兩位研究人員 Cameron Jones(認(rèn)知科學(xué)專業(yè)博士生)和 Benjamin Bergen(該校認(rèn)知科學(xué)系教授)發(fā)布的《GPT-4通過圖靈測(cè)試了嗎?》(https://arxiv.org/pdf/2310.20216.pdf)論文,吸引了不少 AI 學(xué)者的關(guān)注。
出乎意料的是,根據(jù)論文結(jié)果顯示:
在更具人性方面,人類贏了,不過 OpenAI 的模型還是能夠騙過很多人類;
GPT-4不符合圖靈測(cè)試的成功標(biāo)準(zhǔn);
ChatGPT 免費(fèi)版所使用的 GPT-3.5模型敗給了60年前發(fā)布的老 AI 聊天機(jī)器人ELIZA;
首發(fā)于1966且由約瑟夫·維森鮑姆在麻省理工學(xué)院研發(fā)的聊天機(jī)器人ELIZA之所以得分比 GPT-3.5高,不是因?yàn)樗斆?,而是因?yàn)樗宦斆?,?dǎo)致很多問題無法直接給出答案,這讓人覺得它太過高冷,像是人類扮演的。
一石激起千層浪,有人認(rèn)為,這并不奇怪,因?yàn)?OpenAI 擔(dān)心會(huì)有欺騙,GPT-4被明確調(diào)整為不通過圖靈測(cè)試。
也有人表示,“圖靈測(cè)試實(shí)際上是一種超窄的方法。圖靈令人難以置信的優(yōu)點(diǎn)是毋庸置疑的。但圖靈測(cè)試范式對(duì)于幾十年來人工智能的項(xiàng)目和發(fā)展來說絕對(duì)是致命的。”
還有更多的人認(rèn)為,盡管存在一些限制和警告,不過這篇論文對(duì)人工智能模型之間進(jìn)行了深度的比較,并對(duì)使用圖靈測(cè)試評(píng)估人工智能模型性能提出了更多問題,同樣值得思考。
比較人類和機(jī)器的智能水平,引發(fā)爭(zhēng)議的圖靈測(cè)試
所謂圖靈測(cè)試,是由英國(guó)數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家艾倫·圖靈(Alan Turing)于1950年提出的一個(gè)測(cè)試概念,用于評(píng)估機(jī)器是否具有人類智能。這個(gè)測(cè)試的核心思想是,一個(gè)人類評(píng)判者通過對(duì)話形式,與一個(gè)機(jī)器和一個(gè)人類進(jìn)行交互,然后在不知道對(duì)話對(duì)象的真實(shí)身份前提下,判斷哪個(gè)是機(jī)器,哪個(gè)是人類。
具體來說,圖靈測(cè)試的步驟如下:
1. 一個(gè)評(píng)判者(通常是人類)在與兩個(gè)對(duì)話對(duì)象進(jìn)行文本交流時(shí),其中一個(gè)是機(jī)器,另一個(gè)是人類。這個(gè)交流可以通過鍵盤和在屏幕輸入進(jìn)行,以確保評(píng)判者無法通過聲音或外觀來判斷對(duì)話對(duì)象的身份。
2. 評(píng)判者的目標(biāo)是在與兩個(gè)對(duì)象交流后,準(zhǔn)確地區(qū)分出哪個(gè)是機(jī)器,哪個(gè)是人類。
3. 如果機(jī)器成功地使評(píng)判者無法區(qū)分其回答與人類的回答,那么這臺(tái)機(jī)器被認(rèn)為通過了圖靈測(cè)試,表現(xiàn)出具有人類智能的跡象。
值得注意的是,圖靈測(cè)試并沒有明確規(guī)定機(jī)器需要模仿人類的所有方面,而是強(qiáng)調(diào)機(jī)器是否能夠在對(duì)話中表現(xiàn)出類似于人類思維和智能的特征。圖靈測(cè)試成為人工智能領(lǐng)域中一個(gè)重要的思想實(shí)驗(yàn),用于探討和評(píng)估機(jī)器智能的發(fā)展。
研究人員希望利用圖靈測(cè)試來了解聊天機(jī)器人的人性化特征。不過一直以來,因?yàn)橹饔^性和相對(duì)性、缺乏客觀標(biāo)準(zhǔn)等因素,圖靈測(cè)試就成了確定機(jī)器模仿人類對(duì)話能力的一個(gè)著名但有爭(zhēng)議的基準(zhǔn)。
測(cè)試方法
在這篇論文中,兩位研究人員安排了兩種角色:
一種是調(diào)查員,他們需要查明自己是人工智能還是人類聊天;
另一種是見證人,他們需要讓對(duì)方相信自己的人性。當(dāng)然見證人里面有真的人類,也有25名 LLM 見證人。為了讓測(cè)試更為準(zhǔn)確,每個(gè) LLM由一個(gè)模型(GPT-3.5、GPT-4、ELIZA)、一個(gè)溫度設(shè)置(0.2、0.5或1.0)和一個(gè)提示組成。提示描述了交互的上下文和對(duì)模型的回復(fù)指導(dǎo),如下圖所示:
研究人員變化了提示的幾個(gè)方面, 包括模型是否應(yīng)產(chǎn)生拼寫、語法和大小寫錯(cuò)誤;模型應(yīng)該采用的人格;模型被告知其是人類還是假裝是人類的 AI。所有提示都包含關(guān)于游戲說明的通用信息,以及它們的訓(xùn)練結(jié)束日期之后發(fā)生的重要事件。在每場(chǎng)游戲開始時(shí),會(huì)從一個(gè)列表中為模型的人格生成一個(gè)建議名稱。提示還包括游戲創(chuàng)建的時(shí)間戳和最新消息的時(shí)間戳。
值得一提的是,這項(xiàng)研究獲得了加州大學(xué)圣地亞哥分校IRB的批準(zhǔn),所以研究人員Cameron Jones(認(rèn)知科學(xué)專業(yè)博士生)和Benjamin Bergen(該校認(rèn)知科學(xué)系教授)建立了一個(gè)名為 turingtest.live 的網(wǎng)站,此網(wǎng)站提供一個(gè)看起來像一個(gè)傳統(tǒng)的消息應(yīng)用程序的聊天界面。
然后,參與者進(jìn)入等待室,在那里他們會(huì)被隨機(jī)分配與另一個(gè)人類或 AI 進(jìn)行游戲。調(diào)查員發(fā)送第一條消息,每個(gè)用戶一次只能發(fā)送一條消息。整個(gè)對(duì)話有5分鐘的時(shí)間限制,單個(gè)消息有300個(gè)字符的限制。
在雙方聊天過程中,調(diào)查員最常用的策略包括閑聊以及詢問相關(guān)知識(shí)和時(shí)事。
更成功的策略包括使用非英語語言、詢問時(shí)間或時(shí)事,以及直接指控見證人是人工智能模型。
然后,調(diào)查員根據(jù)收到的答復(fù)做出判斷。在游戲結(jié)束時(shí),調(diào)查員使用一個(gè)決策界面來提供:
一個(gè)決定(見證人是否為人類);
他們對(duì)決定的置信度(0-100);
決定的原因(可選填)。
有趣的是,研究發(fā)現(xiàn),調(diào)查員的判斷主要基于語言風(fēng)格和社會(huì)情感特征,而不僅僅是對(duì)智力的感知。調(diào)查員還注意到何時(shí)回答過于正式或不正式時(shí),或者何時(shí)回答缺乏個(gè)性或顯得一般。研究還表明,調(diào)查員個(gè)人的教育程度和對(duì)大型語言模型(LLMs)的熟悉程度并不能顯著預(yù)測(cè)他們檢測(cè)人工智能的成功率。
最終結(jié)果
實(shí)驗(yàn)涉及652名參與者,他們共完成了1810次游戲,在排除了某些情況后,這些情況包括重復(fù)的人工智能游戲(導(dǎo)致在其他人類不在線時(shí)預(yù)期人工智能模型的互動(dòng))、或者參與者和見證人之間的個(gè)人熟識(shí)、他們有時(shí)坐在同一個(gè)房間里,研究人員最終對(duì)其中的1405次游戲進(jìn)行了分析。
令人驚訝的是,60年前的老 AI 聊天機(jī)器人 ELIZA 在研究中得分相對(duì)較高,成功率達(dá)到27%。根據(jù)提示,GPT-3.5的成功率為14%,低于 ELIZA。GPT-4的成功率為41%,僅次于真人。
最終,研究員得出結(jié)論:GPT-4不符合圖靈測(cè)試的成功標(biāo)準(zhǔn),既沒有達(dá)到50% 的成功率(大于50或等于50的概率),也沒有超過人類參與者的成功率。
研究人員推測(cè),如果有正確的提示設(shè)計(jì),GPT-4或類似模型最終可能會(huì)通過圖靈測(cè)試。不過,挑戰(zhàn)在于如何模仿人類對(duì)話風(fēng)格的微妙之處來設(shè)計(jì)提示語。與 GPT-3.5一樣,GPT-4也被設(shè)定為不以人類身份出現(xiàn)。該研究員在論文中寫道:“看來很有可能存在更有效的提示,因此我們的結(jié)果低估了 GPT-4在圖靈測(cè)試中的潛在表現(xiàn)。”
至于那些未能讓其他人類相信自己是真實(shí)存在的人類,這可能更多反映了測(cè)試的性質(zhì)和結(jié)構(gòu)以及調(diào)查員的期望,而不是人類智力的任何特定方面。研究員表示:“一些人類證人假裝自己是人工智能,進(jìn)行‘兜售‘?!蓖瑯?,一些調(diào)查員也將這種行為作為人類判決的理由。因此,「我們的結(jié)果可能低估了人類的表現(xiàn),而高估了人工智能的表現(xiàn)」,研究員說道。
對(duì)于在研究中的ELIZA 之所以會(huì)勝過 GPT-3.5,該論文的作者推斷:
首先,ELIZA 的回答傾向于保守。雖然這通常會(huì)給人一種對(duì)話者不合作的印象,但這也避免了系統(tǒng)提供諸如錯(cuò)誤信息或晦澀知識(shí)等明確線索。
其次,ELIZA 并沒有表現(xiàn)出調(diào)查者所認(rèn)為的 LLM 所具有的那種暗示,例如樂于助人、友好和滔滔不絕。
最后,一些調(diào)查者認(rèn)為,ELIZA “太糟糕”,不像是當(dāng)前的人工智能模型,因此更像是人類故意不合作。
而對(duì)于免費(fèi)版 ChatGPT 的基礎(chǔ)模型GPT-3.5的失利,有人認(rèn)為,OpenAI 對(duì)其進(jìn)行了專門的調(diào)節(jié),使其不會(huì)以人類的形象出現(xiàn),這可能是其表現(xiàn)不佳的部分原因。
與此同時(shí),普林斯頓大學(xué)計(jì)算機(jī)科學(xué)教授 Arvind Narayanan 在 X 上也發(fā)表了自己的看法,其表示:
「關(guān)于“ChatGPT 未通過圖靈測(cè)試”論文的重要背景。一如既往,測(cè)試行為并不能說明能力。我認(rèn)為在這項(xiàng)任務(wù)中測(cè)試 LLM 的一種更豐富的方法是采用一個(gè)基本模型并在聊天日志上對(duì)其進(jìn)行微調(diào)。
ChatGPT 經(jīng)過微調(diào),語氣正式,不發(fā)表意見等,這使得它不太人性化。作者試圖用提示來改變這一點(diǎn),但它有局限性。假裝人類聊天的最好辦法就是在人類聊天記錄上進(jìn)行微調(diào)?!?/p>
最后,對(duì)于這項(xiàng)測(cè)試,該論文的作者也承認(rèn)這項(xiàng)研究存在局限性,包括從社交媒體招募樣本可能存在偏差,以及缺乏對(duì)參與者的激勵(lì)措施,這可能會(huì)導(dǎo)致一些人無法完成預(yù)期的角色。他們還表示,“他們的研究結(jié)果(尤其是 ELIZA 的表現(xiàn))可能支持了人們對(duì)圖靈測(cè)試的普遍批評(píng),認(rèn)為它是衡量機(jī)器智能的一種不準(zhǔn)確的方法?!?/p>
盡管如此,「我們認(rèn)為,作為衡量流暢的社交互動(dòng)和欺騙行為的框架,以及理解人類適應(yīng)這些設(shè)備的策略,該測(cè)試仍具有現(xiàn)實(shí)意義」,研究員說道。
對(duì)此,更詳盡的研究?jī)?nèi)容可查閱完整論文:https://arxiv.org/abs/2310.20216