Anthropic是一家由前OpenAI高管創(chuàng)立的創(chuàng)業(yè)公司,似乎正在試圖在快速發(fā)展的市場中開辟自己的明確定位,提供由大語言模型支持的服務(wù)(稱為生成AI)。
Claude是一個人工智能聊天機(jī)器人,類似于OpenAI的ChatGPT,Anthropic于3月份發(fā)布。
在一篇博客文章中,這家初創(chuàng)公司解釋了它用來訓(xùn)練其類似ChatGPT的聊天機(jī)器人Claude的方法,以產(chǎn)生比其他聊天機(jī)器人危害更小、更準(zhǔn)確的結(jié)果。
Anthropic詳細(xì)介紹了其“憲法AI”訓(xùn)練方法,旨在為其克勞德聊天機(jī)器人注入清晰的“價值觀”,以解決人工智能系統(tǒng)對透明度、安全性和決策的擔(dān)憂,而不依賴人類的反饋來評估響應(yīng)。
Anthropic表示,隨著AI系統(tǒng)的不斷發(fā)展,我們希望用它們來監(jiān)管其他AI。我們在嘗試一種方式,通過自我提升,訓(xùn)練一個無害的AI助手,不需要任何有害輸出的人工標(biāo)注。
唯一的人工監(jiān)督是通過一系列規(guī)則或原則來實現(xiàn)的,所以我們稱之為“憲法AI”。這個過程包括兩個階段:監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
在監(jiān)督階段,我們從一個初始模型中采樣,然后生成自我批評和修改的結(jié)果,然后將修改后的結(jié)果微調(diào)到原始模型。
在強(qiáng)化學(xué)習(xí)階段,我們從微調(diào)后的模型中采樣,用一個模型來評估哪個采樣結(jié)果更好,然后從這個AI偏好數(shù)據(jù)集中訓(xùn)練偏好模型。
之后我們用偏好模型作為獎勵信號,即“AI反饋強(qiáng)化學(xué)習(xí)”(RLAIF)進(jìn)行訓(xùn)練。因此,我們可以通過解釋其反對有害查詢的原因,來訓(xùn)練一個無害但非侵入性的AI助手進(jìn)行交互。無論是監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),這些方法都可以利用鏈?zhǔn)剿季S推理來提高AI決策的性能和透明度,使得對AI行為的控制更加準(zhǔn)確,并且需要更少的人工標(biāo)注。