《衛(wèi)報》已經(jīng)阻止 OpenAI 從其內(nèi)容中獲取數(shù)據(jù)。該出版商是最新一家阻止人工智能公司使用其內(nèi)容來創(chuàng)建 ChatGPT 等產(chǎn)品的新聞機構。
擔心 OpenAI 正在使用未經(jīng)許可的內(nèi)容來創(chuàng)建其人工智能工具,已導致作家對該公司提起訴訟,并呼吁創(chuàng)意產(chǎn)業(yè)采取措施保護知識產(chǎn)權。
《衛(wèi)報》確認已禁止 OpenAI 部署軟件以收集其內(nèi)容。生成式人工智能技術——指可以從簡單的人類提示中生成令人信服的文本、圖像和音頻等產(chǎn)品——自去年推出 ChatGPT 聊天機器人版本以來就受到公眾矚目。然而,有關虛假信息大規(guī)模生產(chǎn)和此類工具建立方式的擔憂也隨之而來。
ChatGPT 及類似工具背后的技術是通過向其中輸入大量來源于開放互聯(lián)網(wǎng)(包括新聞文章)的數(shù)據(jù)進行「訓練」的,使得這些工具可以預測用戶提示后最可能出現(xiàn)哪個單詞或句子。
OpenAI 并沒有透露幫助構建 ChatGPT 模型背后所用數(shù)據(jù),但在 8 月份宣布將允許網(wǎng)站運營者阻止其網(wǎng)絡爬蟲程序獲取他們的內(nèi)容,盡管此舉并不允許從現(xiàn)有的訓練數(shù)據(jù)集中刪除材料。目前,一些出版商和網(wǎng)站正在阻止 GPTBot 爬蟲程序。
《衛(wèi)報》及其子公司 Guardian News & Media 的發(fā)言人表示:「出于商業(yè)目的從衛(wèi)報網(wǎng)站上竊取知識產(chǎn)權的行為一直以來都違反了我們的服務條款。這一點始終如一?!缎l(wèi)報》商業(yè)授權團隊與全球開發(fā)者之間有著多種互惠互利的商業(yè)關系,并期待未來建立更多這樣的關系?!?/p>
根據(jù) Originality.ai 檢測到 AI 生成內(nèi)容顯示,現(xiàn)在阻止 GPTBot 爬蟲程序(該程序從網(wǎng)頁中提取數(shù)據(jù)以供其 AI 模型使用)的新聞網(wǎng)站包括 CNN、路透社、華盛頓郵報、彭博社、紐約時報及其體育網(wǎng)站 The Athletic 等。其他已經(jīng)阻止 GPTBot 爬蟲程序的網(wǎng)站還包括 Lonely Planet、亞馬遜 (Amazon)、Indeed,、問答平臺 Quora 和 dictionary.com。
本周,英國圖書出版商敦促其首相 Rishi Sunak 通過在 11 月主持英國安全峰會議程上加入保護創(chuàng)意產(chǎn)業(yè)知識產(chǎn)權來保護創(chuàng)意產(chǎn)業(yè)知識產(chǎn)權。代表數(shù)字和印刷書籍、研究期刊和教育內(nèi)容的出版商協(xié)會的一封信要求首相明確表示,在構建 AI 系統(tǒng)時必須尊重知識產(chǎn)權法。
今年 7 月,埃隆·馬斯克對其 Twitter 平臺(現(xiàn)已更名為 X)施加了限制,以解決他所聲稱的人工智能公司構建模型的「極端程度的數(shù)據(jù)抓取」問題。他在 Twitter 上表示,「幾乎每家從事人工智能的公司」都從 Twitter 獲取「大量數(shù)據(jù)」,馬斯克表示,這迫使該公司付出一定代價部署更多服務器來滿足需求。
然而,馬斯克也確認將使用公共推文來訓練其新宣布的 AI 初創(chuàng)企業(yè) xAI 開發(fā)的模型。
谷歌的隱私政策現(xiàn)在規(guī)定,該公司使用網(wǎng)絡爬蟲幫助用戶查找搜索結果,可能會收集公開信息來訓練谷歌人工智能產(chǎn)品的模型,其中包括 Bard 聊天機器人。本周,F(xiàn)acebook 和 Instagram 的所有者以及主要人工智能開發(fā)商 meta 推出了一項新政策,允許用戶表示是否不希望自己的個人信息用于訓練人工智能模型。