OpenAI 的巨型 GPT-3 暗示了語言模型在人工智慧上的極限

大約一年多前,位於舊金山的人工智慧公司OpenAI震驚了全世界,展示了計算機似乎具備自然語言句子形成的能力,甚至能夠解決問題,例如完成一個句子,並生成人們覺得相當自然的長篇段落。

該團隊最新的作品顯示了OpenAI在某些方面的成熟。名為GPT-3的最新創作於上週問世,擁有更多的功能和創新,由與上一版本相同的作者,包括Alec Radford和Ilya Sutskever,以及其他幾位合作夥伴創作,其中包括來自約翰霍普金斯大學的科學家。

現在它已經成為了一個真正的巨型語言模型,正如它被稱之為的那樣,吃掉了比它的前身多兩個數量級的文本。

但在這個更大即更好的噱頭中,OpenAI團隊似乎在接觸到一些更深層的真理,就像電影《2001太空漫遊》結尾時,Dr. David Bowman 接近所知的極限一樣。

隱藏在72頁論文的結論部分中,《語言模型是少量樣本學習器》,上周在arXiv預印本服務器上發佈,有一個相當引人注目的認識。

「本論文所描述之一般方法的更根本限制 - 無論是自回歸還是雙向的語言模型 - 是它可能最終會遭遇(或已經遭遇)預訓練目標的極限,」作者寫道。

作者們所言的是,僅僅建立一個神經網絡來預測句子或短語中下一個詞的概率,可能會有其局限性。僅僅使其變得更加強大並且填充更多文本可能並不會產生更好的結果。這是一個相當重要的認識,而在這篇論文中主要是在慶祝通過增加計算能力來解決問題的成就。

gpt-3-versus.jpg

要理解作者的結論為何如此重要,請考慮我們如何到達這裡。OpenAI 在語言方面的工作歷史一直是一種持續演進的歷史,隨著技術不斷變得越來越龐大,也越來越成功。

原版 GPT 和 GPT-2 都是對於一種被稱為 Transformer 的機器學習模型的改進,而這個模型是 2017 年由 Google 所創立。Transformer 使用一個稱為注意力 (attention) 的函數,來計算在給定周圍詞語的情況下,某個詞語出現的機率。OpenAI 在一年前引起了爭議,當時他們表示不會公開 GPT-2 的最大版本的源代碼,因為擔心該代碼可能落入錯誤的手中,並被濫用來誤導人們,比如製造假新聞。

這篇新的論文將GPT提升到了新的水平,使其變得更加龐大。GPT-2中最大的版本,也就是不公開的版本,有15億個參數。而GPT-3則有1750億個參數。參數是神經網絡中的一個計算,它對數據的某個方面應用更大或更小的權重,從而使該方面在整體計算中更加重要或次要。正是這些權重賦予了數據形狀,並使神經網絡對數據有了一種學習的觀點。

隨著時間的推移,GPT家族的程式和其他大型Transformer衍生程式(例如Google的BERT)逐漸增加的權重,已經在基準測試結果上取得了驚人的成績,這些成績一直都非常令人印象深刻。

不用在乎很多人已經指出,這些語言模型似乎並沒有以任何有意義的方式理解語言。它們在測試中表現得很棒,這也不算什麼。

最新版本再次展示了定量的進步。就像GPT-2和其他基於Transformer的程式一樣,GPT-3是使用Common Crawl資料集進行訓練的,這是一個從網路上爬取的幾乎有一兆字的文字語料庫。「資料集和模型的大小比GPT-2使用的還要大上兩個數量級」,作者寫道。

GPT-3具有1750億個參數,能夠實現作者所描述的“元學習”。元學習意味著GPT神經網絡不需要重新訓練來完成一個任務,比如句子補全。給定一個任務的示例,例如一個不完整的句子和完成的句子,GPT-3將繼續完成任何給定的不完整句子。

使用GPT-3只需要一個提示,從某些情況來看,其在某些任務上的學習效果甚至比那些被精心調整以專門執行該任務的Transformer版本更好。因此,GPT-3是一種超越特定任務的統整勝利。只需餵它大量文本直到權重達到理想狀態,它就可以在許多特定任務上表現出色,而無需進一步開發。

這就是新論文中故事引人入勝的結局所在了。在列舉了GPT-3在不同語言任務上令人印象深刻的成果,包括填補句子、推論陳述的邏輯蘊含以及不同語言之間的翻譯等之後,作者們指出了其中的不足之處。

「儘管GPT-3在數量和質量上都有明顯改善,特別是與其直接前身GPT-2相比,但它仍然存在明顯的弱點。」

其中的弱點包括在所謂的「對抗性自然語言推理」上無法達到顯著的準確度。自然語言推理(NLI)是一個測試,程式必須判斷兩個句子之間的關係。Facebook 和北卡羅來納大學的研究人員引入了對抗性版本,人類創造的句子對難以讓電腦解決。

GPT-3 在諸如對抗式自然語言推理 (Adversarial NLI) 等方面做得 "不比隨機優勢大",作者寫道。更糟的是,即使將系統的處理能力提升到 1750 億個權重,作者們對於為何在某些任務上表現不如預期也並不確定。

這就是當他們得出上述結論時,也許僅僅把大量的文本餵給一台巨大的機器並不是最終答案。

更令人驚訝的是下一個觀察。作者們寫道,整個試圖預測語言發展的做法可能是錯誤的,他們或許朝著錯誤的方向努力。

「透過自我監督目標,任務的指定會依賴於將期望的任務轉化為預測問題,」他們寫道,「然而,對於有用的語言系統(如虛擬助理),可以更好地將其視為進行目標導向的行動,而不僅僅是做出預測。」

作者們把這個相當有趣的潛在新方向留待日後指定。

儘管人們已經意識到更大不一定意味著更好,GPT-3在許多任務上的改進結果可能會加劇而不是減弱對更大、更大的神經網絡的渴望。擁有1750億個參數,GPT-3是目前最大規模的神經網絡之王。 AI芯片公司Tenstorrent在四月的一個演示中描述了未來具有超過一萬億個參數的神經網絡。

對於大部分的機器學習界而言,越來越大的語言模型將繼續保持著最先進的狀態。

相關文章

查看更多 >>

透過 HIX.AI 釋放 AI 的力量!