這項新技術可能會超越 GPT-4 及類似的技術

針對開放式 AI 程式 ChatGPT 及其後繼技術 GPT-4 的熱潮，這些程式實際上只是軟體應用程式，就像其他應用程式一樣，它們都有技術上的限制，可能導致它們的表現不盡理想。

在三月份發表的一份論文中，斯坦福大學和加拿大 MILA 人工智慧研究所的科學家提出了一種技術，它可能比 GPT-4（或類似的技術）更有效地處理大量數據並轉化為答案。

同時也：這些前蘋果員工希望用這款設備取代智慧型手機

被稱為「Hyena」的科技能夠在基準測試中實現相等的準確度，如問答，同時只使用了一小部分的計算能力。在某些情況下，Hyena代碼能夠處理大量的文本，而GPT風格的科技則會因為記憶體不足而失敗。

"我們在10億規模的參數範圍內取得了令人期待的結果，這表明注意力可能並不是我們所需要的全部。"作者寫道。這句話指的是一份2017年的標誌性AI報告的標題，名為「只需要注意力」。在那篇論文中，Google科學家Ashish Vaswani和他的同事們介紹了Google的Transformer AI程序。Transformer成為了近期所有大型語言模型的基礎。

但是 Transformer 有一個很大的缺陷。它使用一個叫做 "注意力" (attention) 的技術，讓電腦程式將一組符號的資訊，如單字，移動到另一組符號，例如你在 ChatGPT 看到的答案，也就是輸出結果。

另外:什麼是GPT-4？以下是你需要知道的一切

那個引起關注的操作 -- 所有大型語言程序的基本工具，包括ChatGPT和GPT-4 -- 具有"二次"計算複雜度（維基 "計算的時間複雜度"）。這種複雜度意味著ChatGPT生成答案所花費的時間隨著輸入數據的平方增加。

在某些時候，如果有太多的資料 - 提示中的字詞太多，或是在長時間的與程式對話中有太多的對話串 - 那麼程式要提供答案時要處理的事情會變得非常繁瑣，或者必須提供更多且更快的GPU晶片來加速運行，這就需要更多的計算需求。

在arXiv預印版本伺服器上發佈的新論文《鬣狗階層結構：走向更大的卷積語言模型》，首席作者斯坦福大學的邁克爾·波利與他的同事提議以次平方級別的Hyena來替換Transformer的注意力機制。

另外:Auto-GPT 是什麼？關於這款下一代強大的人工智能工具一切你需要知道的內容

作者並沒有解釋這個名字，但人們可以想像出許多原因來命名一個"Hyena"程式。土狼是生活在非洲的動物，能在幾英里之外狩獵食物。從某種意義上說，一個非常強大的語言模型就像一隻土狼，為了尋找養分而不懈努力地狩獵數英里。

不过正如标题所示，作者们确实关注“等级制度”，而鬣狗家族有一个严格的等级制度，地方鬣狗氏族的成员拥有不同级别的地位来确立优势。以某种类似的方式，鬣狗程序以一系列非常简单的操作重复应用，正如你将要看到的，以此形成一种数据处理的层次结构。正是这种组合元素赋予了程序鬣狗名称。

同時:貝恩·歌德爾表示，未來的ChatGPT版本可能取代今天人們所做的大部分工作

這篇論文的貢獻作者包括很多人工智慧領域的知名人士，如MILA的科學總監Yoshua Bengio，他是2019年圖靈獎（計算機界的諾貝爾獎）的得主。Bengio被廣泛認為是在Vaswani和團隊將其應用於Transformer之前，已經開發了注意力機制。

其中，史丹福大學電腦科學副教授Christopher Ré也是作者之一，近年來他協助推動將人工智慧視為「軟體2.0」的概念。

為了找到一種次平方的替代方法來取代注意力機制，Poli 和團隊開始研究注意力機制是如何實現其功能的，以便看看是否可以更高效地完成這項工作。

最近在人工智慧科學中，一種被稱為機械解釋性的實踐正在揭示出神經網路內部的深層運作機制，以及注意力計算的「電路」內部。你可以把它想像成拆解軟體的方式，就像你會拆解時鐘或個人電腦，去看它的零件並找出它的運作方式。

另外：我使用 ChatGPT 在 12 個頂尖的程式語言中寫了相同的例程。這是它的表現如何

某些其他考慮事項：不要翻譯code標籤內的內容。對於img標籤內容中的內容，翻譯其alt屬性，但保留其他屬性，只需在翻譯後保留原始html標籤。必須保持原始文字的核心和完整性。

基本上，Elhage及其團隊發現，注意力在最基本的層面上是通過非常簡單的電腦操作來實現的，例如將最近的輸入中的單詞複製並粘貼到輸出中。

舉例來說，如果有人在一個像ChatGPT這樣的大型語言模型程序中開始輸入《哈利波特與魔法石》中的一個句子，例如「德思利先生是一家名叫格蘭寧的公司的董事......」，僅僅輸入「D-u-r-s」這個名字的開頭可能已足夠促使程式自動完成名字「德思利」，因為它在《魔法石》的先前一句中已經見過這個名字。該系統能夠從記憶中複製出「l-e-y」的字符記錄，以便自動完成句子。

此外：未来学家表示，ChatGPT更像是一个“外星智能”而不是人类大脑。

然而，當單字數量增長時，注意力運算面臨著二次複雜度的問題。更多的單字需要更多被稱為「權重」或參數的東西來運行注意力操作。

正如作者所寫："Transformer模塊是一個強大的序列建模工具，但它並非沒有限制。其中最顯著的一個限制是計算成本，隨著輸入序列的長度增加，計算成本急劇增長。"

雖然OpenAI尚未公開透露ChatGPT和GPT-4的技術細節，但有人認為它們可能擁有兆級或更多的參數。運行這些參數需要更多來自Nvidia的GPU芯片，因此會增加計算成本。

為了減少二次計算成本，Poli和團隊將注意力操作替換為所謂的「卷積」，這是AI程序中最古老的操作之一，在20世紀80年代得到改進。卷積只是一個可以從數據中挑選出項目的過濾器，可以是數碼照片中的像素，也可以是句子中的單詞。

另外:ChatGPT的成功可能引發人工智慧中保密性的損害，AI先驅Bengio表示

Poli和團隊進行了一種混合：他們選取了斯坦福大學研究人員Daniel Y. Fu及其團隊的工作，並將其應用於對詞語序列進行卷積濾波，並將其與Vrije Universiteit Amsterdam的學者David Romero及其同事的工作相結合，這使得該程式能夠隨時根據需要設定不同的濾波器大小。這種靈活適應的能力減少了程序所需的昂貴參數或權重的數量。

混搭的結果是可以對無限量的文本進行卷積，而不需要為了複製更多數據而需要越來越多的參數。正如作者所說的，這是一種 "無注意力" 的方法。

「透過重視規模上的細節，黑鬣狗操作者能夠顯著縮小與注意力機制的品質差距」，Poli與團隊寫道，「在較小的計算預算下，達到類似的困惑度和下游效能」。困惑度是指像ChatGPT這樣的程式所生成的答案的複雜程度。

為了展示Hyena的能力，作者們對該程序進行了一系列基準測試，以確定它在不同的人工智慧任務中的表現如何。

另外：「奇怪的新事物正在軟體領域發生，」史丹佛人工智慧教授 Chris Ré 表示。

有一個測試叫做 The Pile，這是由 Eleuther.ai（一家非營利人工智慧研究機構）在2020年彙編的一個825GB的文本集。這些文本來自於"高質量"的資源，例如PubMed、arXiv、GitHub、美國專利局等，所以這些來源具有比如Reddit討論更嚴格的形式。

該計劃的關鍵挑戰在於在給定一堆新句子作為輸入時生成下一個單詞。Hyena計劃能夠實現與2018年OpenAI原始GPT計劃相當的分數，並且使用的計算操作少了20% —— 研究人員寫道：“這是第一個無注意力、卷積結構匹配GPT質量的項目，同時計算操作更少。”

接著，作者們在稱為SuperGLUE的推論任務上測試了該程式。SuperGLUE於2019年由紐約大學、Facebook AI Research、Google的DeepMind部門和華盛頓大學的學者們提出。

例如，當給出句子「我的身體投下一道陰影在草地上」和兩個可能的原因選項時，「太陽升起了」或者「草被割了」，並且要求選擇其中一個，該程式應該產生「太陽升起了」作為適當的輸出。

在多項任務中，Hyena程式在訓練資料量不到一半的情況下，取得了與GPT版本非常接近或相當的分數。

此外：如何使用新的Bing (以及與ChatGPT的區別)

更有趣的是，當作者增加作為輸入的片語長度時發生了什麼：更多的詞語意味著性能提升更好。在2,048個"標記"（您可以將其想象為單詞）的情況下，Hyena完成語言任務所需的時間比注意力方法更少。

在64,000個詞元處，作者們提到："鬣狗速度提升達到100倍" -- 一百倍的效能提升。

Poli 和團隊主張，他們不僅僅是試圖用一種不同的方法來處理 Hyena，而是「打破了二次方障礙」，徹底改變了程式計算結果的困難程度。

他們提出還可能有重大的品質轉變，進一步延伸：「突破二次性障礙是邁向深度學習新可能性的關鍵一步，如使用整本教科書作為語境、生成長篇音樂或處理十億畫素級別的圖像，」他們寫道。

哈那的能力使用一個在成千上萬的單詞上更有效地延展的過濾器，作者們寫道，意味著對語言程序的“上下文”查詢幾乎沒有限制。它實際上可以回憶起與當前對話主題完全不相關的文本或先前交談的內容，就像哈那遠距離地獵食一樣。

另外：最好的AI聊天機器人：ChatGPT以及其他有趣的替代方案

「鬣狗運算子具有無限上下文，」他們寫道。「也就是說，它們並不受例如區域性的人為限制，可以學習輸入的任意元素之間的長距離相依性。」

此外，除了文字以外，該程式還可以應用於不同模態的數據，比如圖像、也許是視頻和音頻。

值得注意的是，文中展示的Hyena程序与GPT-4甚至GPT-3相比，其规模较小。虽然GPT-3具有1750億個參數或權重，但最大版本的Hyena只有13億個參數。因此，Hyena在與GPT-3或4進行全面比較時的表現尚待觀察。

不過，如果這種效率在更大版本的Hyena程序中得到保持，它可能成為一種新的典範，就像在過去十年中注意力一樣普遍。

正如Poli和團隊所得出的結論：“根據一組簡單的指導原則，並在機制可解釋性評估基準上進行評估的較簡單次二次設計（如Hyena），可能成為高效大型模型的基礎。”

這項新技術可能會完全超越GPT-4和相似的產品

相關文章