![dolly-chatgpt-clone.jpg](https://static-lib.s3.amazonaws.com/cms/dolly_chatgpt_clone_31f1109e7e.jpg)
開源GPT聊天工具在Databricks企業軟體公司推出的Dolly大型語言模型(DLL)的發布後又邁進了一步。
新的ChatGPT克隆版被稱為多莉(Dolly),以那頭有名的羊類為名,它是第一隻被克隆的哺乳動物。
開源大型語言模型
Dolly LLM 是日益增長的開源人工智慧運動的最新表現,旨在提供更多人對技術的接觸,以避免被大公司壟斷和控制。
開放原始碼人工智慧運動的其中一個顧慮是企業可能不願意把敏感資料交給掌控人工智慧技術的第三方。
基於開源
Dolly 是由非營利組織 EleutherAI 研究所和史丹佛大學 Alpaca 模型共同創建的開源模型衍生而來,而 Alpaca 模型則是根據 Metta 開源 LLaMA 模型而建立的,該模型的參數達到 650 億。
LLaMA (Large Language Model Meta AI) 是一個訓練於公開可用資料上的語言模型。
根據 Weights & Biases 的文章,LLaMA 可以在比較小的情況下,勝過許多頂尖語言模型(OpenAI GPT-3、Deep Mind 的 Gopher 和 DeepMind 的 Chinchilla)。
創建更好的數據集
其他的靈感來自一篇學術研究論文(SELF-INSTRUCT:將語言模型與自我產生的指示對齊 PDF),該論文提出了一種創建高質量自動生成問答訓練數據的方法,該方法優於有限的公共數據。
自学研究论文解释:
「...我們選錄了一組由專家撰寫的新型任務說明,並通過人工評估證明,使用 SELF-INSTRUCT 調整 GPT3的效果遠遠超過使用現有的公開說明資料集,僅留下 5% 的絕對差距相比 InstructGPT...」
「...將我們的方法應用於原始的 GPT3上,我們在 SUPERNATURALINSTRUCTIONS 上展示了 33% 的絕對改進,與 InstructGPT 的性能相當,後者是使用私人用戶數據和人工註釋進行訓練。」
Dolly的重要性在於它證明了只需要較小但高品質的數據集,就能夠創建出一個有用的大型語言模型。
資料研磨觀察:
「Dolly 的運作方式是基於 EleutherAI 的開源 60 億參數模型,稍微修改該模型以獲得原始模型中未具備的指令追蹤功能,例如腦力激盪和文本生成能力,其中使用了 Alpaca 的數據。」
…我們展示了任何人都能夠使用現成、開放源碼的大型語言模型(LLM)並在30分鐘內在一台機器上使用高品質的訓練數據訓練,賦予其像ChatGPT一樣的神奇指令跟隨能力。
令人驚訝的是,遵從指示似乎並不需要最新或最大的模型:我們的模型只有60億個參數,而GPT-3則有1750億個參數。
資料磚開放源碼人工智慧
據說多利讓人工智慧變得民主化。這是一個日漸興起的運動的一部分,最近非營利組織Mozilla通過創辦Mozilla.ai加入了這一運動。Mozilla是Firefox瀏覽器和其他開源軟件的出版者。