![gettyimages-1.jpg](https://static-lib.s3.amazonaws.com/cms/gettyimages_1_3d6e9d44db.jpg)
OpenAI的ChatGPT聊天機器人在修復軟體錯誤方面表現出色,但與其他方法和AI模型相比,其關鍵優勢在於與人對話的獨特能力,這使得它能夠改進答案的正確性。
來自約翰內斯古騰堡大學與倫敦大學學院的研究人員將OpenAI的ChatGPT與「標準自動程式修復技術」以及兩種深度學習方法進行比較:CoCoNut來自加拿大滑鐵盧大學的研究人員;Codex則是OpenAI基於GPT-3開發的模型,支撐GitHub的Copilot配對程式設計自動補充程式碼服務。
此外:如何開始使用 ChatGPT
「我們發現,ChatGPT 在修復程式錯誤的表現與常見的深度學習方法 CoCoNut 和 Codex 相媲美,且明顯優於標準程式修復方法的報告結果,」研究人員在一篇新的 arXiv 論文中寫道,這篇論文首度被《新科學家》刊登。
最佳的人工智慧聊天機器人:ChatGPT及其他有趣的替代選擇
AI聊天機器人和作家可以幫助減輕您的工作量,可以撰寫郵件和文章,甚至處理數學問題。它們使用人工智慧根據使用者輸入生成文本或回答查詢。ChatGPT是其中一個熱門的例子,但還有其他值得注意的聊天機器人。
立即閱讀
ChatGPT的用途不僅僅於解決編碼問題, 研究人員提出,ChatGPT能夠與人類對話的獨特能力使其在其他方法和模型方面具有潛在優勢。
研究人員使用QuixBugs錯誤修復基準測試了ChatGPT的性能。自動程式修復(APR)系統似乎處於劣勢,因為它們是在2018年之前開發的。
ChatGPT基於Transformer架構,該架構是由Meta AI的首席科學家Yann LeCunn在本週強調的一種架構,該架構是由Google開發的。Microsft Research的Codex和CodeBERT以及它的前身Google的BERT都是基於Google的Transformer方法。
OpenAI 強調 ChatGPT 的對話能力,例如在除錯程式碼的範例中,它可以要求澄清並從人類獲得提示,以找到更好的答案。 它使用來自人類反饋的強化學習(RLHF)來訓練 ChatGPT 的大型語言模型(GPT-3 和 GPT 3.5)。
研究人員指出,雖然ChatGPT的討論能力有助於它得出更正確的答案,但其建議的品質仍然不明確。這就是為什麼他們想要評估ChatGPT在修復錯誤方面的表現。
研究人員對ChatGPT進行了與QuixBugs 40個僅使用Python的問題的測試,然後手動檢查建議的解決方案是否正確。由於ChatGPT的答案可靠性存在一定的隨機性,一位沃頓教授在將聊天機器人提交MBA般的考試後發現了這一點,因此他們對詢問進行了四次重複。
ChatGPT 解決了 40 個 Python bug 中的 19 個,與 CoCoNut (19) 和 Codex (21) 处於同一水平。但標準的 APR 方法只解決了其中七個問題。
研究人員發現 ChatGPT 在後續互動中的成功率達到 77.5%。
對於開發人員而言,就工作量和生產力而言,其意義並不明確。Stack Overflow最近禁止了ChatGPT生成的答案,因為它們質量低但聽起來很合理。華頓學者發現,ChatGPT可能成為MBA學生的良伴,因為它可以扮演一個「智慧顧問」的角色——產生優雅但往往是錯誤的答案,並促進批判性思維。
"這表明人為輸入對於自動化的APR系統來說非常有幫助,而ChatGPT提供了實現這一點的手段",研究人員寫道。
「儘管 ChatGPT 表現出色,但是否核查 ChatGPT 的回答所需的心理成本超過了 ChatGPT 帶來的優勢,這個問題也隨之浮上檯面。」