OpenAI的立場轉變：不將API客戶數據用於訓練GPT-4

與以往的做法大相徑庭，OpenAI 宣布不再使用通過其 APIs 發送的客戶數據來訓練其庞大的語言模型，如 GPT-4。

這項變革在最近的一次接受CNBC的採訪中，由OpenAI的CEO Sam Altman證實了。

OpenAI對用戶數據的新方針

OpenAI 的政策變更在2023年3月1日實施，當時該公司在安靜中更新了其服務條款以反映對用戶隱私的新承諾。

Altman 澄清道：“顧客明確表示他們不希望我們在他們的數據上進行訓練，因此我們已經修改了我們的計劃：我們將不會這樣做。”

API（應用程式介面）是一種技術框架，允許客戶直接連接到 OpenAI 的軟體。

Altman 表示 OpenAI 已經有「一段時間」沒有使用 API 資料進行模型訓練，暗示這份官方公告正式化了一個現有的做法。

OpenAI 的舉動具有深遠影響，尤其對其商業客戶而言，其中包括像微軟、Salesforce和Snapchat這樣的巨頭。

這些公司更有可能利用OpenAI的API功能進行操作，因此隱私和數據保護的轉變對他們尤其重要。

然而，新的數據保護措施僅適用於使用公司的API服務的客戶。OpenAI的更新服務條款指出：“我們可能會使用來自API之外的其他服務的內容。”

因此，OpenAI仍然可以使用其他形式的數據輸入，例如輸入到流行的聊天機器人ChatGPT中的文本，除非該數據通過API共享。

當各行業正面臨由 OpenAI 的 ChatGPT 這類大型語言模型取代傳統人工創作的潛在影響時，OpenAI 的政策轉變就來了。

例如，美國編劇工會最近因為與電影工作室的談判破裂而開始罷工。該工會一直主張對使用 OpenAI 的 ChatGPT 進行劇本生成或重寫實行限制。

OpenAI決定不使用客戶數據進行訓練，標誌著關於數據隱私和人工智能的持續討論中的重要時刻。隨著公司不斷探索和推動人工智能技術的界限，確保用戶隱私和保持信任可能在這些討論中仍然是核心問題。

值得注意的是，OpenAI 承諾不會將客戶數據用於訓練最新的語言模型 GPT-4，該模型於2023年3月14日发布。

GPT-4 對其前身 GPT-3 進行了多項改進，包括詞數限制的顯著增加（GPT-3 ChatGPT 的 3,000 詞限制相比，GPT-4 的限制增加到 25,000 詞），更大的上下文窗口大小，以及改進的推理和理解能力。

註目的GPT-4的另一個特點是它的多模態能力，即不僅能夠理解和推斷文本信息，還能從圖像中理解和推斷信息。這款最新的模型生成的文字更加貼近人類，使用了表情符號等特點，使其具有更加個性化的感覺。

然而，GPT-4的確切大小和架構仍未公開，這導致人們對模型的細節產生了猜測。

儘管有這些傳聞，OpenAI的CEO否認了關於模型大小的具體指稱。

就性能而言，GPT-4在文本生成方面展现出了一些優勢，但也存在一些限制。例如，在研究生入學考試（GRE）的寫作部分中，它的得分位於54百分位數，並在高級微積分BC 考試中的百分位數介於43至59之間。

此外，它在易於的 LeetCode 編碼任務上表現良好，但在任務難度增加時其性能下降。

雖然 GPT-4 的訓練過程並未正式文件化，但已知 GPT 模型通常涉及大規模機器學習，使用了多樣化的網絡文本。

由於OpenAI數據使用政策的變化，其語言模型訓練所使用的數據，除非使用者明確同意為此目的貢獻資訊，否則不包括通過API共享的資訊。

隨著這項科技不斷進步並在我們的生活中扮演著更重要的角色，有趣的是，公司如何轉變並回應關於保護數據隱私和贏得人們信任的問題。