ChatGPT 水印如何工作以及為什麼它會被擊敗 |海克斯人工智能

OpenAI 的 ChatGPT 引入了一種自動創建內容的方法，但計劃引入水印功能以使其易於檢測，這讓一些人感到緊張。這就是 ChatGPT 水印的工作原理以及為什麼可能有辦法擊敗它。

ChatGPT 是一款令人難以置信的工具，令在線出版商、附屬機構和 SEO 既又愛又怕。

一些營銷人員喜歡它，因為他們正在發現使用它來生成內容簡介、大綱和復雜文章的新方法。

在線出版商擔心人工智能內容會充斥搜索結果，取代人類撰寫的專家文章。

因此，有關可解鎖 ChatGPT 創作內容檢測的水印功能的消息同樣令人既焦慮又充滿希望。

加密水印

水印是嵌入到圖像上的半透明標記（徽標或文本）。水印表明誰是該作品的原作者。

它主要出現在照片中，並且越來越多地出現在視頻中。

ChatGPT 中的文本水印涉及以密碼形式嵌入單詞、字母和標點符號模式的加密技術。

Scott Aaronson 和 ChatGPT 水印

OpenAI 於 2022 年 6 月聘請了一位頗具影響力的計算機科學家 Scott Aaronson，負責 AI 安全和對齊方面的工作。

人工智能安全是一個研究領域，涉及研究人工智能可能對人類造成傷害的方式，並創造方法來防止這種負面破壞。

以 OpenAI 附屬作者為特色的 Distill 科學期刊對 AI 安全的定義如下：

“人工智能 (AI) 長期安全的目標是確保先進的人工智能係統可靠地符合人類價值觀——它們可靠地做人們希望它們做的事情。”

人工智能對齊是人工智能領域，涉及確保人工智能與預期目標保持一致。

像 ChatGPT 這樣的大型語言模型 (LLM) 的使用方式可能會與 OpenAI 定義的 AI Alignment 目標相悖，即創建造福人類的 AI。

因此，加水印的原因是為了防止人工智能以危害人類的方式被濫用。

Aaronson 解釋了為 ChatGPT 輸出添加水印的原因：

“這顯然有助於防止學術剽竊，但也有助於大規模宣傳……”

ChatGPT 水印如何工作？

ChatGPT 水印是一個將統計模式、代碼嵌入到單詞甚至標點符號選擇中的系統。

人工智能創建的內容是通過相當可預測的詞語選擇模式生成的。

人類和人工智能寫的文字遵循統計模式。

更改生成內容中使用的單詞模式是一種給文本“加水印”的方法，使系統可以輕鬆檢測它是否是人工智能文本生成器的產品。

使人工智能內容水印無法被檢測到的技巧是，單詞的分佈仍然具有類似於正常人工智能生成文本的隨機外觀。

這被稱為詞的偽隨機分佈。

偽隨機性是統計上隨機的一系列單詞或數字，但實際上並不是隨機的。

ChatGPT 水印當前未使用。然而 OpenAI 的 Scott Aaronson 已公開表示這是有計劃的。

目前 ChatGPT 處於預覽階段，OpenAI 可以通過它在實際使用中發現“錯位”。

據推測，水印可能會在 ChatGPT 的最終版本或更早版本中引入。

Scott Aaronson 寫了關於水印如何工作的文章：

“到目前為止，我的主要項目是一個對 GPT 等文本模型的輸出進行統計水印的工具。
基本上，每當 GPT 生成一些長文本時，我們希望在其單詞選擇中存在一個原本不易察覺的秘密信號，您可以稍後用它來證明，是的，這是來自 GPT。”

Aaronson 進一步解釋了 ChatGPT 水印的工作原理。但首先，了解標記化的概念很重要。

標記化是自然語言處理中發生的一個步驟，其中機器獲取文檔中的單詞並將它們分解為單詞和句子等語義單元。

標記化將文本更改為可用於機器學習的結構化形式。

文本生成的過程是機器根據前一個標記猜測接下來出現哪個標記。

這是通過數學函數來完成的，該函數確定下一個標記的概率，即所謂的概率分佈。

接下來的單詞是預測的，但它是隨機的。

水印本身就是 Aaron 所描述的偽隨機性，因為特定單詞或標點符號的存在有數學原因，但它仍然是統計上隨機的。

以下是GPT水印的技術解釋：

“對於 GPT 來說，每個輸入和輸出都是一串 token，可以是單詞，也可以是標點符號、單詞的一部分，或者更多——總共大約有 100,000 個 token。
其核心是，GPT 不斷生成下一個要生成的令牌的概率分佈，以先前令牌的字符串為條件。
神經網絡生成分佈後，OpenAI 服務器實際上根據該分佈（或分佈的某種修改版本，具體取決於稱為“溫度”的參數）對令牌進行採樣。
不過，只要溫度非零，下一個標記的選擇通常會存在一些隨機性：您可以使用相同的提示一遍又一遍地運行，並且每次都會得到不同的完成（即輸出標記字符串）。
因此，對於水印，我們的想法不是隨機選擇下一個令牌，而是使用加密偽隨機函數來偽隨機選擇它，其密鑰只有 OpenAI 知道。”

對於閱讀文本的人來說，水印看起來完全自然，因為單詞的選擇模仿了所有其他單詞的隨機性。

這是技術解釋：

“為了說明這一點，在 GPT 有一堆可能的標記的特殊情況下，它認為這些標記的可能性相同，您可以簡單地選擇使 g 最大化的標記。對於不知道密鑰的人來說，這個選擇看起來完全是隨機的，但知道密鑰的人稍後可以對所有 n 元語法求和，並發現它異常大。”

水印是隱私優先的解決方案

我在社交媒體上看到過一些討論，有人建議 OpenAI 可以記錄它生成的每個輸出，並將其用於檢測。

Scott Aaronson 證實 OpenAI 可以做到這一點，但這樣做會帶來隱私問題。可能的例外是執法情況，但他沒有詳細說明。

如何檢測 ChatGPT 或 GPT 水印

有趣的是，斯科特·阿倫森（Scott Aaronson）指出，有一種方法可以克服水印，但這一點似乎還不為人所知。

他沒有說可以打敗水印，他說可以打敗。

“現在，只要有足夠的努力，這一切都可以戰勝。
例如，如果你使用另一個人工智能來解釋 GPT 的輸出——好吧，我們將無法檢測到這一點。”

看來水印可以被擊敗，至少從 11 月份發表上述聲明的時候開始是這樣。

沒有跡象表明當前正在使用水印。但當它真正投入使用時，可能不知道這個漏洞是否被堵住。

引文

請在此處閱讀 Scott Aaronson 的博客文章。

ChatGPT 水印的工作原理以及它為何會被擊敗

加密水印

Scott Aaronson 和 ChatGPT 水印

ChatGPT 水印如何工作？

水印是隱私優先的解決方案

如何檢測 ChatGPT 或 GPT 水印

引文

相關文章