ChatGPT 水印的工作原理以及它為何會被擊敗

chatgpt-水印.jpg

OpenAI 的 ChatGPT 引入了一種自動創建內容的方法,但計劃引入水印功能以使其易於檢測,這讓一些人感到緊張。這就是 ChatGPT 水印的工作原理以及為什麼可能有辦法擊敗它。

ChatGPT 是一款令人難以置信的工具,令在線出版商、附屬機構和 SEO 既又愛又怕。

一些營銷人員喜歡它,因為他們正在發現使用它來生成內容簡介、大綱和復雜文章的新方法。

在線出版商擔心人工智能內容會充斥搜索結果,取代人類撰寫的專家文章。

因此,有關可解鎖 ChatGPT 創作內容檢測的水印功能的消息同樣令人既焦慮又充滿希望。

加密水印

水印是嵌入到圖像上的半透明標記(徽標或文本)。水印表明誰是該作品的原作者。

它主要出現在照片中,並且越來越多地出現在視頻中。

ChatGPT 中的文本水印涉及以密碼形式嵌入單詞、字母和標點符號模式的加密技術。

Scott Aaronson 和 ChatGPT 水印

OpenAI 於 2022 年 6 月聘請了一位頗具影響力的計算機科學家 Scott Aaronson,負責 AI 安全和對齊方面的工作。

人工智能安全是一個研究領域,涉及研究人工智能可能對人類造成傷害的方式,並創造方法來防止這種負面破壞。

以 OpenAI 附屬作者為特色的 Distill 科學期刊對 AI 安全的定義如下:

“人工智能 (AI) 長期安全的目標是確保先進的人工智能係統可靠地符合人類價值觀——它們可靠地做人們希望它們做的事情。”

人工智能對齊是人工智能領域,涉及確保人工智能與預期目標保持一致。

像 ChatGPT 這樣的大型語言模型 (LLM) 的使用方式可能會與 OpenAI 定義的 AI Alignment 目標相悖,即創建造福人類的 AI。

因此,加水印的原因是為了防止人工智能以危害人類的方式被濫用。

Aaronson 解釋了為 ChatGPT 輸出添加水印的原因:

“這顯然有助於防止學術剽竊,但也有助於大規模宣傳……”

ChatGPT 水印如何工作?

ChatGPT 水印是一個將統計模式、代碼嵌入到單詞甚至標點符號選擇中的系統。

人工智能創建的內容是通過相當可預測的詞語選擇模式生成的。

人類和人工智能寫的文字遵循統計模式。

更改生成內容中使用的單詞模式是一種給文本“加水印”的方法,使系統可以輕鬆檢測它是否是人工智能文本生成器的產品。

使人工智能內容水印無法被檢測到的技巧是,單詞的分佈仍然具有類似於正常人工智能生成文本的隨機外觀。

這被稱為詞的偽隨機分佈。

偽隨機性是統計上隨機的一系列單詞或數字,但實際上並不是隨機的。

ChatGPT 水印當前未使用。然而 OpenAI 的 Scott Aaronson 已公開表示這是有計劃的。

目前 ChatGPT 處於預覽階段,OpenAI 可以通過它在實際使用中發現“錯位”。

據推測,水印可能會在 ChatGPT 的最終版本或更早版本中引入。

Scott Aaronson 寫了關於水印如何工作的文章:

“到目前為止,我的主要項目是一個對 GPT 等文本模型的輸出進行統計水印的工具。

基本上,每當 GPT 生成一些長文本時,我們希望在其單詞選擇中存在一個原本不易察覺的秘密信號,您可以稍後用它來證明,是的,這是來自 GPT。”

Aaronson 進一步解釋了 ChatGPT 水印的工作原理。但首先,了解標記化的概念很重要。

標記化是自然語言處理中發生的一個步驟,其中機器獲取文檔中的單詞並將它們分解為單詞和句子等語義單元。

標記化將文本更改為可用於機器學習的結構化形式。

文本生成的過程是機器根據前一個標記猜測接下來出現哪個標記。

這是通過數學函數來完成的,該函數確定下一個標記的概率,即所謂的概率分佈。

接下來的單詞是預測的,但它是隨機的。

水印本身就是 Aaron 所描述的偽隨機性,因為特定單詞或標點符號的存在有數學原因,但它仍然是統計上隨機的。

以下是GPT水印的技術解釋:

“對於 GPT 來說,每個輸入和輸出都是一串 token,可以是單詞,也可以是標點符號、單詞的一部分,或者更多——總共大約有 100,000 個 token。

其核心是,GPT 不斷生成下一個要生成的令牌的概率分佈,以先前令牌的字符串為條件。

神經網絡生成分佈後,OpenAI 服務器實際上根據該分佈(或分佈的某種修改版本,具體取決於稱為“溫度”的參數)對令牌進行採樣。

不過,只要溫度非零,下一個標記的選擇通常會存在一些隨機性:您可以使用相同的提示一遍又一遍地運行,並且每次都會得到不同的完成(即輸出標記字符串) 。

因此,對於水印,我們的想法不是隨機選擇下一個令牌,而是使用加密偽隨機函數來偽隨機選擇它,其密鑰只有 OpenAI 知道。”

對於閱讀文本的人來說,水印看起來完全自然,因為單詞的選擇模仿了所有其他單詞的隨機性。

這是技術解釋:

“為了說明這一點,在 GPT 有一堆可能的標記的特殊情況下,它認為這些標記的可能性相同,您可以簡單地選擇使 g 最大化的標記。對於不知道密鑰的人來說,這個選擇看起來完全是隨機的,但知道密鑰的人稍後可以對所有 n 元語法求和,並發現它異常大。”

水印是隱私優先的解決方案

我在社交媒體上看到過一些討論,有人建議 OpenAI 可以記錄它生成的每個輸出,並將其用於檢測。

Scott Aaronson 證實 OpenAI 可以做到這一點,但這樣做會帶來隱私問題。可能的例外是執法情況,但他沒有詳細說明。

如何檢測 ChatGPT 或 GPT 水印

有趣的是,斯科特·阿倫森(Scott Aaronson)指出,有一種方法可以克服水印,但這一點似乎還不為人所知。

他沒有說可以打敗水印,他說可以打敗。

“現在,只要有足夠的努力,這一切都可以戰勝。

例如,如果你使用另一個人工智能來解釋 GPT 的輸出——好吧,我們將無法檢測到這一點。”

看來水印可以被擊敗,至少從 11 月份發表上述聲明的時候開始是這樣。

沒有跡象表明當前正在使用水印。但當它真正投入使用時,可能不知道這個漏洞是否被堵住。

引文

請在此處閱讀 Scott Aaronson 的博客文章。

相關文章

查看更多 >>

透過 HIX.AI 釋放 AI 的力量!