OpenAI GPT-4 將於 2023 年 3 月中旬到來

微軟德國首席技術官安德烈斯·布勞恩證實，GPT-4將於2023年3月9日後的一周內推出，且將具備多模態功能。多模態人工智能表示它將能夠處理多種輸入方式，如視頻、圖像和聲音。

更新：GPT-4 於2023年3月14日發布

OpenAI 於 2023 年 3 月 14 日推出了 GPT-4。它是一個多模型模型，能接受圖像和文字的提示。

「模態」是一個在機器學習中常用的詞語，用來表示文本等形式的輸入，也包括聲音、視覺、嗅覺等感官。

OpenAI的公告描述了GPT-4的進展規模：

「… 雖然在許多現實情境下不及人類，但在各種專業和學術基準上展現出與人類相當的表現。

例如，它通過模擬的酒吧考試，得分約在前10%的考生之上；相比之下，GPT-3.5的得分約在後10%的考生之下。

我們花了六個月的時間，使用對抗性測試計劃和ChatGPT的經驗，逐步調整GPT-4，結果在事實性、可操作性和不越界方面取得了迄今最佳的結果（雖然並非完美）。」

多模態大型語言模型

這個公告的重要消息是 GPT-4 是多模態的（SEJ 在 2023 年一月份已經預測過GPT-4 是多模態的）。

模態是指一個（在這個情況下為）大型語言模型處理的輸入類型。

多模式可以包括文字、語音、圖像和視頻。

GPT-3 和 GPT-3.5 只以一種模式進行操作，即文字模式。

根據德國新聞報導，GPT-4可能能夠以至少四種模式運作，包括圖像、聲音（聽覺）、文字和視頻。

德國微軟首席技術長安德烈亞斯·布勞恩博士的話：

「下週我們將推出GPT-4，那裡會有多模式模型，提供完全不同的可能性 - 例如視頻...」

據報導，關於GPT-4缺乏具體細節，因此不清楚所分享的多模態內容是針對GPT-4特定，還是僅為一般性的描述。

微軟業務策略總監 Holger Kenn 解釋了多模態，但報導不明確他是指 GPT-4 的多模態還是一般的多模態。

我相信他對多模態性的提及是特指 GPT-4。

新聞報導如下：

「肯恩解釋了什麼是多模態人工智慧，它不僅可以將文本準確地轉化為圖像，還能轉化為音樂和視頻。」

另一個有趣的事實是，微軟正在致力於開發「信心指標」，以便為他們的人工智慧提供事實依據，使其更加可靠。

Microsoft Kosmos-1

在美國似乎沒有得到足夠報導的一件事是，微軟於2023年3月初推出了一個名為Kosmos-1的多模態語言模型。

根據德國新聞網站Heise.de的報導：

「...團隊對預訓練模型進行了各種測試，結果良好，能夠對圖像進行分類、回答有關圖像內容的問題、自動標註圖像、光學文字識別和語音生成等任務。」

...視覺推理，即在不使用語言作為中間步驟的情況下，對圖像進行推論似乎是關鍵所在...

Kosmos-1 是一個多模態介面，整合了文字和圖像的模態。

GPT-4比Kosmos-1更進一步，因為它新增了第三種模式，即視頻，並且還似乎包含了聲音這一模式。

適用於多種語言

GPT-4似乎可以適用於所有語言。據稱它可以接收德語問題並以義大利語回答。

這是一個有些奇怪的例子，因為誰會用德語問問題並期望用義大利語得到答案呢？

這是已確認的內容：

「…技術已經發展到可以在任何語言上運作的地步：您可以用德語提問，並獲得意大利語的答案。」

有了多模態功能，Microsoft（-OpenAI）將使模型變得全面。」

我相信突破的關鍵在於這個模型能夠跨越語言的能力，擁有在不同語言之間提取知識的能力。因此，如果答案是用意大利語表達的，它將能夠知道並能夠以問題所使用的語言提供答案。

這將使其與谷歌的多模態AI目標類似，名為 MUM。據說 MUM 能夠提供英文回答，而這些回答的數據只存在於另一種語言，比如日語。

GPT-4 應用

目前還沒有關於 GPT-4 將會出現在何處的公告。但 Azure-OpenAI 被特別提及。

Google正在努力迎頭趕上微軟，將競爭技術整合到自家的搜索引擎中。這一發展進一步加劇了人們對於Google在消費者AI方面的領先地位喪失及領導力不足的看法。

Google已經在多個產品中整合了AI，如Google Lens、Google Maps和其他消費者與Google互動的領域。這種方法是利用AI作為輔助技術，幫助人們完成一些小任務。

微軟的實施方式更加顯眼，因此它吸引了所有的注意力，並加強了Google處於努力追趕的構象。

在此處閱讀官方OpenAI GPT-4發佈公告。

在此閱讀原始德國報導：

GPT-4下週即將面世 - 並且它將是多模式的，微軟德國表示

OpenAI GPT-4 預計於2023年3月中旬問世

更新：GPT-4 於2023年3月14日發布

多模態大型語言模型

Microsoft Kosmos-1

適用於多種語言

GPT-4 應用

相關文章