OpenAI GPT-4 預計於2023年3月中旬問世

gpt-4-640b66db8c60d-sej-1520x800.jpg

微軟德國首席技術官安德烈斯·布勞恩證實,GPT-4將於2023年3月9日後的一周內推出,且將具備多模態功能。多模態人工智能表示它將能夠處理多種輸入方式,如視頻、圖像和聲音。

更新:GPT-4 於2023年3月14日發布

OpenAI 於 2023 年 3 月 14 日推出了 GPT-4。它是一個多模型模型,能接受圖像和文字的提示。

「模態」是一個在機器學習中常用的詞語,用來表示文本等形式的輸入,也包括聲音、視覺、嗅覺等感官。

OpenAI的公告描述了GPT-4的進展規模:

「… 雖然在許多現實情境下不及人類,但在各種專業和學術基準上展現出與人類相當的表現。

例如,它通過模擬的酒吧考試,得分約在前10%的考生之上;相比之下,GPT-3.5的得分約在後10%的考生之下。

我們花了六個月的時間,使用對抗性測試計劃和ChatGPT的經驗,逐步調整GPT-4,結果在事實性、可操作性和不越界方面取得了迄今最佳的結果(雖然並非完美)。」

多模態大型語言模型

這個公告的重要消息是 GPT-4 是多模態的(SEJ 在 2023 年一月份已經預測過GPT-4 是多模態的)。

模態是指一個(在這個情況下為)大型語言模型處理的輸入類型。

多模式可以包括文字、語音、圖像和視頻。

GPT-3 和 GPT-3.5 只以一種模式進行操作,即文字模式。

根據德國新聞報導,GPT-4可能能夠以至少四種模式運作,包括圖像、聲音(聽覺)、文字和視頻。

德國微軟首席技術長安德烈亞斯·布勞恩博士的話:

「下週我們將推出GPT-4,那裡會有多模式模型,提供完全不同的可能性 - 例如視頻...」

據報導,關於GPT-4缺乏具體細節,因此不清楚所分享的多模態內容是針對GPT-4特定,還是僅為一般性的描述。

微軟業務策略總監 Holger Kenn 解釋了多模態,但報導不明確他是指 GPT-4 的多模態還是一般的多模態。

我相信他對多模態性的提及是特指 GPT-4。

新聞報導如下:

「肯恩解釋了什麼是多模態人工智慧,它不僅可以將文本準確地轉化為圖像,還能轉化為音樂和視頻。」

另一個有趣的事實是,微軟正在致力於開發「信心指標」,以便為他們的人工智慧提供事實依據,使其更加可靠。

Microsoft Kosmos-1

在美國似乎沒有得到足夠報導的一件事是,微軟於2023年3月初推出了一個名為Kosmos-1的多模態語言模型。

根據德國新聞網站Heise.de的報導:

「...團隊對預訓練模型進行了各種測試,結果良好,能夠對圖像進行分類、回答有關圖像內容的問題、自動標註圖像、光學文字識別和語音生成等任務。」

...視覺推理,即在不使用語言作為中間步驟的情況下,對圖像進行推論似乎是關鍵所在...

Kosmos-1 是一個多模態介面,整合了文字和圖像的模態。

GPT-4比Kosmos-1更進一步,因為它新增了第三種模式,即視頻,並且還似乎包含了聲音這一模式。

適用於多種語言

GPT-4似乎可以適用於所有語言。據稱它可以接收德語問題並以義大利語回答。

這是一個有些奇怪的例子,因為誰會用德語問問題並期望用義大利語得到答案呢?

這是已確認的內容:

「…技術已經發展到可以在任何語言上運作的地步:您可以用德語提問,並獲得意大利語的答案。」

有了多模態功能,Microsoft(-OpenAI)將使模型變得全面。」

我相信突破的關鍵在於這個模型能夠跨越語言的能力,擁有在不同語言之間提取知識的能力。因此,如果答案是用意大利語表達的,它將能夠知道並能夠以問題所使用的語言提供答案。

這將使其與谷歌的多模態AI目標類似,名為 MUM。據說 MUM 能夠提供英文回答,而這些回答的數據只存在於另一種語言,比如日語。

GPT-4 應用

目前還沒有關於 GPT-4 將會出現在何處的公告。但 Azure-OpenAI 被特別提及。

Google正在努力迎頭趕上微軟,將競爭技術整合到自家的搜索引擎中。這一發展進一步加劇了人們對於Google在消費者AI方面的領先地位喪失及領導力不足的看法。

Google已經在多個產品中整合了AI,如Google Lens、Google Maps和其他消費者與Google互動的領域。這種方法是利用AI作為輔助技術,幫助人們完成一些小任務。

微軟的實施方式更加顯眼,因此它吸引了所有的注意力,並加強了Google處於努力追趕的構象。

在此處閱讀官方OpenAI GPT-4發佈公告。

在此閱讀原始德國報導:

GPT-4下週即將面世 - 並且它將是多模式的,微軟德國表示

相關文章

查看更多 >>

透過 HIX.AI 釋放 AI 的力量!