微軟德國首席技術官安德烈斯·布勞恩證實,GPT-4將於2023年3月9日後的一周內推出,且將具備多模態功能。多模態人工智能表示它將能夠處理多種輸入方式,如視頻、圖像和聲音。
更新:GPT-4 於2023年3月14日發布
OpenAI 於 2023 年 3 月 14 日推出了 GPT-4。它是一個多模型模型,能接受圖像和文字的提示。
「模態」是一個在機器學習中常用的詞語,用來表示文本等形式的輸入,也包括聲音、視覺、嗅覺等感官。
OpenAI的公告描述了GPT-4的進展規模:
「… 雖然在許多現實情境下不及人類,但在各種專業和學術基準上展現出與人類相當的表現。
例如,它通過模擬的酒吧考試,得分約在前10%的考生之上;相比之下,GPT-3.5的得分約在後10%的考生之下。
我們花了六個月的時間,使用對抗性測試計劃和ChatGPT的經驗,逐步調整GPT-4,結果在事實性、可操作性和不越界方面取得了迄今最佳的結果(雖然並非完美)。」
多模態大型語言模型
這個公告的重要消息是 GPT-4 是多模態的(SEJ 在 2023 年一月份已經預測過GPT-4 是多模態的)。
模態是指一個(在這個情況下為)大型語言模型處理的輸入類型。
多模式可以包括文字、語音、圖像和視頻。
GPT-3 和 GPT-3.5 只以一種模式進行操作,即文字模式。
根據德國新聞報導,GPT-4可能能夠以至少四種模式運作,包括圖像、聲音(聽覺)、文字和視頻。
德國微軟首席技術長安德烈亞斯·布勞恩博士的話:
「下週我們將推出GPT-4,那裡會有多模式模型,提供完全不同的可能性 - 例如視頻...」
據報導,關於GPT-4缺乏具體細節,因此不清楚所分享的多模態內容是針對GPT-4特定,還是僅為一般性的描述。
微軟業務策略總監 Holger Kenn 解釋了多模態,但報導不明確他是指 GPT-4 的多模態還是一般的多模態。
我相信他對多模態性的提及是特指 GPT-4。
新聞報導如下:
「肯恩解釋了什麼是多模態人工智慧,它不僅可以將文本準確地轉化為圖像,還能轉化為音樂和視頻。」
另一個有趣的事實是,微軟正在致力於開發「信心指標」,以便為他們的人工智慧提供事實依據,使其更加可靠。
Microsoft Kosmos-1
在美國似乎沒有得到足夠報導的一件事是,微軟於2023年3月初推出了一個名為Kosmos-1的多模態語言模型。
根據德國新聞網站Heise.de的報導:
「...團隊對預訓練模型進行了各種測試,結果良好,能夠對圖像進行分類、回答有關圖像內容的問題、自動標註圖像、光學文字識別和語音生成等任務。」
...視覺推理,即在不使用語言作為中間步驟的情況下,對圖像進行推論似乎是關鍵所在...
Kosmos-1 是一個多模態介面,整合了文字和圖像的模態。
GPT-4比Kosmos-1更進一步,因為它新增了第三種模式,即視頻,並且還似乎包含了聲音這一模式。
適用於多種語言
GPT-4似乎可以適用於所有語言。據稱它可以接收德語問題並以義大利語回答。
這是一個有些奇怪的例子,因為誰會用德語問問題並期望用義大利語得到答案呢?
這是已確認的內容:
「…技術已經發展到可以在任何語言上運作的地步:您可以用德語提問,並獲得意大利語的答案。」
有了多模態功能,Microsoft(-OpenAI)將使模型變得全面。」
我相信突破的關鍵在於這個模型能夠跨越語言的能力,擁有在不同語言之間提取知識的能力。因此,如果答案是用意大利語表達的,它將能夠知道並能夠以問題所使用的語言提供答案。
這將使其與谷歌的多模態AI目標類似,名為 MUM。據說 MUM 能夠提供英文回答,而這些回答的數據只存在於另一種語言,比如日語。
GPT-4 應用
目前還沒有關於 GPT-4 將會出現在何處的公告。但 Azure-OpenAI 被特別提及。
Google正在努力迎頭趕上微軟,將競爭技術整合到自家的搜索引擎中。這一發展進一步加劇了人們對於Google在消費者AI方面的領先地位喪失及領導力不足的看法。
Google已經在多個產品中整合了AI,如Google Lens、Google Maps和其他消費者與Google互動的領域。這種方法是利用AI作為輔助技術,幫助人們完成一些小任務。
微軟的實施方式更加顯眼,因此它吸引了所有的注意力,並加強了Google處於努力追趕的構象。
在此處閱讀官方OpenAI GPT-4發佈公告。
在此閱讀原始德國報導:
GPT-4下週即將面世 - 並且它將是多模式的,微軟德國表示