一日驚豔后翻車?Google「雙子座」大模型6分鐘影片被曝經過了剪輯 - 新浪香港

一日驚豔后翻車?Google「雙子座」大模型6分鐘影片被曝經過了剪輯

年初bard首戰「翻車」後,香港時間12月7日,Google推出了大模型Gemini(中文名稱「雙子座」),並發佈了一系列令人眼花繚亂的演示影片。這次「雙子座」能對決GPT-4嗎?

在這些演示影片中,最令人稱奇的莫過於在一段4分鐘的演示影片里,當測試人員進行繪畫、變魔術等操作時,雙子座可以即時發表觀點,和測試人員實時互動,僅看影片中的表現,雙子座的理解力甚至達到了人類的水平。

「僅就演示的內容來看,雙子座的影片理解能力無疑達到了當前最領先的水平。」北京某大模型的算法工程師在接受新京報貝殼財經記者採訪時表示,「這個能力來源於雙子座在訓練的時候就天然加入了大量的影片數據,並且在架構上就支持影片理解。」

不過,在發佈僅一天之後,許多用戶在測試中發現,雙子座的影片理解能力並不像演示中那樣「絲滑」。對此,Google很快發佈了一篇博客文章解釋了演示影片中的多模態交互過程,幾乎承認了使用靜態圖片和多段提示詞拚湊,才能達成這樣的效果。此外,也有網民注意到,Google在演示影片中有一個重要的免責聲明:為了演示效果減少了延遲,雙子座的輸出也被簡化了。

即便如此,在不少專業人士看來,Google也終於推出了一款能和OpenAI「過兩招」的大模型,作為人工智能的老牌廠商,Google「家底」豐厚,雙子座也將成為GPT的有力競爭者。

剪輯了哪裡?演示影片和實際差多少?

「你看Google最新大模型的影片演示了嗎?多模態的切換是質變啊,特別是玩遊戲地圖那裡,人都不一定能反應過來。」12月7日,從事網站開發的劉先生給貝殼財經記者發來了一段演示影片。

在這段令眾多從業者興奮的Google大模型雙子座演示影片中,測試人員拿出了一張紙,雙子座立刻回答「你拿出了一張紙」,隨著測試人員在紙上繪畫曲線、填色,雙子座立刻「秒懂」,並隨著測試人員的動作繼續解說:「你在畫曲線,看上去像是一隻鳥,是一隻鴨子,但藍色的鴨子並不常見,鴨子大多數是棕色的,中文的鴨子發音是‘yazi’,中文有四種音調。」當測試者把一隻藍色的橡皮鴨子放到世界地圖上時,雙子座看到立刻說「這隻鴨子被放到大海中間了,這裏不常有鴨子。」

此後,測試人員又開始使用手勢和雙子座「互動」,當測試人員擺出了剪刀和布的動作時,雙子座就「搶答」說「你在玩石頭剪刀布」,之後,雙子座還猜出了用手模仿的老鷹和狗的形象。

不過,貝殼財經記者在這段影片中發現了不少剪輯的痕跡,如石頭剪刀布中,測試者出拳時的動作明顯被剪去了不少。對此,Google發佈了博客進行了「答疑解惑」:當給出雙子座一張「出布」的圖片,雙子座的回答是「我看到了一隻右手,手掌張開五指分開」;當給出「出拳頭」的圖片,雙子座的回答是「一個人在敲門」;當給出「出剪刀」圖片時,雙子座的回答是「我看到一個食指和中指伸出的手。」只有把這三張圖片放到一起,並問「你覺得我在幹什麼?」時,雙子座才會回答「你在玩石頭剪刀布」。

所以實際上,雖然雙子座的回答依舊是真實的,但實際應用可能並沒有演示影片中表現得那樣「絲滑」。

來源:Google發佈的「雙子座」演示影片。來源:Google發佈的「雙子座」演示影片。

多模態能力是怎樣「煉成」的?

通過這次演示,許多業界人士也承認Google確確實實在追趕OpenAI的過程中邁出了一步。實際上,在ChatGPT出現之前,Google一直在人工智能領域處於領先地位,不過,「既生瑜何生亮」, ChatGPT的一騎絕塵讓Google壓力山大,今年2月推出對標ChatGPT的bard但首戰「翻車」後,Google一直缺乏一個足夠優秀的大模型來提振士氣。

而「雙子座」出現後,Google至少在多模態理解領域上體現出了一定的特色。「雙子座是原生的多模態大模型,即其在訓練的時候就是多模態的。Google在搜索、長影片、在線文檔等本來就有強大的生態,另外Google顯卡多,算力是OpenAI的好幾倍,現在是在‘燒家底’來追趕OpenAI。」一位畢業於清華自動化專業的大模型從業者告訴貝殼財經記者。

具體來看,雙子座模型包含三個版本:Gemini Ultra(超大杯),規模最大、能力最強的版本;Gemini Pro(大杯),可以適用於廣泛的任務;Gemini Nano(中杯),將用於特定的任務以及移動設備。

除了多模態能力外,雙子座在文本理解、代碼運算等許多方面也表現不俗,在一個MMLU多任務語言理解數據集測試中,Gemini Ultra不光超越了GPT-4,甚至超越了人類專家。貝殼財經記者登錄Googledeepmind官網發現,「見證雙子座——我們最有能力的大模型」這句話被放在了首頁。

目前,用戶可以從Googlebard的端口進入體驗Gemini Pro的能力,但貝殼財經記者測試發現,該能力僅提供給部分地區。通過一些國外網民的測試,用戶既可以向雙子座輸入圖片,也可以向雙子座輸入文本,而根據測試結果,Gemini Pro和同樣具有多模態能力的GPT-4V在不少問題的回答上 「各有千秋」,並沒有被GTP-4V碾壓。

「根據我的觀察,目前雙子座在文本上的能力還是略遜於GPT4,但Google的技術實力仍然屬於第一梯隊。」上述大模型算法工程師表示。

他告訴貝殼財經記者,要想讓大模型擁有理解圖像影片聲音的「多模態能力」,技術上可以看成把LLaVA (一種多模態預訓練模型)的圖像理解模塊擴充到了影片和語音上,訓練的時候額外加入影片、音頻數據,「其實就是證明了,雙子座第一次將影片和語音理解做進了大模型裡面,驗證了這兩者在大模型上的可行性。」

「總體來說,本次Google大模型的發佈符合預期,雙子座的每個技術點之前都在學術界被驗證過,可以找到相應的論文。未來,個人助手是一個很吸引人的場景,相比大語言模型,多模態大模型能夠扮演一個能聽能看能說能畫的助手,更像一個人類了。」這名大模型算法工程師對貝殼財經記者說。

luoyidan@xjbnews.com

新京報貝殼財經記者 羅亦丹

編輯 嶽彩周

校對 柳寶慶