一日驚豔后翻車？Google「雙子座」大模型6分鐘影片被曝經過了剪輯

年初bard首戰「翻車」後，香港時間12月7日，Google推出了大模型Gemini（中文名稱「雙子座」），並發佈了一系列令人眼花繚亂的演示影片。這次「雙子座」能對決GPT-4嗎？

在這些演示影片中，最令人稱奇的莫過於在一段4分鐘的演示影片里，當測試人員進行繪畫、變魔術等操作時，雙子座可以即時發表觀點，和測試人員實時互動，僅看影片中的表現，雙子座的理解力甚至達到了人類的水平。

「僅就演示的內容來看，雙子座的影片理解能力無疑達到了當前最領先的水平。」北京某大模型的算法工程師在接受新京報貝殼財經記者採訪時表示，「這個能力來源於雙子座在訓練的時候就天然加入了大量的影片數據，並且在架構上就支持影片理解。」

不過，在發佈僅一天之後，許多用戶在測試中發現，雙子座的影片理解能力並不像演示中那樣「絲滑」。對此，Google很快發佈了一篇博客文章解釋了演示影片中的多模態交互過程，幾乎承認了使用靜態圖片和多段提示詞拚湊，才能達成這樣的效果。此外，也有網民注意到，Google在演示影片中有一個重要的免責聲明：為了演示效果減少了延遲，雙子座的輸出也被簡化了。

即便如此，在不少專業人士看來，Google也終於推出了一款能和OpenAI「過兩招」的大模型，作為人工智能的老牌廠商，Google「家底」豐厚，雙子座也將成為GPT的有力競爭者。

剪輯了哪裡？演示影片和實際差多少？

「你看Google最新大模型的影片演示了嗎？多模態的切換是質變啊，特別是玩遊戲地圖那裡，人都不一定能反應過來。」12月7日，從事網站開發的劉先生給貝殼財經記者發來了一段演示影片。

在這段令眾多從業者興奮的Google大模型雙子座演示影片中，測試人員拿出了一張紙，雙子座立刻回答「你拿出了一張紙」，隨著測試人員在紙上繪畫曲線、填色，雙子座立刻「秒懂」，並隨著測試人員的動作繼續解說：「你在畫曲線，看上去像是一隻鳥，是一隻鴨子，但藍色的鴨子並不常見，鴨子大多數是棕色的，中文的鴨子發音是‘yazi’，中文有四種音調。」當測試者把一隻藍色的橡皮鴨子放到世界地圖上時，雙子座看到立刻說「這隻鴨子被放到大海中間了，這裏不常有鴨子。」

此後，測試人員又開始使用手勢和雙子座「互動」，當測試人員擺出了剪刀和布的動作時，雙子座就「搶答」說「你在玩石頭剪刀布」，之後，雙子座還猜出了用手模仿的老鷹和狗的形象。

不過，貝殼財經記者在這段影片中發現了不少剪輯的痕跡，如石頭剪刀布中，測試者出拳時的動作明顯被剪去了不少。對此，Google發佈了博客進行了「答疑解惑」：當給出雙子座一張「出布」的圖片，雙子座的回答是「我看到了一隻右手，手掌張開五指分開」；當給出「出拳頭」的圖片，雙子座的回答是「一個人在敲門」；當給出「出剪刀」圖片時，雙子座的回答是「我看到一個食指和中指伸出的手。」只有把這三張圖片放到一起，並問「你覺得我在幹什麼？」時，雙子座才會回答「你在玩石頭剪刀布」。

所以實際上，雖然雙子座的回答依舊是真實的，但實際應用可能並沒有演示影片中表現得那樣「絲滑」。

來源：Google發佈的「雙子座」演示影片。

多模態能力是怎樣「煉成」的？

通過這次演示，許多業界人士也承認Google確確實實在追趕OpenAI的過程中邁出了一步。實際上，在ChatGPT出現之前，Google一直在人工智能領域處於領先地位，不過，「既生瑜何生亮」， ChatGPT的一騎絕塵讓Google壓力山大，今年2月推出對標ChatGPT的bard但首戰「翻車」後，Google一直缺乏一個足夠優秀的大模型來提振士氣。

而「雙子座」出現後，Google至少在多模態理解領域上體現出了一定的特色。「雙子座是原生的多模態大模型，即其在訓練的時候就是多模態的。Google在搜索、長影片、在線文檔等本來就有強大的生態，另外Google顯卡多，算力是OpenAI的好幾倍，現在是在‘燒家底’來追趕OpenAI。」一位畢業於清華自動化專業的大模型從業者告訴貝殼財經記者。

具體來看，雙子座模型包含三個版本：Gemini Ultra（超大杯），規模最大、能力最強的版本；Gemini Pro（大杯），可以適用於廣泛的任務；Gemini Nano（中杯），將用於特定的任務以及移動設備。

除了多模態能力外，雙子座在文本理解、代碼運算等許多方面也表現不俗，在一個MMLU多任務語言理解數據集測試中，Gemini Ultra不光超越了GPT-4，甚至超越了人類專家。貝殼財經記者登錄Googledeepmind官網發現，「見證雙子座——我們最有能力的大模型」這句話被放在了首頁。

目前，用戶可以從Googlebard的端口進入體驗Gemini Pro的能力，但貝殼財經記者測試發現，該能力僅提供給部分地區。通過一些國外網民的測試，用戶既可以向雙子座輸入圖片，也可以向雙子座輸入文本，而根據測試結果，Gemini Pro和同樣具有多模態能力的GPT-4V在不少問題的回答上「各有千秋」，並沒有被GTP-4V碾壓。

「根據我的觀察，目前雙子座在文本上的能力還是略遜於GPT4，但Google的技術實力仍然屬於第一梯隊。」上述大模型算法工程師表示。

他告訴貝殼財經記者，要想讓大模型擁有理解圖像影片聲音的「多模態能力」，技術上可以看成把LLaVA （一種多模態預訓練模型）的圖像理解模塊擴充到了影片和語音上，訓練的時候額外加入影片、音頻數據，「其實就是證明了，雙子座第一次將影片和語音理解做進了大模型裡面，驗證了這兩者在大模型上的可行性。」

「總體來說，本次Google大模型的發佈符合預期，雙子座的每個技術點之前都在學術界被驗證過，可以找到相應的論文。未來，個人助手是一個很吸引人的場景，相比大語言模型，多模態大模型能夠扮演一個能聽能看能說能畫的助手，更像一個人類了。」這名大模型算法工程師對貝殼財經記者說。

luoyidan@xjbnews.com

新京報貝殼財經記者羅亦丹

編輯嶽彩周

校對柳寶慶