【最台 AI 聊天機器人來了!試玩給你看】結合臺灣在地語言+文化,臺大博士生打造繁中 LLaMa  | TechOrange 科技報橘
Search
Close this search box.

【最台 AI 聊天機器人來了!試玩給你看】結合臺灣在地語言+文化,臺大博士生打造繁中 LLaMa 

臺大博士生推出AI聊天機器人

臺灣之光再一樁!這次我們有了屬於自己的語言模型,再也不是只能輸入英文的 AI 聊天框,而是一個專門為臺灣人量身打造的大型語言模型 – Taiwan-LLaMa v1.0。它的名字由 META AI 模型(LLaMa)延伸發想,從臺灣本土文化到口語化詞彙,都完美融入在裡頭。

AI 模型融入臺灣用語,繁體中文版 LLaMa 出自「臺大博士生」之手!

該 LLaMa 模型取名為-Taiwan-LLaMa v1.0  ,不僅支援繁體中文以符合臺灣人用語,還進行了特殊調校,以適應臺灣在地使用習慣。它基於 LLaMa 2 架構,包括了超過 50 億個 token 預訓練模型,並在超過 49 萬多次的繁體中文對話數據上進行了微調。

由於 AI 模型由數學演算法搭建,需使用大量數據來進行訓練,而預訓練模型則採用了開發者自定義的數據來重新訓練,例如本次介紹的語言模型,使用了大量與台灣有關的文化詞語與常用詞彙,以符合台灣人使用需求( Taiwan-LLaMa:我是正港歹灣郎!)

Taiwan-LLaMa v1.0 開發者臺大資訊系博士生林彥廷表示:「我們非常興奮地宣布能針對臺灣打造大型語言模型,該繁體中文模型進行指令調教優化(Instruction-tuning),以適應臺灣文化和相關應用支援」。

測試分數表現不凡,更支援 ChatGPT 最新功能:自定義提示詞!

Taiwan-LLaMa 開發者林彥廷,同時透露該語言模型在 Vicuna Benchmark 訓練中,以 ChatGPT 為 100 分基準來計算的話,得到了近 80 分高分,說明該語言模型仍舊有一定水準表現( Vicuna Benchmark 為開源聊天機器人,通過收集大量對話以訓練語言模型)。

鑑於語言模型回答好壞取決於開發者對它的調教與訓練程度, 臺灣大學副教授陳縕儂更表示,用於訓練 Taiwan-LLaMa 的資料都經過特別處理,為了豐富其回答表現與對應時事議題,將會陸續加入許多與臺灣有密切相關的文化內容、媒體資料和常用辭彙,其目前特點包括以下:

  • 繁體中文支援:完全理解和生成繁體中文,非常適合臺灣人使用。
  • 指令調校優化:能更好地理解和回應指令,表現出色。
  • 多版本選擇:包括專為臺灣文化優化的版本和部分指令集版本。
  • 自定義提示詞:可自行加入習慣提示詞,以符合 AI 對話框客製化。

其中自定義提示詞為 ChatGPT 近期開放給用戶的新功能,同時也下放給免費用戶使用。Taiwan-LLaMa 同步跟進,證明該語言模型更新進度不落於人後。

至於還有哪些功能會被加進,甚至有無支援像是 ChatGPT 主打的插件功能 ,這些開發者尚未有進一步消息,不過 Taiwan-LLaMa 本身已開放給一般民眾自由使用。

玩過 Taiwan-LLaMa 用戶感受如何?連開發者年齡都被爆出了!

從 Taiwan-LLaMa 相關貼文與社團內部討論交流中,編輯進一步擷取了部分用戶使用該語言模型的心得與看法。

Taiwan-LLaMa v1.0 正式發布後,湧入了許多嚐鮮為快的用戶,有不少人稱讚使用體驗還不錯(下圖所示)。

也有人使用後對它如何訓練中文資料來源感到好奇(如下圖)。

甚至有一些腦洞大開的使用者,直接問 Taiwan-LLaMa 你的主人是誰,並進一步追問主人年齡,如此親暱問題,它則是以英文回答:「Yen-Ting-Lin」、「他今年 32 歲」。

對於 AI 聊天融入臺灣在地文化,讓多數使用者對它都產生無比好奇心,部分使用者進一步詢問更多的問題,不過卻出現與先前 ChatGPT 發生過的類似問題(回答到一半停止),可以看出任何語言模型,都需要不斷進化更新,以適應更高頻率與需求的使用。

想體驗臺灣版 LLaMa?編輯實際動手玩給你看!

目前有兩種方式可以免費使用 Taiwan-LLaMa:

1.進到 GitHub 下載安裝到自己電腦(GitHub 裡面提供安裝教學)。

2.直接到 DEMO 網站使用。

編輯這次用人人都懂的第 2 種方式玩看看 Taiwan-LLaMa,並且來測試看看它的回答能力如何!

首先,我問它對於科技報橘有什麼看法,從回答中來看,Taiwan-LLaMa 不對網站表達任何主觀看法,但它可以查閱使用者給出的網站連結進行分析,給出的答案也與我們理解到的概念相符(如下圖)。

再來問它近期爆紅的名詞「恐龍扛郎」是什麼,Taiwan-LLaMa 則是根據詞語本身延伸解釋,顯然太新的中文梗還未被收錄在裡頭。

接著,編輯繼續問它,另一個中文梗「歸缸唉」意思,它這次回答的比較完整,看起來也說的煞有其事,但似乎與維基百科提供的解釋仍有一段差異。說明如果要請當前模型語言解釋或說明某一個網路詞語,可能需要餵更多資訊給它,才有辦法回答出跟真實答案接近的結果出來。

編輯進一步提問更加需要動腦分析的問題「你認為 ChatGPT 跟 LLaMa 兩個AI語言模型,誰的能力比較強?」,這次 Taiwan-LLaMa 回答內容更豐富了一些,同時知道要善用分段結構讓文字易讀一些,但是在回答正確率方面仍有待加強(它提到 LLaMa 由 OpenAI 開發,但事實 LLaMa 由 META 開發才對)。

不過 Taiwan-LLaMa 仍舊總結看法「需要根據具體任務或要求來評估」,而不是把票投給任何一方,證明它還是有像人腦一樣經過思考後才給出見解。

這次由臺大博士生林彥廷開發的 Taiwan-LLaMa 大型語言模型,讓我們知道,臺灣也能在 AI 語言模型領域中大放異彩!從這個模型中,我們不只看到技術進步,更感受到臺灣文化和語言魅力。

想像一下,未來的我們可以用繁體中文隨時隨地跟 AI 聊天,並且分享生活日常,甚至討論時事或是八卦。在這個科技進步比我們想像還快的時代裡,不妨放輕鬆,用樂觀心情去探索和學習。畢竟,誰說科技不能有趣味呢?讓我們一起期待更多像 Taiwan-LLaMa 這樣的創新 AI 應用出現在眼前。

*本文提供合作夥伴轉載,參考資料:ChatGPT 生活運用 FB 社團臺大副教授陳縕儂 FBTaiwan-LLaMa GitHub,首圖來源:Taiwan-LLaMa GitHub