看穿 AI 是否胡說八道!麻省理工成員開發 AI 可信度工具,專門幫 AI 答案打分數 | TechOrange 科技報橘
Search
Close this search box.

看穿 AI 是否胡說八道!麻省理工成員開發 AI 可信度工具,專門幫 AI 答案打分數

自從生成式 AI 出現,人們習慣用它來查找資料、撰寫文章與報告等。然而,根據 Google 前員工創立的軟體公司 Vectara 研究發現,AI 聊天機器人至少有 3% 的時間會提供不實資訊,而且人們可能難以察覺。雖然它產生幻覺的頻率不高,但對多數企業而言卻是嚴重的問題。

(編按:AI 大型語言模型可能會編造出錯誤的事實,這個現象被稱為「產生幻覺(Hallucination)」。)

為此,麻省理工學院量子電腦實驗室成員成立的 AI 新創 Cleanlab 開發一款「可信度語言模型(Trustworthy Language Model)」,它能為大型語言模型生成內容的可信度打分數,分數越接近 0 可信度越低、越接近 1 可信度則越高,這有助人們判斷自己該相信哪些資訊。

Cleanlab 執行長 Curtis Northcutt 表示,他們希望這項工具能降低企業對大型語言模型的擔憂,並對 AI 燃起興趣,「人們都知道大型語言模型將改變世界,只是目前他們都對它的幻覺問題感到相當困擾。」

「可信度語言模型」的可信度分數,是怎麼算的?

可信度語言模型使用多種技術來計算分數。當用戶向它詢問問題,它會將這個問題與自己的生成內容同步傳送給多個大型語言模型,包括 OpenAI 的 GPT 系列模型、AI 公司 Databricks 開發的模型 DBRX 等,如果它們提供的回應相似,最終獲得的分數較高

它還會將生成內容的關鍵字替換成具有相同含義的詞語,再傳送給每一個模型。如果它們皆對同義詞有相似回應,也能獲得高分。Northcutt 解釋:「我們用不同的方式測試這些模型,並觀察它們提供的答覆是否一致。」

此外,可信度語言模型也能讓多個模型相互交流。我們可以想像它們有這樣的對話:「這是我的答案,你覺得如何?」這樣的交流過程也會受到監控與測量,並納入評分中。

掌握 AI 趨勢 & 活動資訊一點都不難!訂閱電子報,每週四一起《AI TOgether》

感謝訂閱!隨時注意信箱的最新資訊

可信度語言模型並非取代 LLM!而是要分擔專家工作

日前 Cleanlab 實際展示了可信度語言模型的成果。Northcutt 首先問 ChatGPT:「enter 這個詞中出現了多少次 n? 」在前幾次的詢問下,ChatGPT 皆能給出正確解答,但後幾次它開始隨機提供錯誤答案。接下來,Northcutt 向可信度語言模型問同樣的問題,它回應:「在單字 enter 中,字母 n 出現了兩次。」並給出了 0.315 的分數。Northcutt 說:「我們可以看到這並不是一個很高的分數,意即我們不該完全信任聊天機器人提供的答覆。」

影片來源:Cleanlab

這是一個簡單的測試,卻直指目前大型語言模型普遍存在的問題。Northcutt 表示,如果沒有可信度分數,人們可能會相信聊天機器人提供的所有資訊,因此做出錯誤的決策。

雖然運作可信度語言模型的成本較高,但 Cleanlab 將此視為一種進階服務,他們並非要取代聊天機器人,而是要分擔人類專家的工作。Northcutt 說,如果這款工具能讓你省下付給資深經濟學家或律師每小時 2,000 美元(約新台幣 6.4 萬元)起跳的費用,那使用它所付出的成本是值得的

不過長遠來看,Northcutt 還是希望可信度語言模型能降低大眾對大型語言模型的擔憂,並看見它們的發展潛力。

透過 Amazon Bedrock,發掘 Claude 3 系列模型的無窮潛能

【立即試用 Claude 3 系列模型,24 小時內免費體驗!】

 

【推薦閱讀】

一直擔心 AI 取代你?Google 研究指這過度誇大,但少 1 能力是最大風險

【你遇到好機器人,還是壞機器人】全球惡意機器人流量破 30%!哪些產業被盯上?

【擺脫 ChatGPT 的胡說八道】8 個 ChatGPT 替代服務!精準答案、流暢文筆 AI 任你選

 

*本文開放合作夥伴轉載,參考資料:《MIT Technology Review》VectaraCleanlab,首圖來源:Photo by Giorgio Trovato on Unsplash

(責任編輯:廖紹伶)