看穿 AI 是否胡說八道！麻省理工成員開發 AI 可信度工具，專門幫 AI 答案打分數

自從生成式 AI 出現，人們習慣用它來查找資料、撰寫文章與報告等。然而，根據 Google 前員工創立的軟體公司 Vectara 研究發現，AI 聊天機器人至少有 3% 的時間會提供不實資訊，而且人們可能難以察覺。雖然它產生幻覺的頻率不高，但對多數企業而言卻是嚴重的問題。

（編按：AI 大型語言模型可能會編造出錯誤的事實，這個現象被稱為「產生幻覺（Hallucination）」。）

為此，麻省理工學院量子電腦實驗室成員成立的 AI 新創 Cleanlab 開發一款「可信度語言模型（Trustworthy Language Model）」，它能為大型語言模型生成內容的可信度打分數，分數越接近 0 可信度越低、越接近 1 可信度則越高，這有助人們判斷自己該相信哪些資訊。

Cleanlab 執行長 Curtis Northcutt 表示，他們希望這項工具能降低企業對大型語言模型的擔憂，並對 AI 燃起興趣，「人們都知道大型語言模型將改變世界，只是目前他們都對它的幻覺問題感到相當困擾。」

「可信度語言模型」的可信度分數，是怎麼算的？

可信度語言模型使用多種技術來計算分數。當用戶向它詢問問題，它會將這個問題與自己的生成內容同步傳送給多個大型語言模型，包括 OpenAI 的 GPT 系列模型、AI 公司 Databricks 開發的模型 DBRX 等，如果它們提供的回應相似，最終獲得的分數較高。

它還會將生成內容的關鍵字替換成具有相同含義的詞語，再傳送給每一個模型。如果它們皆對同義詞有相似回應，也能獲得高分。Northcutt 解釋：「我們用不同的方式測試這些模型，並觀察它們提供的答覆是否一致。」

此外，可信度語言模型也能讓多個模型相互交流。我們可以想像它們有這樣的對話：「這是我的答案，你覺得如何？」這樣的交流過程也會受到監控與測量，並納入評分中。

掌握 AI 趨勢 & 活動資訊一點都不難！訂閱電子報，每週四一起《AI TOgether》

感謝訂閱！隨時注意信箱的最新資訊

可信度語言模型並非取代 LLM！而是要分擔專家工作

日前 Cleanlab 實際展示了可信度語言模型的成果。Northcutt 首先問 ChatGPT：「enter 這個詞中出現了多少次 n？」在前幾次的詢問下，ChatGPT 皆能給出正確解答，但後幾次它開始隨機提供錯誤答案。接下來，Northcutt 向可信度語言模型問同樣的問題，它回應：「在單字 enter 中，字母 n 出現了兩次。」並給出了 0.315 的分數。Northcutt 說：「我們可以看到這並不是一個很高的分數，意即我們不該完全信任聊天機器人提供的答覆。」

影片來源：Cleanlab。

這是一個簡單的測試，卻直指目前大型語言模型普遍存在的問題。Northcutt 表示，如果沒有可信度分數，人們可能會相信聊天機器人提供的所有資訊，因此做出錯誤的決策。

雖然運作可信度語言模型的成本較高，但 Cleanlab 將此視為一種進階服務，他們並非要取代聊天機器人，而是要分擔人類專家的工作。Northcutt 說，如果這款工具能讓你省下付給資深經濟學家或律師每小時 2,000 美元（約新台幣 6.4 萬元）起跳的費用，那使用它所付出的成本是值得的。

不過長遠來看，Northcutt 還是希望可信度語言模型能降低大眾對大型語言模型的擔憂，並看見它們的發展潛力。

透過 Amazon Bedrock，發掘 Claude 3 系列模型的無窮潛能

【立即試用 Claude 3 系列模型，24 小時內免費體驗！】

【推薦閱讀】

◆ 一直擔心 AI 取代你？Google 研究指這過度誇大，但少 1 能力是最大風險

◆ 【你遇到好機器人，還是壞機器人】全球惡意機器人流量破 30%！哪些產業被盯上？

◆ 【擺脫 ChatGPT 的胡說八道】8 個 ChatGPT 替代服務！精準答案、流暢文筆 AI 任你選

＊本文開放合作夥伴轉載，參考資料：《MIT Technology Review》、Vectara、Cleanlab，首圖來源：Photo by Giorgio Trovato on Unsplash。

（責任編輯：廖紹伶）

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

看穿 AI 是否胡說八道！麻省理工成員開發 AI 可信度工具，專門幫 AI 答案打分數

「可信度語言模型」的可信度分數，是怎麼算的？

可信度語言模型並非取代 LLM！而是要分擔專家工作

透過 Amazon Bedrock，發掘 Claude 3 系列模型的無窮潛能

【立即試用 Claude 3 系列模型，24 小時內免費體驗！】

「現在，我們都在關注 AI 有多弱」Generative AI 年會 3 大重點整理！揭台灣 AI 應用最新趨勢

【你們弄得我好亂啊】AI PC 不是 Copilot+ PC？Intel 與 AMD 最新 CPU 也不符微軟標準

Signal 總裁批科技業「兄弟會」文化，揭露 AI 假訊息危機

我是你的雙語 DJ！Spotify AI DJ 功能升級，講西文也沒問題！