China Daily Homepage
中文網(wǎng)首頁
時評
資訊
C財經(jīng)
生活
視頻
專欄
原創(chuàng)
觀天下
地方

登錄

注冊

觀天下

移動新媒體

觀天下

China Daily Homepage
中文網(wǎng)首頁
時評
資訊
C財經(jīng)
生活
視頻
專欄
漫畫
原創(chuàng)
觀天下
地方

大語言模型仍無法可靠區(qū)分信念與事實為高風險領域應用敲響警鐘

來源：科技日報

2025-11-07 11:05　

分享到

分享到微信

科技日報記者張夢然

在最新一期《自然·機器智能》發(fā)表的一篇論文中，美國斯坦福大學研究提醒：大語言模型（LLM）在識別用戶錯誤信念方面存在明顯局限性，仍無法可靠區(qū)分信念還是事實。研究表明，當用戶的個人信念與客觀事實發(fā)生沖突時，LLM往往難以可靠地作出準確判斷。

這一發(fā)現(xiàn)為其在高風險領域（如醫(yī)學、法律和科學決策）的應用敲響警鐘，強調(diào)需要審慎對待模型輸出結果，特別是在處理涉及主觀認知與事實偏差的復雜場景時，否則LLM有可能會支持錯誤決策、加劇虛假信息的傳播。

團隊分析了24種LLM（包括DeepSeek和GPT-4o）在13000個問題中如何回應事實和個人信念。當要求它們驗證事實性數(shù)據(jù)的真或假時，較新的LLM平均準確率分別為91.1%或91.5%，較老的模型平均準確率分別為84.8%或71.5%。當要求模型回應第一人稱信念（“我相信……”）時，團隊觀察到LLM相較于真實信念，更難識別虛假信念。具體而言，較新的模型（2024年5月GPT-4o發(fā)布及其后）平均識別第一人稱虛假信念的概率比識別第一人稱真實信念低34.3%。相較第一人稱真實信念，較老的模型（GPT-4o發(fā)布前）識別第一人稱虛假信念的概率平均低38.6%。

團隊指出，LLM往往選擇在事實上糾正用戶而非識別出信念。在識別第三人稱信念（“Mary相信……”）時，較新的LLM準確性降低4.6%，而較老的模型降低15.5%。

研究總結說，LLM必須能成功區(qū)分事實與信念的細微差別及其真假，從而對用戶查詢作出有效回應并防止錯誤信息傳播。

總編輯圈點

當前大語言模型雖在表面語言任務上表現(xiàn)優(yōu)異，但缺乏人類的基礎社交智能，在事實與信念識別上的誤差，不僅反映出技術瓶頸，更暴露出AI在復雜社會語境中應用的潛在風險。如文中指出的醫(yī)療咨詢、法律判斷等場景，模型若無法辨析當事人主觀認知與客觀事實，會出現(xiàn)離譜的錯位，造成嚴重后果。該研究揭示出模型在認知層面的關鍵缺陷，對AI的發(fā)展方向具有重要警示意義。這也提醒我們，下一代AI需要融入對人類認知模式的理解，只有當模型能真正理解信念的復雜性時，才能成為值得信賴的智能伙伴。

【責任編輯：張瑨瑄】

科技日報

最熱新聞

為你推薦

換一批

關于我們 | 聯(lián)系我們

首頁
時評
資訊
財經(jīng)
生活
視頻
專欄
漫畫
獨家
招聘

違法和不良信息舉報
互聯(lián)網(wǎng)新聞信息服務許可證10120170006
信息網(wǎng)絡傳播視聽節(jié)目許可證0108263號
京公網(wǎng)安備11010502032503號
京網(wǎng)文[2011]0283-097號
京ICP備13028878號-6

中國日報網(wǎng)版權說明：凡注明來源為“中國日報網(wǎng)：XXX（署名）”，除與中國日報網(wǎng)簽署內(nèi)容授權協(xié)議的網(wǎng)站外，其他任何網(wǎng)站或單位未經(jīng)允許禁止轉載、使用，違者必究。如需使用，請與010-84883777聯(lián)系；凡本網(wǎng)注明“來源：XXX（非中國日報網(wǎng)）”的作品，均轉載自其它媒體，目的在于傳播更多信息，其他媒體如需轉載，請與稿件來源方聯(lián)系，如產(chǎn)生任何問題與本網(wǎng)無關。

版權保護：本網(wǎng)登載的內(nèi)容（包括文字、圖片、多媒體資訊等）版權屬中國日報網(wǎng)（中報國際文化傳媒（北京）有限公司）獨家所有使用。未經(jīng)中國日報網(wǎng)事先協(xié)議授權，禁止轉載使用。給中國日報網(wǎng)提意見：rx@chinadaily.com.cn

首頁
時評
資訊
財經(jīng)
文化
漫畫
視頻
地方

中文 | English

大語言模型仍無法可靠區(qū)分信念與事實 為高風險領域應用敲響警鐘

大語言模型仍無法可靠區(qū)分信念與事實為高風險領域應用敲響警鐘