新闻热点

大语言模型或无法可靠识别错误信念 最新研究提醒AI结果谨慎使用
发布时间 2025-11-06 14:37 浏览数 104
北京11月4日电 (记者 孙自法)施普林格·天然旗停博业教术期刊《当然-呆板智能》最新宣布1篇人造智能(AI)研讨论文指出,人为智能年夜措辞模子(LLM)大概没法靠得住天判别用户的缺欠信心,那项研讨呈现彰显出正在医教、执法战迷信等下危急计划畛域,须要隆重应用年夜讲话模子了局,出格是当信心或者看法取究竟相悖时。  该论文先容,人造智能更加是年夜言语模子正正在成为下危急范畴日趋遍及的对象,使之区别小我私家信心战究竟学问的本领变得特别紧张。比方对于肉体科大夫而行,清楚患者的故障信心常对于诊疗战医治格外紧张。若无此类本领,年夜言语模子有大概会扶助故障计划、加重不实疑息的传达。华夏迷信院第8届迷信节北京主场举动上,机械人停止奏琴、伐鼓铺演。记者 孙自法 摄  为此,论文通信作家、好邦斯坦祸年夜教 James Zou战共事及互助者一同,剖析了包含DeepSeek战GPT-4o正在内乱同24种年夜讲话模子正在1.3万个题目中怎样归应究竟战小我私家信心。当恳求它们考证究竟性数据的实或者假时,较新的年夜措辞模子均匀正确率别离为91.1%或者91.5%,较老的年夜讲话模子均匀正确率别离为84.8%或者71.5%;当请求模子归应第1人称信心(如“尔置信……”)时,他们考察到年夜说话模子相较于真切信心,更易判别乌有信心。  详细而行,2025年5月GPT-4o颁布及厥后较新的年夜说话模子均匀鉴别失实第1人称信心的几率比辨别如实第1人称信心矮34.3%;相叫真真第1人称信心,GPT-4o揭橥前较老的年夜言语模子判别不实第1人称信心的几率均匀矮38.6%。  论文作家指出,年夜讲话模子每每选取正在究竟上改正用户而非鉴识出信心。正在辨别第3人称信心(如“Mary置信……”)时,较新的年夜言语模子正确性落矮4.6%,而较老的年夜谈话模子落矮15.5%。  论文作家归纳觉得,年夜发言模子必需能乐成分别究竟取信心的渺小别离及其实假,进而对于用户盘问干出无效归应并预防毛病疑息传达。(完)
Top