新闻资讯详情

大语言模型仍无法可靠区分信念与事实

 2025-11-07 11:03:14          

在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。

图片由AI生成

这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。

团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。

团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。

研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。

72

热门资讯 更多 >>

05-31

2024

亚马逊研发支出领跑全球 科技巨头创新竞赛日趋激烈

根据全球知名市场研究机构Gartner最新发布的数据,2023年全球企业研发支出总额达到3.1万亿美元,同比增长5.2%。其中,亚马逊以...

08-15

2022

【媒体管家上海软闻】国家级的媒体有哪些?哪些算中央媒体?

中央媒体名单 :严格意义上的中央媒体名单: 报纸类中央媒体:人民日报、中国日报、经济日报、光明日报、解放军报、工人日报、农...

01-02

2025

2025年将建成“星座”一期覆盖全球 吉利加速布局天地一体化出行生态

2024年12月下旬的一天,在穿上防护服、戴上头套,通过防尘吹风机后,记者终于进入到位于浙江省台州湾新区的吉利卫星超级工厂,一...

01-26

2022

【行业动态】2022第一季度延期展会通知汇总

中国国际缝制设备展览会(CISMA)是全球最大的专业缝制设备展览会,展品包含了缝前、缝制、缝后各类机器以及CAD/CAM设...

03-21

2022

古镇灯博会全球买家采购行线上展升级启幕

采购盛宴聚势云端,无缝助力厂商贸易。3月18日-4月18日,2022年古镇灯博会全球买家采购行线上展再次升级启幕,在展网融合型B2B...

03-10

2022

重要通知|2022年3月全国展会延期汇总表

2022年3月全国展会延期汇总都有哪些?快来看看吧!上述展会信息仅供参考,由于今年疫情情况特殊,展会时间/地点会存在不确定因素,...

03-17

2022

服务贵州畜禽产业为宗旨,2022贵阳国际畜产品及肉类工业展CIFPE

贵阳国际畜产品及肉类工业展览会(CIFPE)为推动农牧旅一体化发展,整合资源,深化农牧旅融合,推动生态畜牧业发展,打造无公...