OpenAI 最新论文:语言模型为什么会出现幻觉?
栏目:广告资讯 发布时间:2025-09-08
OpenAI最近发布的一篇论文《Whylanguagemodelshallucinate》探讨了语言模型出现幻觉的根本原因,指出当前的训练和评估机制实际上是在激励模型进行猜测,而不是在面对不确定性时坦然承认。论文指出,语言模型之所以会“幻觉”——即在缺乏确切知识的情况下编造看似合理但实则错误的信息——正是由于现有的训练流程和评估标准更偏爱给出确定性答案的行为,哪怕这些答案是错的,也不鼓励模型回答“我不知道”。这类似于一个学生在考试中遇到不会的题目时选择瞎猜,只为提高得分。大型语言模型在面对模糊

OpenAI 最近发布的一篇论文 《Why language models hallucinate》 探讨了语言模型出现幻觉的根本原因,指出当前的训练和评估机制实际上是在激励模型进行猜测,而不是在面对不确定性时坦然承认。

论文指出,语言模型之所以会“幻觉”——即在缺乏确切知识的情况下编造看似合理但实则错误的信息——正是由于现有的训练流程和评估标准更偏爱给出确定性答案的行为,哪怕这些答案是错的,也不鼓励模型回答“我不知道”。

这类似于一个学生在考试中遇到不会的题目时选择瞎猜,只为提高得分。大型语言模型在面对模糊或复杂问题时也会采取类似策略:与其表达不确定,不如生成一个看似合理的回答,从而在训练目标和评测指标中获得更高分数。

这种行为模式导致幻觉问题在当前最先进的模型中依然普遍存在,并严重削弱用户对模型输出的信任。

研究人员认为,语言模型的幻觉并不需要被视作某种神秘或不可控的现象,其根源在于基本的二元分类错误。当模型无法准确区分正确与错误陈述时,在预训练过程中就会受到统计上的偏差驱动,自然倾向于生成看似符合语言模式但实际上不真实的内容。

更关键的是,幻觉之所以长期存在,是因为主流的评估方式本身就存在问题:评分系统通常以答案是否“看起来正确”或是否匹配预期输出为标准,从而间接奖励了猜测行为。在这种机制下,模型被训练成了擅长应试的“考生”,而诚实表达无知反而会被扣分。

作者强调,要缓解这一问题,不能仅依赖技术手段增加幻觉检测模块,而必须进行社会技术性的改革——重新设计主导排行榜的基准测试评分规则,让承认不确定性不再被惩罚。

唯有如此,才能从根本上扭转模型的行为倾向,推动人工智能系统朝着更加诚实、可靠和值得信赖的方向发展。


# 人工智能  # ai  # openai  # 为什么  # 是在  # 的是  # 这一  # 就会  # 也不  # 是因为  # 成了  # 我不  # 瞎猜  # 也会 


相关文章: 开发商控诉管理混乱 《铃兰计划》疑被索尼中国之星计划除名  DDR5死贵 历史开倒车!DDR4主板真香啊 但有个坏消息  耐用折叠屏手机推荐:三星GalaxyZ TriFold何以重塑旗舰耐用性标杆?  散热为王,性能无界!荣耀WIN系列打破电竞手机“不可能三角”  三星迈向自研GPU 2027年或将推出自研GPU架构  首销破纪录!荣耀WIN系列开售两小时创品牌新高  开源图形兼容层 D7VK 推出 1.1 版本,首次引入 Direct3D 6 支持  锐龙AI MAX+ 395赋能千行百业--之保险理财  ChatGPT 移动端更新:支持自定义“思考时间”切换功能  明年3月发布!vivo X300 Ultra搭载2亿像素+35mm主摄  “AI 教父” 辛顿预测未来就业市场将受影响  Qwen Code 正式发布 VSCode 插件 & TypeScript SDK  刘亦菲遇上美团外卖神抢手?两“神”碰撞太精彩!  ShadPS4模拟器发布重大更新 改进《血源诅咒》、《战神3》等游戏  鸿蒙生态出行领域关键进展!鸿蒙版高德司机端SDK加速出行行业智能化  最特别的生日!红魔姜超用红魔11 Air吹灭生日蜡烛  一加李杰官宣Turbo系列开启预约:赠便携背包,12月28日|直播|曝更多细节  Skyeye 云零代码智能制造系统 - ERP模块 - Saas v3.18.2 发布  元旦必备!鸿蒙版大众点评全面焕新,本地生活“全能选手”上线!  当风雪有了重量,《抵抗者》新PV为何让人心生期待?  老板监视员工微信只需 300 元:无察觉、杀毒软件查不出  微信回应“占内存”  曝OPPO X9 Ultra或搭载发国产2亿像素OV52A 明年见  《GTA6》粉丝发现神秘角色 预告中曾多次与主角同框!  中端显卡也无法避免:又一起RX 9070 XT 16针接口烧熔!  日本重新杀回内存市场 富士通联手Intel开发HBM替代品  为何苹果折叠屏会选择5.3英寸超小外屏?有何策略?  AI驱动创意新范式,2025即创AIGC大赛获奖案例大赏  AMD、Intel决战下一代CPU!Zen6也要疯狂堆叠288MB 3D缓存  余霜COS《暗区突围》美图 白发侧颜超美丽  《光与影:33号远征队》媒体评分远超团队预期:原预估80分左右!  GLM-4.7 登顶 Artificial Analysis 全球开源榜首  光遇矮人面具水中站立技巧全解析  Selenium 创始人发布 Vibium,面向 AI Agent 的浏览器自动化架构  影之刃3左殇职业材料获取全攻略:从入门到毕业的江湖寻宝之旅  Xiaomi 17 Ultra 港行上市时间表曝光!最快 2 月正式入手  iQOO Z11 Turbo迎脱胎换骨式升级!颜值、手感、质感全拉满  源 Yuan 3.0 Flash 基础大模型开源发布  传荣耀Magic8 mini线下盲订已开启 天玑9500加持?  《底特律:变人》玩家同时在线峰值创新高 拜史低促销所赐  如果是你会收掉吗?Google前员工在获利高峰归零 靠AI变身亿元企业  苹果谷歌联手下猛料!iOS 26.3 beta版新增安卓迁移、跨设备通知等核心功能  上交所发布商业火箭科创板上市新规,发射载荷入轨成核心门槛  内存价格坐上火箭!DDR4一年暴涨1800%:2026年还要涨  《黑神话:悟空》杨奇微博发文 提到游戏制作流程!或有合作  骁龙855老将再次焕发生机 LineageOS社区宣布将为Pixel 4系列提供Android 16更新  刚铎之城降临!乐高×魔戒新作惊传破8千片积木 预计2026年现身  OpenAtom openKylin 2025年度报告 | 智启全球,根植未来  该等低价还是直接冲?玩家敲碗Steam纳入「价格追蹤」功能  另类玩法 《流放之路2》出现压等级刷资源套路 


相关栏目: 【 广告资讯37196 】 【 广告推广143353 】 【 广告优化89630