不是GPT-5.4,OpenAI深夜发新模型!幻觉率暴降29%_Instant_用户_ChatGPT_米兰·(milan)中国官方网站
智东西
作者|王涵
编辑|李水青
智东西3月4日报道,今天,OpenAI正式发布GPT‑5.3 Instant,该模型在回答的语气倾向、回复相关度以及对话的顺畅度均有相应的提升。
OpenAI团队称其收到用户反馈,GPT‑5.2 Instant有时会拒绝回答本可以安全响应的问题。在涉及敏感话题时,模型的表现偶尔显得过于保守或带有说教感。
GPT‑5.3 Instant的回答将直击重点,不再夹杂冗长的限制性说明,显著减少了不必要的拒答行为,并削减了回答前那些过度防卫或带有说教色彩的开场白。
此外,GPT‑5.3 Instant还优化了联网搜索结果的整合质量,模型现在能更有效地平衡搜索结果与自身知识储备及逻辑推理。例如,它能够利用既有的认知图谱为近期资讯提供深度背景解析,不再是简单地罗列并汇总搜索信息。
从更广泛的层面来看,GPT‑5.3 Instant降低了对联网搜索结果的过度依赖,解决了此前偶尔出现的“链接堆砌”或信息松散的问题。它现在能更精准地洞察问题的潜台词,并在回答开头即优先呈现核心信息。
此前,GPT‑5.2 Instant的语气偶尔会让人感到“尴尬、违和”,表现为言语过于强势,或者在未获确认的情况下,就对用户的意向和情绪进行过度解读或妄加揣测。
本次更新大幅削减了不必要的冗余宣告,以及类似“停一下,深呼吸”等口吻。用户可以在设置中调整模型的回复语调,例如其亲和力与热情度。
相比GPT‑5.2 Instant ,GPT‑5.3 Instant提供的回答更具事实性,在广泛的话题领域内均显著降低了幻觉率。
为了衡量准确度,OpenAI团队***用了两项内部评估指标:其一侧重于医疗、法律及金融等高风险领域;其二则专门针对“幻觉”高发场景进行测试,样本取自经过脱敏处理、被用户标记为事实错误的真实对话记录。
对比前代模型,GPT‑5.3 Instant在“高风险领域”评估中,联网模式下的幻觉率降低了26.8%,仅依靠模型自身知识库时,幻觉率降低了19.7%。
而在基于用户真实反馈的评估中,该模型在联网模式下的幻觉率下降了22.5%,非联网模式下则下降了9.6%。
在故事写作方面,GPT‑5.3 Instant在处理实用任务与表达性写作之间切换得更加顺畅,且不会牺牲逻辑的清晰度与连贯性。
OpenAI团队补充到,GPT‑5.3 Instant仍存在一些改进空间。例如ChatGPT在某些语言,如日语和韩语,中的回复风格可能稍显生硬,或带有刻板的直译感。并且,OpenAI团队仍在持续监控反馈并进行功能优化,同时也在不断扩展自定义选项。
GPT‑5.3 Instant自即日起面向所有ChatGPT用户开放,开发者也可通过API使用名为gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也将于近期推出。
GPT‑5.2 Instant将在“Legacy Models”下拉菜单中为付费用户保留三个月,并***于2026年6月3日正式退役。
结语:OpenAI用对话挽留用户
GPT‑5.2 Instant在回答中的“油腻”“冗杂”的套路句式一直被广大用户所诟病,此次GPT‑5.3 Instant的升级更新,将视角重新放回“聊天”上,回应了用户长期以来对聊天机器人 “好用、实在、不绕弯” 的核心诉求。
在3月初,OpenAI因与美国军方签订合作协议,大批用户开始发起“抵制ChatGPT”等活动,Anthropic更是直接推出了一键转移上下文内容的服务,ChatGPT的用户或正在流失。
OpenAI在此时优化对话风格或许也是其试图留住用户的举措。返回搜狐,查看更多
同类文章排行
- 怎样自己做一个ai生成音乐的软件?
- 国产厂商为什么都不用三星屏幕了?
- 如何评价MiniMax开源首个视觉RL统一框架V-Triune,实现推理感知一肩挑,其技术上有何优势?
- 男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
- 前端能否限制用户截图?
- 如何搭建自己CDN服务器?
- 北大「韦神」粉丝破 2000 万,评论区成高考许愿池,如何看待家长们纷纷从韦神这里「沾福气」的心理?
- 谷歌云服务宕机导致 OpenAI、Shopify 等服务中断,此次宕机的具体技术原因是什么?
- 为什么有些人认为中国武器装备看起来很土?
- 健身教练们觉得女生怎样的身材才是好身材?
最新资讯文章
- 孩子画过什么画让你非常震惊?
- 如何评价仓颉编程语言7月30日开源?
- 张伟丽可以打败什么级别的普通男性?
- 为什么网上那么多人说广州没落是因为城中村?
- 猫那么爱干净,却为什么不喜欢洗澡?
- 皮肤太白是种怎样的体验?
- 你认为美国最近30年最烂的一个总统是谁?
- 以色列为什么要打伊朗?
- 如果北京放开车牌,未来会怎样?
- 如何评价“寡姐”斯嘉丽·约翰逊的身材?
- 中国预警机世界领先吗?
- 西安一商场大屏播放巨大电风扇,这真的能起到「望扇止暑」效果吗?还是单纯营销创意?
- 为什么负荷那么大的腰部力量训练的人不会受伤,长期无载荷久坐的人会出现腰肌劳损?
- 年纪轻轻为什么会得腰肌劳损?
- 如何评价高圆圆的身材算是美女类型的吗?
- 为什么用 electron 开发的桌面应用那么多?
- 国家为什么特别青睐雷军?
- 为何像JetBrains公司做IDE就可以养活自己,而国内做大型对公软件都很难养活公司?
- 055大驱到底强在哪里?
- 如何评价 Vue.js 纪录片?





