「AI 幻觉」一直是大家吐槽的重灾区。好消息是,GPT-5 在这方面下了大功夫,官方宣称其产生幻觉的可能性「显著降低」。具体来说:
-
在联网搜索时,GPT-5 的回答出现事实错误的概率比 GPT-4o 低了 45%。

-
在独立思考时,其回答出错的概率更是比 OpenAI o3 低了 80%

GPT-5 也在新的 ARC-AGI-2 上进行了测试。除 Grok 4(思考)外,它的表现优于所有主要模型。

此外,GPT-5 还成了一个「老实人」。它不太会再对用户撒谎,吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时,它会更诚实地沟通自己的局限。
这次更新最有趣的一点,莫过于引入了四种全新的「人格」模式,用户可以自由选择。它们分别是:
-
犬儒 (Cynic)
-
机器人 (Robot)
-
倾听者 (Listener)
-
学霸 (Nerd)
这些模式是可选的,你可以根据自己的喜好,设定 ChatGPT 与你互动和回答问题的方式。想让它跟你抬杠,还是像个耐心的朋友一样倾听?现在都可以由你说了算。
「这个模型给人的『感觉』真的很好,」ChatGPT 的负责人 Nick Turley 说,「我认为人们会真切地感受到这一点,特别是那些平时不怎么研究模型的普通用户。」
此外,你还可以为单个聊天窗口更改颜色主题,代码编辑器主题爱好者狂喜了。

随着代码能力的进一步提升,Altman 预测,GPT-5 强大的编码能力将开启一个他称之为「软件按需生成」的时代。
在 OpenAI 的测试中,GPT-5 在 SWE-Bench, SWE-Lancer, 和 Aider Polyglot 等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得 42% 的成绩,在 SWE 基准测试中取得 75% 的成绩。

一个小插曲是,发布会上的这张图的坐标轴明显有不少槽点,不仅有 52.8 > 69.1 这样的弱智错误,也实际上夸大了 GPT-5 的能力提升,在社交媒体上被网友群嘲「你这 PPT 怕最好别是 GPT-5 做的」。
在发布会上,OpenAI 的后期训练负责人 Yann Dubois 使用 GPT-5 现场演示,要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内,GPT-5 就编写了数百行代码,并直接展示了网站的前端界面。他在 Zoom 上分享屏幕并进行了简单的点击操作,一切看起来都完美运行。
