OpenAI GPT-5 发布：模型能力全面「屠榜」，构建「超级智能」的第一步(2) / BTC123

「AI 幻觉」一直是大家吐槽的重灾区。好消息是，GPT-5 在这方面下了大功夫，官方宣称其产生幻觉的可能性「显著降低」。具体来说：

GPT-5 也在新的 ARC-AGI-2 上进行了测试。除 Grok 4（思考）外，它的表现优于所有主要模型。

此外，GPT-5 还成了一个「老实人」。它不太会再对用户撒谎，吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时，它会更诚实地沟通自己的局限。

这次更新最有趣的一点，莫过于引入了四种全新的「人格」模式，用户可以自由选择。它们分别是：

这些模式是可选的，你可以根据自己的喜好，设定 ChatGPT 与你互动和回答问题的方式。想让它跟你抬杠，还是像个耐心的朋友一样倾听？现在都可以由你说了算。

「这个模型给人的『感觉』真的很好，」ChatGPT 的负责人 Nick Turley 说，「我认为人们会真切地感受到这一点，特别是那些平时不怎么研究模型的普通用户。」

此外，你还可以为单个聊天窗口更改颜色主题，代码编辑器主题爱好者狂喜了。

02 「软件按需生成」时代来临？代码能力逆天

随着代码能力的进一步提升，Altman 预测，GPT-5 强大的编码能力将开启一个他称之为「软件按需生成」的时代。

在 OpenAI 的测试中，GPT-5 在 SWE-Bench, SWE-Lancer, 和 Aider Polyglot 等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得 42% 的成绩，在 SWE 基准测试中取得 75% 的成绩。

一个小插曲是，发布会上的这张图的坐标轴明显有不少槽点，不仅有 52.8 > 69.1 这样的弱智错误，也实际上夸大了 GPT-5 的能力提升，在社交媒体上被网友群嘲「你这 PPT 怕最好别是 GPT-5 做的」。

在发布会上，OpenAI 的后期训练负责人 Yann Dubois 使用 GPT-5 现场演示，要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内，GPT-5 就编写了数百行代码，并直接展示了网站的前端界面。他在 Zoom 上分享屏幕并进行了简单的点击操作，一切看起来都完美运行。