我一方面把 Code 理解成编程工具,但更愿意把它理解成一个实现 AGI 的环境。AGI 有可能最先在这个环境下实现,因为这个环境最简单,它能锻炼 AI 的核心能力。如果 AI 连一个端到端的应用软件开发都做不了,那在其他领域就更难了。如果它在未来一段时间无法大规模替代基础的软件开发工作,那在其他领域也很难。
而且,coding 能力上来了,模型的指令遵循能力也会上来。比如处理很长的 prompt,Claude 就明显要强一些,我们猜测这跟它的 coding 能力有逻辑关系。
另外一个点,我想未来的 AGI 会先在数字世界实现。未来两年,Agent 能做人在手机和电脑上操作的几乎所有事情。一方面通过简单的 coding 完成,如果不行,它还可以调用其他虚拟工具。所以,先在数字世界里实现 AGI,让它跑得比较快,这是一个大的逻辑。
04 如何判定一个好 Agent?张鹏:Coding 是这个世界里的「万用之机」,有了它,AI 就可以去构建和创造。而且编程这个领域相对结构化,适合 AI 发挥。当评价一个 Agent 的好坏时,除了用户体验,你们会从什么视角去评价一个 Agent 的潜力?
钟凯祺 (Cage):一个好的 Agent 首先得有一个环境来帮助构建数据飞轮,而且这个数据本身要是可验证的。
最近 Anthropic 的研究员提得比较多一个词叫 RLVR(Reinforcement Learning from Verifiable Reward),其中的「V」就是指可验证的回报。代码和数学就是非常标准的可验证领域,任务做完后,立马能验证对错,数据飞轮就自然地建立起来了。

数据飞轮的工作机制|图源:英伟达
所以,构建一个 Agent 产品,就是要构建这样一个环境。在这个环境里,用户执行任务的成功或失败都不重要,因为现在的 Agent 一定会失败。关键是在失败时,它能收集到有信号的数据,而不是噪音数据,来指导产品本身的优化。这些数据甚至可以作为强化学习环境的冷启动数据。
第二,产品是否做得足够「Agent Native」。就是说,在设计产品时,要同时思考人和 Agent 的需求。一个典型的例子是 The Browser Company,它为什么要做一款新的浏览器?因为之前的 Arc 纯粹是为了提升人类用户的效率而设计的。而他们新的浏览器在设计时,很多新功能未来是能给 AI Agent 自己使用的。当产品的底层设计逻辑发生改变,这就非常重要了。
从结果上来说,客观评估也很关键。
1.任务完成率 + 成功率:首先任务得能跑完,这样用户至少能收到一个反馈。其次是成功率。一个 10 步的任务,如果每一步准确率都是 90%,那最终成功率只有 35%。所以必须优化好每一步之间的衔接。目前行业里一个及格线可能是五成以上的成功率。
