聊透 Agent，它是「同事」还是「工具」，创业机会和价值究竟是什么？(5) / BTC123

我一方面把 Code 理解成编程工具，但更愿意把它理解成一个实现 AGI 的环境。AGI 有可能最先在这个环境下实现，因为这个环境最简单，它能锻炼 AI 的核心能力。如果 AI 连一个端到端的应用软件开发都做不了，那在其他领域就更难了。如果它在未来一段时间无法大规模替代基础的软件开发工作，那在其他领域也很难。

而且，coding 能力上来了，模型的指令遵循能力也会上来。比如处理很长的 prompt，Claude 就明显要强一些，我们猜测这跟它的 coding 能力有逻辑关系。

另外一个点，我想未来的 AGI 会先在数字世界实现。未来两年，Agent 能做人在手机和电脑上操作的几乎所有事情。一方面通过简单的 coding 完成，如果不行，它还可以调用其他虚拟工具。所以，先在数字世界里实现 AGI，让它跑得比较快，这是一个大的逻辑。

04 如何判定一个好 Agent？

张鹏：Coding 是这个世界里的「万用之机」，有了它，AI 就可以去构建和创造。而且编程这个领域相对结构化，适合 AI 发挥。当评价一个 Agent 的好坏时，除了用户体验，你们会从什么视角去评价一个 Agent 的潜力？

钟凯祺 (Cage)：一个好的 Agent 首先得有一个环境来帮助构建数据飞轮，而且这个数据本身要是可验证的。

最近 Anthropic 的研究员提得比较多一个词叫 RLVR（Reinforcement Learning from Verifiable Reward），其中的「V」就是指可验证的回报。代码和数学就是非常标准的可验证领域，任务做完后，立马能验证对错，数据飞轮就自然地建立起来了。

数据飞轮的工作机制｜图源：英伟达

所以，构建一个 Agent 产品，就是要构建这样一个环境。在这个环境里，用户执行任务的成功或失败都不重要，因为现在的 Agent 一定会失败。关键是在失败时，它能收集到有信号的数据，而不是噪音数据，来指导产品本身的优化。这些数据甚至可以作为强化学习环境的冷启动数据。

第二，产品是否做得足够「Agent Native」。就是说，在设计产品时，要同时思考人和 Agent 的需求。一个典型的例子是 The Browser Company，它为什么要做一款新的浏览器？因为之前的 Arc 纯粹是为了提升人类用户的效率而设计的。而他们新的浏览器在设计时，很多新功能未来是能给 AI Agent 自己使用的。当产品的底层设计逻辑发生改变，这就非常重要了。

从结果上来说，客观评估也很关键。

1.任务完成率 + 成功率：首先任务得能跑完，这样用户至少能收到一个反馈。其次是成功率。一个 10 步的任务，如果每一步准确率都是 90%，那最终成功率只有 35%。所以必须优化好每一步之间的衔接。目前行业里一个及格线可能是五成以上的成功率。