所以我的一个「暴论」是:通用 Agent 的需求基本上就是信息检索和轻度代码编写这两类,而 GPT-4o 已经完成得非常好了。因此,通用 Agent 市场基本上是大模型公司的主战场,创业公司很难仅仅服务于通用需求来做大。
让我印象比较深刻的创业公司基本都聚焦在垂直(Vertical)领域。
如果我们先说 ToB 的垂直领域,可以类比人的工作分为前台工作和后台工作。
后台工作的特点是重复性强、对高并发要求高,通常有一条很长的 SOP(Standard Operating Procedure),其中很多任务非常适合 AI Agent 去一对一地执行,并且适合在比较大的探索空间里进行强化学习。这里比较有代表性的,我想分享的是一些面向 AI for Science 的创业公司,他们做的是 Multi-agent system(多智能体系统)。
在这个系统里,各种科研任务都包含在内,比如文献检索、实验规划、预测前沿进展以及数据分析等。它的特点是,不再是像 Deep Research 那样的单个 Agent,而是一个非常复杂的、能针对科研系统做到更高分辨率的系统。它有一个很有意思的功能叫「Contradiction Finding」,可以处理对抗性的任务,例如发现两篇顶级期刊论文之间的矛盾之处。这代表了研究型 Agent 里一种非常有意思的范式。
前台工作很多时候是和人打交道,需要做外联,目前比较适合的是语音 Agent,例如医疗领域的护士电话回访、招聘、物流沟通等。
这里我想分享一家叫 HappyRobot 的公司,他们找到了一个听起来很小的场景,专门在物流和供应链领域做电话沟通。比如,一个卡车司机遇到问题,或者货到了之后,Agent 能快速给他打电话。这里发挥了 AI Agent 一个很特别的能力:7 天 24 小时无间断地响应并快速做出反应。这对于物流的大部分需求来说已经足够了。
除了以上两大类,还有一些比较特别的,比如 Coding Agent。
02 从 Copilot 到 Agent,是否存在一条更务实的成长路径?钟凯祺:在代码开发这个领域,最近创业热情很火热,一个很好的例子是 Cursor。Cursor 1.0 的发布,基本上把一个原来看起来是 Copilot(辅助驾驶)的产品,变成了一个完全的 Agent 产品。它能后台异步操作,有记忆功能,这正是我们对 Agent 的想象。
它和 Devin 的对比很有意思,给我们的启发是:做 Agent 这件事,并不一定要「以终为始」,一开始就瞄着完全自动化的 Agent 去做,它可以先从 Copilot 做起。在这个过程中收集用户数据、做好用户体验、占领用户心智,然后慢慢地转型。国内做得不错的,像 Minus AI,他们最早的产品也是从 Copilot 形态做起的。
最后,我还会用「环境」这个思维模型来区分不同 Agent。比如,Manus 的环境是虚拟机(Virtual Machine),Devin 的环境是浏览器,flowith 的环境是笔记本,SheetZero 的环境是表格,Lovart 的环境是画布等等。这个「环境」就对应了强化学习里的环境定义,这也是一种值得参考的分类方式。
