对话 AI 招聘平台 Mercor 创始人：AI 将很快主导人才评估环节(2) / BTC123

Brandon的团队最近融资一亿美元，他们正在与一些最先进的AI公司合作。我们今天的对话涉及很多有意思的话题，包括未来人类在劳动力中的角色。我们讨论了哪些类型的数据标注对模型改进最重要，Brandon回顾了Mercor的快速崛起及他做出的一些关键决策，我们还谈到了AI在招聘流程中哪些地方有效、哪些地方无效。总之，这是一次非常有趣的对话，我相信你们会喜欢。Brendan Foody，感谢你参加我们的播客。

Brendan：非常感谢邀请。我是你的忠实粉丝，非常兴奋。

Jacob：很高兴你能来。我想我们可以自上而下开始，对于我们的听众来说，我希望你能为大家梳理一下现在我们处在什么阶段？AI评估人才的现状如何？哪些有效，哪些无效？现在的进展如何？

Brendan：我对它的表现感到惊讶。我认为，只要是人类能够通过文本评估的内容，模型几乎都已经接近超越人类了，无论是面试的文字记录、书面评估，还是简历上的信号。这其实是一个很有趣的二元对立，因为这些技术实际上在经济中分布得很少。所以这里有很大的空白地带，这也是我们非常兴奋想要去开发和建设的事情之一。

Jacob：有没有哪些事情在推理模型出现之前是行不通的？比如说过去六个月，这些模型变得更好了，有哪些终于开始奏效了？

Brendan：是的，我记得在GPT-4发布时，我们构建了第一个AI面试官的原型，结果什么都不行。模型每两三个问题就会出现幻觉等各种问题。这一路走来，真的是顺风顺水。我认为推理模型的出现显然让模型在知识方面提升很大，尤其是在处理大量上下文、判断重点、关注焦点等方面变得更强大。

不过，模型在多模态任务上仍然没那么强，因为过去实验室对此关注不多，而且用强化学习做这类事更难，但我们对这方面的进展也很期待。

Jacob：你最期待模型什么时候能实现哪些里程碑功能？

Brendan：有一些事情，比如人类擅长做的事情，比如判断“氛围”（Vibe）——我是否愿意和这个人共事，这个人是否有激情、是否真诚，这些模型很难做到。即使对最优秀的人类来说也很难，更别说模型了。所以我很期待这方面的突破，也在为此开发评估工具。但每当我阅读模型的推理链，试图解读我们评测的内容时，我总觉得模型比我们团队里负责创建评测的研究员要理性得多。

所以模型进步真的非常快，大家都能看到它们在代码领域的表现，但我们其实还只是刚刚起步，很多其他领域也在以惊人的速度起飞。

Jacob：你们做的很大一部分其实就是为人类设计评估，看他们能否胜任工作。现在很多人在做AI员工，比如说让AI代理完成员工的任务，你们在这方面有参与吗？