Vitalik 眼中的「AI 2027」：超级 AI 真的会毁灭人类吗？(6) / BTC123

「开源有害」的心态变得更具风险。许多人反对开放权重 AI，理由是防御不现实，唯一的光明前景是让拥有良好 AI 的好人比任何不那么善意的人先实现超级智能，获得任何极具危险性的能力。但本文的论点描绘了不同的图景：防御不现实，恰恰是因为某一行为体远远领先，而其他行为体没有跟上。技术扩散以维持力量平衡变得重要。但同时，我绝不会认为，仅仅因为是以开源方式进行，加速前沿 AI 能力的增长就是好事。

美国实验室中「我们必须击败中国」的心态变得更具风险，原因类似。如果霸权不是安全缓冲，而是风险来源，那么这进一步反驳了（不幸的是太常见的）「有善意的人应加入领先 AI 实验室，帮助其更快获胜」的观点。

「公共 AI」等倡议更应得到支持，既要确保 AI 能力的广泛分布，也要确保基础设施行为体确实拥有工具，能迅速以本文所述的某些方式应用新的 AI 能力。

防御技术应该更多地体现「武装绵羊」的理念，而不是「猎杀所有狼」的理念。关于脆弱世界假说的讨论常常假设，唯一解决方案是霸权国家维持全球监控，以防止任何潜在威胁出现。但在非霸权世界中，这并非可行方法，且自上而下的防御机制很容易被强大的 AI 颠覆，转化为攻击工具。因此，更大的防御责任需要通过艰苦的努力来实现，从而降低世界的脆弱性。

上述论点仅供推测，不应基于这些论点几乎确定的假设而采取行动。但《AI 2027》的故事也具有推测性，我们应避免基于「其具体细节近乎确定」的假设采取行动。

我尤其担心一种常见假设：建立一个 AI 霸权，确保其「结盟」并「赢得竞赛」，是唯一的前进道路。在我看来，这种策略很可能会降低我们的安全性 —— 尤其是在霸权与军事应用深度绑定的情况下，这会使许多结盟策略的有效性大打折扣。一旦霸权 AI 出现偏差，人类将失去所有制衡手段。

在《AI 2027》场景中，人类的成功取决于美国在关键时刻选择安全而非毁灭之路 —— 自愿放缓 AI 进展，确保 Agent-5 的内部思维过程可被人类解读。即便如此，成功也非必然，而且人类如何摆脱依赖于单一超级智能思维的持续生存悬崖也尚不明朗。无论未来 5-10 年 AI 如何发展，承认「降低世界脆弱性是可行的」并投入更多精力，用人类最新技术实现这一目标，都是值得尝试的道路。

特别感谢 Balvi 志愿者的反馈与审阅。