「人间清醒」马斯克:和 AI 海啸相比,DOGE 不值一提(10) / BTC123 | 区块链信息行情第一站

「人间清醒」马斯克:和 AI 海啸相比,DOGE 不值一提(10)

06-20 , 18:06 分享新闻

他们估计完成这个需要 18 到 24 个月。我说, 我们需要在 6 个月内完成。 否则我们就没竞争力了。所以然后 如果你把它分解,需要什么? 你需要一栋建筑,你需要电力,你需要冷却。 我们没时间从零开始建一栋楼。所以我们必须找一个现成的建筑。于是,我们找到了孟菲斯一个废弃的工厂,以前是生产伊莱克斯(Electrolux)产品的。 但它的输入功率是 15 兆瓦,而我们需要 150 兆瓦。

所以, 我们我们 租了发电机,把它们放在大楼的一侧,然后我们需要冷却。所以,我们租用了美国大约四分之一的移动冷却能力,把 冷却器(chillers)放在大楼的另一侧。 这还没完全解决问题,因为在训练过程中功率波动 非常大。所以功率可能在 100 毫秒内下降 50%,发电机跟不上。于是我们结合 我们增加了特斯拉 Megapacks(大型电池组),并修改了 Megapacks 的软件,使其能够平滑训练过程中的功率波动。 然后还有一大堆网络挑战。 因为如果你试图让 10 万块 GPU 进行连贯训练,网络线缆非常非常有挑战性。

Garry Tan

...听起来您提到的几乎任何一件事,我都能想象有人会直接告诉您「不行,你搞不到那个电力」,「你搞不定这个」。第一性原理思维的一个关键点似乎是:我们要问「为什么」,要弄清楚原因,并且要挑战对面的人。如果他们给出的答案我不满意,我就不会接受它。是这样吗?我觉得,如果有人想像您一样做硬件,似乎尤其需要这点。而在软件领域,我们有很多冗余,比如「我们可以加更多 CPU,没问题的」。但在硬件上,行不通就是行不通。

马斯克

我认为这些第一性原理思维的通用原则适用于软件和硬件,也适用于任何事物。 我只是用了一个硬件方面的例子 说明我们如何被告知某事不可能,但一旦我们将其分解成组成要素——我们需要一栋建筑,我们需要电力,我们需要冷却,我们需要 我们需要功率平滑(power smoothing)——然后我们就能解决这些组成要素。 但它是...然后我们 我们让网络运营团队 进行所有的布线工作,所有事 四班倒 24/7, 我也睡在数据中心,还亲自布线。

还有很多其他问题要解决。 你知道去年没人用 10 万块 H100 进行过连贯训练。也许今年有人做了。我不知道。 然后然后我们后来把它翻倍 到了 20 万块。所以现在我们我们在孟菲斯的训练中心有 15 万块 H100,5 万块 H200,和 3 万块 GB200。 我们即将在孟菲斯地区的第二个数据中心上线 11 万块 GB200。

Garry Tan

您是否认为预训练(Pre-training)仍然有效?缩放定律(Scaling laws)仍然成立?最终赢得这场竞赛的人将拥有最大、最智能的模型,然后可以蒸馏(Distill)它?