AI Layer 1 研报:寻找未来链上 DeAI 应用的沃土(14) / BTC123 | 区块链信息行情第一站

AI Layer 1 研报:寻找未来链上 DeAI 应用的沃土(14)

06-09 , 17:02 分享新闻

二、验证挑战:如何验证不可信供应者的计算结果是否正确?

在去中心化训练网络中,“任何人都可提供算力”是优势也是风险。问题在于:如何在无需信任的前提下验证这些计算是否真实有效?

传统方式如重计算或白名单审核存在明显局限——前者成本极高,不具可扩展性;后者又排除了“长尾”节点,损害网络开放性。Gensyn 为此设计了 Verde,一套专为神经网络训练验证场景构建的轻量级仲裁协议。

Verde 的关键思想是“最小可信裁定”:当验证者怀疑供应者训练结果有误时,仲裁合约只需重算计算图中首个存在争议的操作节点,而无需重演整个训练过程。这大幅度降低了验证负担,同时确保了至少一方诚实时的结果正确性。为解决不同硬件间浮点非确定性问题,Verde 还配套开发了 Reproducible Operators(可复现操作符库),强制对常见数学操作如矩阵乘法设置统一执行顺序,从而实现跨设备的位级一致输出。这一技术显著提升了分布式训练的安全性与工程可行性,是目前去信任验证体系中的重要突破。

Vader的工作流程

整个机制建立在训练者记录关键中间状态(即检查点)的基础上,多个验证者被随机指派去复现这些训练步骤,从而判断输出的一致性。一旦有验证者复算结果与训练者存在分歧,系统不会粗暴地重跑整个模型,而是通过网络仲裁机制精确定位二者在计算图中首次发生分歧的操作,仅对该操作进行重放比对,从而以极低的开销实现争议裁决。通过这种方式,Verde 在无需信任训练节点的前提下,既保证了训练过程的完整性,又兼顾了效率与可扩展性,是为分布式 AI 训练环境量身定制的验证框架。

三、通信挑战:如何减少节点间高频同步带来的网络瓶颈?

在传统的分布式训练中,模型要么被完整复制,要么被按层拆分(流水线并行),二者都要求节点间进行高频同步。特别是在流水线并行中,一个微批次必须严格按顺序经过每一层模型,导致只要某个节点延迟,就会阻塞整个训练流程。

Gensyn 针对这一问题提出 SkipPipe:一种支持跳跃执行与动态路径调度的高容错流水线训练系统。SkipPipe 引入了“跳跃比例(skip ratio)”机制,允许某些微批数据在特定节点负载过高时跳过部分模型层,同时使用调度算法动态选择当前最优计算路径。实验显示,在地理分布广、硬件差异大、带宽受限的网络环境下,SkipPipe 训练时间可降低高达 55%,并在高达 50% 节点故障率时仍能维持仅 7% 的损失,展现出极强的韧性和适应性。

参与方式