DevilKing's blog

冷灯看剑,剑上几分功名?炉香无需计苍生,纵一穿烟逝,万丈云埋,孤阳还照古陵

0%

Distrubted Training

原文链接

两个问题:

  • 同步更新使得计算和通信与每次梯度同步绑定
  • 分布式训练任务往往需要长时间占用宝贵的 GPU 资源

FTLib 由两个主要组件构成:

  • 一致性协议(Consensus Protocol)
  • 通信库(Communication Library)

采用 Gossip 作为其一致性协议来传播 worker 的加入和退出,有一定的宿主节点的特点?

一个节点想要分享一些信息给网络中的其他的一些节点。于是,它周期性随机选择一些节点,并把信息传递给这些节点

gossip同raft协议的区别?最终都会达到最终一致性,不过一个是为了传播?,一个主要是针对选主