两个问题:
- 同步更新使得计算和通信与每次梯度同步绑定
- 分布式训练任务往往需要长时间占用宝贵的 GPU 资源
FTLib 由两个主要组件构成:
- 一致性协议(Consensus Protocol)
- 通信库(Communication Library)
采用 Gossip 作为其一致性协议来传播 worker 的加入和退出,有一定的宿主节点的特点?
一个节点想要分享一些信息给网络中的其他的一些节点。于是,它周期性的随机选择一些节点,并把信息传递给这些节点
gossip同raft协议的区别?最终都会达到最终一致性,不过一个是为了传播?,一个主要是针对选主