Network Research Radar

Resilient AI Supercomputer Networking using MRC and SRv6

This page is an original summary and commentary. Please read the original paper for the authoritative text.

This page is not affiliated with arXiv or the original publisher.

arXiv cs.NI 2026 arxiv-nonexclusive datacenter-networkingrdma-kernel-bypass
Public-safe mode. This page keeps to original summary, metadata, and source links only.

Original summary

大規模な AI 学習クラスタで問題になる tail latency と network failure に対して、MRC という multipath RDMA transport、multi-plane Clos topology、SRv6 による static source routing を組み合わせ、100K+ GPU 級クラスタでも training interruption を避けやすくする設計を production と testbed の両方で示した論文。

Why it matters for operators

operator 観点で重要なのは、故障時にすぐ制御面で収束しなくても job を継続できる設計に寄せていること。特に次の 3 点が実務的に効く。

  • flappy T0-T1 link を即時に排除しなくても、MRC が path から外してくれるので修理優先度を下げられる
  • static SRv6 path により、Clustermapper probe が実データと同じ path を通るため、故障局所化が簡単になる
  • T1 switch の不調時に dynamic routing 収束を待たず reboot でき、運用負荷を減らせる

Protocol / validation insight

この論文の本質は transport 単体の改善ではなく、`transport + topology + routing + telemetry` を一つの failure model に揃えていることにある。特に validation 上は次が重要。

  • two-tier multi-plane にすると 100K+ GPU を 8 x 100 Gbps plane で 131,072 NIC まで持っていける一方、plane 間の均等負荷という invariant が必要になる
  • MRC は EV を plane ごとに均等配分し、ECN を congestion signal、packet loss を path failure signal として使い分ける
  • static SRv6 を採ることで、ECMP/dynamic routing の挙動変化と host-side remap が干渉しにくくなり、failure localization もしやすい
  • point-to-point, link flap, switch reboot, path-level packet loss, NCCL send/recv, all-reduce, all-to-all, victim-flow collateral damage まで評価しており、failure mode ごとに見ているのが良い

Optional future product implication

Indirect. Better as a systems and resilience reference than as a direct routing-security detection feature source.

Related papers

  • MatchRDMA
  • LCMP
  • AI training cluster networking / resilient RDMA transport 論文
  • SRv6 を fabric control に使う datacenter networking 論文

Source / license

PathVector Studio research note. For authoritative wording, follow the original paper links above.