AI-RAN: Nvidia Areial RAN - cuRAN (2)
我們先來介紹一下 cuRAN 所需要的安裝環境,
在現有的架構中, Nvidia 一共有在三個硬體框架下進行實作:
- SMC-GH: Supermicro Server ARS-11GL-NHR (Config 2)
- Dell PowerEdge R750 Server + A100X
- Gigabyte Edge E251-U70 Server
其中, 3. 是在 Intel CPU 與 GPU (GA100) 協作的架構下完成,
而 1. 則是透過 ARM-based CPU (NVIDIA Grace) 與 GPU (GH200) 協作,
2. 的架構則把計算都整合至 A100X GPU 加速卡.
在 Nvidia 提出的架構中, 為了最大化其 CUDA 平台的計算,
我們可以看到其計算的重心一路從:
- CPU 架構下的 GPU 運算協作 (架構 3),
- 變成以 GPU 架構為主的計算 (架構 2),
- 整合 ARM-based CPU 提供整體運算平台 (架構 1).
這樣計算框架的演進, 也展示了近幾年運算框架的改變, 與 Nvidia 的雄心.
不過, 相對的, 為了讓我們更快的了解 cuRAN 需求, 我們從架構 3 進行說明.
在架構 3 的應用中, 我們需要的元件包含:
- Intel CPU (Intel Xeon Gold 6240R)
- RAM (96GB DDR4)
- GPU (Nvidia GA100)
- NIC (MLX CX6-DX MCX623106AE-CDAT)
其中, 最特別的是網路卡的需求, 我們來看一下這張網卡的細節,
根據官網敘述, 這張網卡的功能如下:
ConnectX-6 Dx EN adapter card, 100GbE, Dual-port QSFP56,
PCIe 4.0 x16, Crypto, No Secure Boot, Tall Bracket
PCIe 4.0 x16, Crypto, No Secure Boot, Tall Bracket
並提供 QSFP (四路光纖) 的通訊, 用以和 RU 進行對接.
在後續的網路設置中, 我們也可以看到在此架構下,
此網卡作為作業系統的一組 IO, 並可以透過作業系統存取:
$ sudo apt-get install jq -y
$ sudo lshw -json -C network | jq '. | "\(.product), MAC: \(.serial)"' | grep "ConnectX-6 Dx"
"MT2892 Family [ConnectX-6 Dx], MAC: b8:ce:f6:xx:xx:xx"
"MT2892 Family [ConnectX-6 Dx], MAC: b8:ce:f6:yy:yy:yy"
在後續的架構中, Nvidia 引入了像是 DPU (BlueField-3) 加速網路和 GPU 的連線,
不過, 至少在其初始架構下, 資料交換仍是走以 CPU 為主的計算框架,
這其中的變化, 我們之後有機會再繼續深談.
留言
張貼留言