AI-RAN: Nvidia Areial RAN - cuRAN (2)

我們先來介紹一下 cuRAN 所需要的安裝環境,
在現有的架構中, Nvidia 一共有在三個硬體框架下進行實作:
  1. SMC-GH: Supermicro Server ARS-11GL-NHR (Config 2)
  2. Dell PowerEdge R750 Server + A100X
  3. Gigabyte Edge E251-U70 Server
其中, 3. 是在 Intel CPU 與 GPU (GA100) 協作的架構下完成,
而 1. 則是透過 ARM-based CPU (NVIDIA Grace) 與 GPU (GH200) 協作,
2. 的架構則把計算都整合至 A100X GPU 加速卡.

在 Nvidia 提出的架構中, 為了最大化其 CUDA 平台的計算,
我們可以看到其計算的重心一路從:
  • CPU 架構下的 GPU 運算協作 (架構 3), 
  • 變成以 GPU 架構為主的計算 (架構 2),
  • 整合 ARM-based CPU 提供整體運算平台 (架構 1).
這樣計算框架的演進, 也展示了近幾年運算框架的改變, 與 Nvidia 的雄心.
不過, 相對的, 為了讓我們更快的了解 cuRAN 需求, 我們從架構 3 進行說明.

在架構 3 的應用中, 我們需要的元件包含:
  • Intel CPU (Intel Xeon Gold 6240R)
  • RAM (96GB DDR4)
  • GPU (Nvidia GA100)
  • NIC (MLX CX6-DX MCX623106AE-CDAT)
其中, 最特別的是網路卡的需求, 我們來看一下這張網卡的細節,
根據官網敘述, 這張網卡的功能如下:
ConnectX-6 Dx EN adapter card, 100GbE, Dual-port QSFP56,
PCIe 4.0 x16, Crypto, No Secure Boot, Tall Bracket


看起來是透過 PCI 4.0 的介面, 透過主板和 CPU 溝通,
並提供 QSFP (四路光纖) 的通訊, 用以和 RU 進行對接.
在後續的網路設置中, 我們也可以看到在此架構下, 
此網卡作為作業系統的一組 IO, 並可以透過作業系統存取:

$ sudo apt-get install jq -y
$ sudo lshw -json -C network | jq '.  | "\(.product), MAC: \(.serial)"' | grep "ConnectX-6 Dx"
"MT2892 Family [ConnectX-6 Dx], MAC: b8:ce:f6:xx:xx:xx"
"MT2892 Family [ConnectX-6 Dx], MAC: b8:ce:f6:yy:yy:yy"

在後續的架構中, Nvidia 引入了像是 DPU (BlueField-3) 加速網路和 GPU 的連線,
不過, 至少在其初始架構下, 資料交換仍是走以 CPU 為主的計算框架,
這其中的變化, 我們之後有機會再繼續深談.





留言

熱門文章

LTE筆記: RSRP, RSSI and RSRQ

[WiFi] WiFi 網路的識別: BSS, ESS, SSID, ESSID, BSSID

LTE筆記: 5G NR Measurement Events