來源:公眾號 鵝廠網事 , 作者:騰訊 付思東、孫敏
1.前言
長序列與MOE等大模型技術的涌現,催生了復雜的并行策略,從而使通信成為性能瓶頸。為滿足大規(guī)模AI模型訓練和推理對高帶寬、低時延通信需求,構建大規(guī)模的GPU Scale Up網絡已成為關鍵方向。然而在部署時,采用集中式超節(jié)點的高密度單機柜方案(如NVL72)存在散熱和供電的壓力,分布式超節(jié)點方案(如CloudMatrix 384)又面臨著因光模塊互聯密度低難以兼顧成本和運維的挑戰(zhàn)。NPO技術具有高互聯密度、低成本的優(yōu)勢對構建分布式Scale up網絡友好,提供了另外的解決途徑。但是,當前NPO技術的產品定義和開發(fā)以私有化模式為主,缺乏開放解耦的協(xié)同平臺,導致行業(yè)難以形成規(guī)模效應,制約了技術普及與生態(tài)發(fā)展。
針對上述問題,結合GPU I/O規(guī)格,我們從3.2T產品切入,發(fā)布涵蓋產品定義、性能指標等內容的NPO技術規(guī)格。其核心目標是:通過明確技術方向和規(guī)格,牽引行業(yè)演進;構建開放解耦的技術平臺,打破私有壁壘;加速產業(yè)生態(tài)鏈成熟,最終助力實現高性能、低成本的GPU Scale up網絡構建。
2.背景:應對規(guī)模增長的Scale up互聯需求
圖1. Sacle up超節(jié)點演進趨勢
隨著AI 大模型向千億、萬億參數規(guī)模突破,訓練與推理場景的高并發(fā)數據傳輸需求呈指數級增長,Scale up網絡作為支撐算力高效釋放的核心基礎設施,規(guī)模也在迅速擴大。
在部署實施形態(tài)上,Scale up網絡可以分為集中式節(jié)點和分布式節(jié)點兩種形態(tài)。集中式節(jié)點以NVL72為代表,通過銅互聯實現 GPU 單層級組網,網絡及部署成本低。但設備高度集中帶來散熱、供電、結構承重的壓力,銅互聯傳輸距離限制也制約了集群擴容。
分布式節(jié)點以Claud Matrix 384為代表,GPU 分散部署于多個計算節(jié)點,通過兩級光模塊互聯,緩解了集中式的緊耦合難題。但兩級組網推高網絡成本、增加轉發(fā)時延;光模塊雖突破傳輸距離限制,卻提升了網絡功耗與互聯時延;并且配置 6912 個 400G 光模塊,給部署調試與運維管理帶來較大挑戰(zhàn)。
圖2. 可插拔模塊與NPO
NPO(近光學封裝)為分布式節(jié)點提供了另外一種互聯途徑。NPO將光引擎集中化部署在設備芯片附近,1個3.2T NPO等效 8 個 400G 光模塊,而單個產品尺寸僅約后者 1/3。高互聯密度大幅精簡互聯網絡端口數量,有效解決海量設備部署與運維難題;同時結合 Shuffle 技術實現單層 Scale up 組網,降低網絡成本與轉發(fā)延遲;此外,NPO 支持去 DSP 設計,進一步減少網絡功耗、互聯時延。
3.基于線性架構的NPO創(chuàng)新:低時延、低功耗、高密度
圖3. NPO架構框圖與模組示意圖
NPO需要平衡密度、時延、功耗和系統(tǒng)兼容性?;贒SP架構的方案兼容性好,但是密度、時延和功耗都無法兼顧。針對 3.2T NPO,騰訊采用模擬線性架構定義方案。線性架構具有低時延、低功耗的優(yōu)勢。與含DSP的架構相比,該架構方案可將鏈路端到端時延降低 99% 以上,同時將功耗和成本降低 40% 以上。
然而,線性架構使用的模擬芯片(DRV和TIA)對電源電壓敏感,電源管理難以兼顧性能和互聯密度,并且不同芯片設計的電壓大多不兼容。因此,騰訊NPO規(guī)格為同時兼顧性能和互聯密度要求,保留電源管理模塊但將其外置從而釋放空間提升密度。同時,電源電壓由軟件定義從而提高系統(tǒng)兼容性。
此外,為保持系統(tǒng)簡潔性并解耦NPO和系統(tǒng)設備,規(guī)格在NPO內部保留光電轉換模組、通信模組與控制模組,實現通信與反饋控制的內部閉環(huán),降低對外部系統(tǒng)控制的依賴,實現與系統(tǒng)設備解耦。
4. 技術規(guī)格:全面定義NPO技術的各項指標
此次發(fā)布的3.2T NPO引擎技術規(guī)格對NPO技術的各項參數進行了全面定義,包括鏈路拓撲、接口規(guī)格、硬件定義以及管理協(xié)議等。如果把NPO看做一輛智能跑車,則鏈路拓撲是路況,接口規(guī)格是零件標準,硬件定義是設計藍圖,管理協(xié)議是智駕系統(tǒng)。定義好這些規(guī)格方能確?!芭苘嚒痹谛畔⒏咚俟飞习踩w馳。
4.1. 鏈路拓撲:定義應用場景
圖4. NPO鏈路拓撲
鏈路拓撲定義了NPO的使用場景。規(guī)格針對Scale up互聯短距、多連接點場景,重點關注了MPI(多路徑干擾)和連接損耗。鏈路最大互聯距離設定為30米,支持單列多個GPU計算節(jié)點的互聯,實現512+ GPU卡的互聯規(guī)模。同時,最大附加連接器數量設定為4個,支持引入光Shuffle,為實際應用提供了更大的靈活性和可擴展性。
4.2. 接口規(guī)格:保障互聯互通
圖5. 光口規(guī)格
接口規(guī)格是性能評估的標準,是互聯互通的基石。Eth-x Ultra要求非常穩(wěn)定的互聯,目標是1年內512卡互聯鏈路的閃斷次數不超過1起。因此各項單體指標的測試基線從ber=2.4e-4收嚴到1e-5。規(guī)格兼容單模和多模這兩條技術路線,制定了兩種光口標準,并給出了測試要求。單模光口規(guī)格明確了鏈路最大互聯距離30 m、光損耗3.0 dB、MPI代價0.4 dB等關鍵參數,確保系統(tǒng)在多連接器環(huán)境下的穩(wěn)定運行。多模光口規(guī)格正在針對不同的提案進行討論,制定更為詳細的參數標準以滿足不同應用場景的需求。
4.3. 硬件定義:構建開放解耦的基石
圖6. 電源與控制PIN定義
硬件定義是產品設計的藍圖,涉及機械結構、PIN定義、供電與控制等方面,提供開放解耦的基礎。規(guī)格立足現有行業(yè)資源,簡化系統(tǒng)設計,實現高密度NPO引擎。規(guī)格復用了OIF定義的3.2T CPO機械結構,對尾纖部分等未定義的地方進行了補充。在PIN腳定義方面有較大的調整,高速信號部分沿用了OIF的RF通道定義,移除了未使用的DSP相關引腳以簡化設計。供電則聯合光電芯片設計進行優(yōu)化,將外部電源數量控制在3個以內,減少約60%,空間占用率下降20%,既簡化了系統(tǒng)設計又實現密度提升。此外,電源引入軟件定義電源VCC_Var,提高NPO的兼容性和靈活性。控制部分則增加了I2C通信功能,并引入了Lpmode、RESET等控制信號以提高系統(tǒng)的可管理性。
4.4. 管理協(xié)議定義:從“可用”到“好用”
圖7. 鏈路閃斷前的BER與FEC分布
管理協(xié)議是設備協(xié)同的中樞,規(guī)格制定了全面的通道監(jiān)控和管理策略,確保NPO在系統(tǒng)中的高效穩(wěn)定應用。在通道監(jiān)控方面,針對NPO等線性系統(tǒng)無法直接監(jiān)測鏈路質量的難題,規(guī)格在常規(guī)的DDM監(jiān)控外新增SERDES監(jiān)控,特別是FEC分布上報。根據騰訊海量光模塊互聯質量數據,常規(guī)的DDM指標難以辨別亞健康鏈路,而基于FEC的診斷可精準識別并支持故障預測,支持主動運維。由于NPO采用ELS(外置光源),因此新增ELS與NPO的協(xié)同問題。規(guī)格針對這一問題對協(xié)同過程進行了定義,并在初始化過程中增加了進光檢查流程。
總結&展望:NPO技術引領Scale up互聯新潮流
圖8. 3.2T NPO開發(fā)計劃
針對GPU高性能網絡的通信瓶頸問題,NPO技術憑借著低功耗、低時延、高帶寬密度和靈活互聯優(yōu)勢,將逐漸成為大規(guī)模Scale up互聯的主流方案之一。依托于ODCC Eth-x Ultra項目發(fā)布的3.2T NPO引擎技術規(guī)格,確立了開放解耦的技術平臺,贏得了業(yè)界的廣泛支持,明確了互聯技術的協(xié)作發(fā)展方向。
展望未來,我們正在布局基于224G的6.4T NPO技術,探索下一代Scale up互聯解決方案。同時,隨著技術的不斷進步和創(chuàng)新,NPO還將與AI相結合,通過AI對NPO系統(tǒng)進行智能管理和優(yōu)化,進一步提高系統(tǒng)的運行效率和穩(wěn)定性。我們期待在不久的未來,NPO技術能夠在互聯領域發(fā)揮更加重要的作用,推動GPU高性能網絡蓬勃發(fā)展。
新聞來源:公眾號 鵝廠網事
相關文章