123,123,123

來源：公眾號鵝廠網事，作者：騰訊付思東、孫敏

1.前言

長序列與MOE等大模型技術的涌現，催生了復雜的并行策略，從而使通信成為性能瓶頸。為滿足大規(guī)模AI模型訓練和推理對高帶寬、低時延通信需求，構建大規(guī)模的GPU Scale Up網絡已成為關鍵方向。然而在部署時，采用集中式超節(jié)點的高密度單機柜方案(如NVL72)存在散熱和供電的壓力，分布式超節(jié)點方案(如CloudMatrix 384)又面臨著因光模塊互聯密度低難以兼顧成本和運維的挑戰(zhàn)。NPO技術具有高互聯密度、低成本的優(yōu)勢對構建分布式Scale up網絡友好，提供了另外的解決途徑。但是，當前NPO技術的產品定義和開發(fā)以私有化模式為主，缺乏開放解耦的協(xié)同平臺，導致行業(yè)難以形成規(guī)模效應，制約了技術普及與生態(tài)發(fā)展。

針對上述問題，結合GPU I/O規(guī)格，我們從3.2T產品切入，發(fā)布涵蓋產品定義、性能指標等內容的NPO技術規(guī)格。其核心目標是：通過明確技術方向和規(guī)格，牽引行業(yè)演進;構建開放解耦的技術平臺，打破私有壁壘;加速產業(yè)生態(tài)鏈成熟，最終助力實現高性能、低成本的GPU Scale up網絡構建。

2.背景：應對規(guī)模增長的Scale up互聯需求

圖1. Sacle up超節(jié)點演進趨勢

隨著AI 大模型向千億、萬億參數規(guī)模突破，訓練與推理場景的高并發(fā)數據傳輸需求呈指數級增長，Scale up網絡作為支撐算力高效釋放的核心基礎設施，規(guī)模也在迅速擴大。

在部署實施形態(tài)上，Scale up網絡可以分為集中式節(jié)點和分布式節(jié)點兩種形態(tài)。集中式節(jié)點以NVL72為代表，通過銅互聯實現 GPU 單層級組網，網絡及部署成本低。但設備高度集中帶來散熱、供電、結構承重的壓力，銅互聯傳輸距離限制也制約了集群擴容。

分布式節(jié)點以Claud Matrix 384為代表，GPU 分散部署于多個計算節(jié)點，通過兩級光模塊互聯，緩解了集中式的緊耦合難題。但兩級組網推高網絡成本、增加轉發(fā)時延;光模塊雖突破傳輸距離限制，卻提升了網絡功耗與互聯時延;并且配置 6912 個 400G 光模塊，給部署調試與運維管理帶來較大挑戰(zhàn)。

圖2. 可插拔模塊與NPO

NPO(近光學封裝)為分布式節(jié)點提供了另外一種互聯途徑。NPO將光引擎集中化部署在設備芯片附近，1個3.2T NPO等效 8 個 400G 光模塊，而單個產品尺寸僅約后者 1/3。高互聯密度大幅精簡互聯網絡端口數量，有效解決海量設備部署與運維難題;同時結合 Shuffle 技術實現單層 Scale up 組網，降低網絡成本與轉發(fā)延遲;此外，NPO 支持去 DSP 設計，進一步減少網絡功耗、互聯時延。

3.基于線性架構的NPO創(chuàng)新：低時延、低功耗、高密度

圖3. NPO架構框圖與模組示意圖

NPO需要平衡密度、時延、功耗和系統(tǒng)兼容性?；贒SP架構的方案兼容性好，但是密度、時延和功耗都無法兼顧。針對 3.2T NPO，騰訊采用模擬線性架構定義方案。線性架構具有低時延、低功耗的優(yōu)勢。與含DSP的架構相比，該架構方案可將鏈路端到端時延降低 99% 以上，同時將功耗和成本降低 40% 以上。

然而，線性架構使用的模擬芯片(DRV和TIA)對電源電壓敏感，電源管理難以兼顧性能和互聯密度，并且不同芯片設計的電壓大多不兼容。因此，騰訊NPO規(guī)格為同時兼顧性能和互聯密度要求，保留電源管理模塊但將其外置從而釋放空間提升密度。同時，電源電壓由軟件定義從而提高系統(tǒng)兼容性。

此外，為保持系統(tǒng)簡潔性并解耦NPO和系統(tǒng)設備，規(guī)格在NPO內部保留光電轉換模組、通信模組與控制模組，實現通信與反饋控制的內部閉環(huán)，降低對外部系統(tǒng)控制的依賴，實現與系統(tǒng)設備解耦。

4. 技術規(guī)格：全面定義NPO技術的各項指標

此次發(fā)布的3.2T NPO引擎技術規(guī)格對NPO技術的各項參數進行了全面定義，包括鏈路拓撲、接口規(guī)格、硬件定義以及管理協(xié)議等。如果把NPO看做一輛智能跑車，則鏈路拓撲是路況，接口規(guī)格是零件標準，硬件定義是設計藍圖，管理協(xié)議是智駕系統(tǒng)。定義好這些規(guī)格方能確?！芭苘嚒痹谛畔⒏咚俟飞习踩w馳。

4.1. 鏈路拓撲：定義應用場景

圖4. NPO鏈路拓撲

鏈路拓撲定義了NPO的使用場景。規(guī)格針對Scale up互聯短距、多連接點場景，重點關注了MPI(多路徑干擾)和連接損耗。鏈路最大互聯距離設定為30米，支持單列多個GPU計算節(jié)點的互聯，實現512+ GPU卡的互聯規(guī)模。同時，最大附加連接器數量設定為4個，支持引入光Shuffle，為實際應用提供了更大的靈活性和可擴展性。

4.2. 接口規(guī)格：保障互聯互通

圖5. 光口規(guī)格

接口規(guī)格是性能評估的標準，是互聯互通的基石。Eth-x Ultra要求非常穩(wěn)定的互聯，目標是1年內512卡互聯鏈路的閃斷次數不超過1起。因此各項單體指標的測試基線從ber=2.4e-4收嚴到1e-5。規(guī)格兼容單模和多模這兩條技術路線，制定了兩種光口標準，并給出了測試要求。單模光口規(guī)格明確了鏈路最大互聯距離30 m、光損耗3.0 dB、MPI代價0.4 dB等關鍵參數，確保系統(tǒng)在多連接器環(huán)境下的穩(wěn)定運行。多模光口規(guī)格正在針對不同的提案進行討論，制定更為詳細的參數標準以滿足不同應用場景的需求。

4.3. 硬件定義：構建開放解耦的基石

圖6. 電源與控制PIN定義

硬件定義是產品設計的藍圖，涉及機械結構、PIN定義、供電與控制等方面，提供開放解耦的基礎。規(guī)格立足現有行業(yè)資源，簡化系統(tǒng)設計，實現高密度NPO引擎。規(guī)格復用了OIF定義的3.2T CPO機械結構，對尾纖部分等未定義的地方進行了補充。在PIN腳定義方面有較大的調整，高速信號部分沿用了OIF的RF通道定義，移除了未使用的DSP相關引腳以簡化設計。供電則聯合光電芯片設計進行優(yōu)化，將外部電源數量控制在3個以內，減少約60%，空間占用率下降20%，既簡化了系統(tǒng)設計又實現密度提升。此外，電源引入軟件定義電源VCC_Var，提高NPO的兼容性和靈活性。控制部分則增加了I2C通信功能，并引入了Lpmode、RESET等控制信號以提高系統(tǒng)的可管理性。

4.4. 管理協(xié)議定義：從“可用”到“好用”

圖7. 鏈路閃斷前的BER與FEC分布

管理協(xié)議是設備協(xié)同的中樞，規(guī)格制定了全面的通道監(jiān)控和管理策略，確保NPO在系統(tǒng)中的高效穩(wěn)定應用。在通道監(jiān)控方面，針對NPO等線性系統(tǒng)無法直接監(jiān)測鏈路質量的難題，規(guī)格在常規(guī)的DDM監(jiān)控外新增SERDES監(jiān)控，特別是FEC分布上報。根據騰訊海量光模塊互聯質量數據，常規(guī)的DDM指標難以辨別亞健康鏈路，而基于FEC的診斷可精準識別并支持故障預測，支持主動運維。由于NPO采用ELS(外置光源)，因此新增ELS與NPO的協(xié)同問題。規(guī)格針對這一問題對協(xié)同過程進行了定義，并在初始化過程中增加了進光檢查流程。

總結&展望：NPO技術引領Scale up互聯新潮流

圖8. 3.2T NPO開發(fā)計劃

針對GPU高性能網絡的通信瓶頸問題，NPO技術憑借著低功耗、低時延、高帶寬密度和靈活互聯優(yōu)勢，將逐漸成為大規(guī)模Scale up互聯的主流方案之一。依托于ODCC Eth-x Ultra項目發(fā)布的3.2T NPO引擎技術規(guī)格，確立了開放解耦的技術平臺，贏得了業(yè)界的廣泛支持，明確了互聯技術的協(xié)作發(fā)展方向。

展望未來，我們正在布局基于224G的6.4T NPO技術，探索下一代Scale up互聯解決方案。同時，隨著技術的不斷進步和創(chuàng)新，NPO還將與AI相結合，通過AI對NPO系統(tǒng)進行智能管理和優(yōu)化，進一步提高系統(tǒng)的運行效率和穩(wěn)定性。我們期待在不久的未來，NPO技術能夠在互聯領域發(fā)揮更加重要的作用，推動GPU高性能網絡蓬勃發(fā)展。

3.2T NPO突破算力互聯密度，筑牢全光網絡根基

3.2T NPO突破算力互聯密度，筑牢全光網絡根基