ICC訊 2026年1月16日,IFOC訊石光通信大會·年度論壇于東莞松山湖舉行。海思光電資深產(chǎn)品應(yīng)用總監(jiān)齊鳴發(fā)表了題為《AI智算大規(guī)模光互聯(lián)的挑戰(zhàn)和解決方案》的主題報告。報告指出,隨著AI應(yīng)用升級,算力形態(tài)正向大規(guī)模集群演進,大規(guī)模光互聯(lián)中光鏈路故障與閃斷已成為引發(fā)智算訓(xùn)練中斷的核心癥結(jié)。海思光電打造星云智檢StarSensor方案,對光鏈路的故障支持分鐘級檢測、厘米級定位等特性,顯著提升智算網(wǎng)絡(luò)的長期運營的可靠性。
齊鳴在分享中指出,大規(guī)模集群互聯(lián)對光鏈路可靠性提出了極高要求。根據(jù)業(yè)界的統(tǒng)計數(shù)據(jù),集群故障中光鏈路問題占比29%。根據(jù)OTT智算集群開局?jǐn)?shù)據(jù)統(tǒng)計,光鏈路問題中僅不到10%為光模塊本體問題,端面臟污引發(fā)的故障占比達(dá) 53%,成為核心誘因。這一數(shù)據(jù)清晰表明,光鏈路閃斷不等于光模塊故障,導(dǎo)致集群閃斷大部分原因是光鏈路的端面臟污。此類臟污不僅給光鏈路中光的反射帶來多路徑串?dāng)_,同時也給智算網(wǎng)絡(luò)長期穩(wěn)定運維帶來隱患。
傳統(tǒng)光鏈路故障檢測辦法包括監(jiān)控光模塊光功率和BER壓測,但這類方式存在顯著局限性:針對未造成光功率明顯衰減的端面臟污問題,往往難以有效識別;同時,BER 壓測不僅耗時較長,也無法精準(zhǔn)區(qū)分故障根源是光纖臟污還是接口虛插。針對上述痛點,海思光電星云光模塊重磅推出星云智檢(StarSensor)創(chuàng)新檢測方案。該方案通過周期性發(fā)送調(diào)制信號到光發(fā)射機,經(jīng)過光鏈路傳輸后,接收端解調(diào)檢測信號序列,基于發(fā)射和反射的時間差測算位置,基于反射強度評估臟污程度,實現(xiàn)了基于光模塊的光鏈路臟污檢測,整個分析過程僅需要幾分鐘?,F(xiàn)網(wǎng)驗證數(shù)據(jù)顯示,相較于傳統(tǒng)光功率檢測方式,StarSensor 的檢測有效性提升 3 倍,檢測耗時從小時級壓縮至分鐘級,大幅提升智算網(wǎng)絡(luò)開局效率。同時,搭載該方案的現(xiàn)網(wǎng)局點在長期運行中,未發(fā)生任何光鏈路相關(guān)中斷事故,充分驗證了 StarSensor 的檢測精度與可靠性。
隨著智算網(wǎng)絡(luò)規(guī)模的持續(xù)擴容,光鏈路數(shù)量呈爆發(fā)式增長,傳統(tǒng)人工排障模式已難以匹配高效運維需求。海思光電立足二十余年光電技術(shù)積淀,通過系統(tǒng)性技術(shù)重構(gòu)打造出適配智算網(wǎng)絡(luò)的StarMatrix 星云光互聯(lián)解決方案,其獨家搭載的星云智檢 StarSensor 功能,以分鐘級檢測、厘米級定位的核心優(yōu)勢,有效消除 AI 訓(xùn)練開局隱患,為智算中心的長穩(wěn)運行提供可靠保障。
新聞來源:訊石光通訊網(wǎng)
相關(guān)文章