近日,我院林丽美教授及其团队围绕图型网络故障诊断关键理论与算法开展系统研究,在中国计算机学会推荐 A 类期刊《IEEE Transactions on Networking(IEEE TON)》上连续发表四篇论文。相关成果面向数据中心网络与典型互连网络在复杂故障场景下的可靠运行需求,聚焦循环故障诊断、间歇性故障诊断及分支故障模式等关键问题,形成了“可证明诊断界—高效诊断算法—实验验证评估”的完整研究链条,为大规模网络系统的故障快速定位与高可靠容错运行提供了理论支撑与方法参考。
研究成果一:DCell 循环诊断度与快速诊断算法
该成果面向服务器中心型数据中心网络 DCell 的高可用运维需求,提出并刻画循环诊断度,在 PMC 与 MM* 两种系统级诊断模型下给出理论结论 (ctc(DCell_{k,n})=4k+2n-5),并提出快速诊断算法 PMCCFD/MMCFD。实验在 DCell_{2,5} 与真实网络 WUPG 上验证,在较低故障规模下 Accuracy 与 NPV 可保持在 0.95 以上,体现出良好的工程适用性与可扩展性。该工作成果以 “Cyclic Diagnosability and Fault Diagnosis Algorithm of Data Center Network DCell” 为题发表于 CCF A 类期刊《IEEE Transactions on Networking(IEEE TON)》。该论文福建师范大学为第一单位,第一作者为我院研究生管锴能,通讯作者为我院林丽美教授。该论文获国家自然科学基金项目(62171132、62102088)和福建省自然科学基金项目(2024J09032、2025J01379)资助。

图 1. 研究成果一技术路线示意图
论文来源:https://doi.org/10.1109/TON.2025.3610896。
研究成果二:分支故障模式下 DCell 容错分析与通用诊断算法
该成果面向多故障导致网络呈现“多分支化”的典型失效形态,在 PMC 模型下建立 分支诊断度理论,并提出通用诊断算法 ICFD-P,为数据中心网络容错设计与安全运维提供可证明的分析方法与可落地的诊断工具。该工作成果以 “Fault Tolerability Analysis of Data Center Networks Based on h-Component Fault Pattern” 为题发表于 CCF A 类期刊《IEEE Transactions on Networking(IEEE TON)》。该论文福建师范大学为第一单位,第一作者为我院研究生管锴能,通讯作者为我院林丽美教授。该论文获福建省自然科学基金项目(2024J09032、2025J01379)和福建省科技创新联合资金项目(2024Y9491)资助。

图 2. 研究成果二技术路线示意图
论文来源:https://doi.org/10.1109/TON.2026.3665615。
研究成果三:BC 网络循环诊断度统一理论与可扩展算法
该成果面向 BC 网络族的循环故障诊断需求,提出 g-BC 统一理论框架,在 P/M/C 与 MM* 两种系统级诊断模型下给出循环诊断度统一公式 (ct(g!-!X_n)=5n-8-g),并提出高效诊断算法 TDPMC 与 FBDMM,为复杂互连网络的容错评估与故障定位提供统一方法体系。该工作成果以 “Cyclic Fault Diagnosability and Diagnosis Algorithms of BC Networks” 为题发表于 CCF A 类期刊《IEEE Transactions on Networking(IEEE TON)》。该论文福建师范大学为第一单位,第一作者为我院研究生邓鹏,共同通讯作者为我院林丽美教授和美国天普大学吴杰教授。该论文获福建省自然科学基金项目(2024J09032、2025J01379)和福建省科技创新联合资金项目(2024Y9491)资助。

图 3. 研究成果三技术路线示意图
论文来源:https://doi.org/10.1109/TON.2025.3649510。
研究成果四:CSDC 间歇性故障诊断理论与多轮测试算法
该成果针对数据中心中更隐蔽、更难捕获的间歇性故障问题,在概率故障模型与 PMC 诊断框架下给出关键理论结论 (t^{I}_{PMC}(C_n)=n-1),并提出多轮测试驱动的诊断算法 PMIFDPMC,实现对间歇故障的高可靠定位。实验表明,随着测试轮次增加诊断性能持续提升,在 7 维 CSDC 上 Accuracy 达 99.94%、Recall 达 95.66%,在真实数据集上 FNR 可控制在 1% 以下。该工作成果以 “Intermittent Fault Diagnosis of Data Center Network CSDC Under Probabilistic Fault Model” 为题发表于 CCF A 类期刊《IEEE Transactions on Networking(IEEE TON)》。该论文福建师范大学为第一单位,第一作者为我院林丽美教授,通讯作者为福建理工大学黄艳泽副教授。该论文获福建省自然科学基金项目(2024J09032、2025J01379)和福建省科技创新联合资金项目(2024Y9491)资助。

图 4. 研究成果四技术路线示意图
论文来源:https://doi.org/10.1109/TON.2025.3646058。