学术速递 | 葡京娱乐场官方网站 赵素云教授团队最新研究成果被人工智能领域顶级期刊T-PAMI录用
近日,葡京娱乐场官方网站 计算机系赵素云教授团队最新研究成果被国际顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(T-PAMI)正式录用,并已在线发表。T-PAMI是人工智能领域公认的最具影响力的国际期刊之一。其影响因子常年位居计算机科学与人工智能领域前列,最新的影响因子为20.8。被录用论文第一作者是来自数据仓库与商务智能实验室陈红教授与赵素云教授联合执导的2022 级博士生杜盼,这是杜盼同学博士期间第二篇被TPAMI收录的研究工作。
论文题目:Towards a Theoretical Understanding of Semi-Supervised Learning under Class Distribution Mismatch
论文作者:杜盼、赵素云、谭圃惠、盛子森、甘泽宇、陈红、李翠平
通讯作者:赵素云
论文概述:
论文聚焦于面向类别分布不匹配场景的半监督学习(SSL),提出了一套完整的半监督学习泛化分析的理论机制BOOM。该机制BOOM首次从理论角度揭示了类别分布不匹配对半监督学习泛化性能的影响机理。并提出了基于自适应分布对齐和动态权重优化的解决方案。这一理论框架为今后开放环境中半监督学习研究提供了重要的理论工具和实践指导,推动了半监督学习在实际应用中的进一步发展。
研究背景:
针对类别分布不匹配问题(如图1所示),当前半监督学习(SSL)研究的主流范式聚焦于通过动态筛选未标记数据来实现标记数据与未标记数据联合分布的对齐。然而,该方法存在两个本质性局限:(1)检测机制的敏感性依赖:分布对齐效果高度受限于未知类别检测机制的可靠性,当误检/漏检导致未知类别样本渗透至训练过程时,分类器决策边界将产生系统性偏移,进而引发模型性能的下降;(2)次优解风险:实证研究表明,基于目标分类器的检测方法(如置信度阈值过滤)在有限标记数据场景下,其泛化性能可能劣化至与纯监督基线相当甚至更低水平。为从根本上规避上述风险,亟需构建系统的半监督学习泛化分析框架。
图1:类别分布不匹配示意图
本研究所提出的理论框架BOOM(Bi-Objective Optimization Mechanism)系统地建立了从超额风险分解到算法设计的理论体系。BOOM主要理论贡献如下
【理论贡献】
(1)BOOM首次SSL解耦超额风险为Generalization gap, concentration error, 和SSL error,并揭示了 SSL error是导致超额风险(excess risk)的主要原因:
(2)BOOM揭示SSL误差由伪标签误差和入侵误差构成,该误差受伪标签的质量和样本权重分配的影响:
【技术方案】
基于理论发现,我们提出伪标签质量和适应性权重的双重目标优化策略:
(1)提升伪标签的质量: 根据定理3,我们选定最近邻标记样本为标签传播样本,从而最小化参数D, 进而提升伪标签质量。
(2)适应性权重分配: 我们进一步选定,与未标记样本最邻近,但是和标签传播样本拥有不同标签的标记样本来计算异标签半径,从而最小化参数
,进而构建适应性权重策略:
通过这项研究,我们为类别分布不匹配条件下的半监督学习提供了理论指导,并提出了实际可行的解决方案,具有广泛的学术和应用价值。
论文信息:
Pan Du, Suyun Zhao, Puhui Tan, Zisen Sheng, Zeyu Gan, Hong Chen, Cuiping Li. Towards a Theoretical Understanding of Semi-Supervised Learning under Class Distribution Mismatch. IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), 2025.
论文请见 //ieeexplore.ieee.org/abstract/document/10904322
作者简介:
杜盼,葡京娱乐场官方网站 2022级博士生,大数据科学与工程专业,主要研究方向包括弱监督学习、无监督学习、自监督学习和不确定信息处理等。
赵素云,葡京娱乐场官方网站 计算机系教授。目前主要研究方向是机器学习、不确定信息处理、弱监督学习等。主持国家自然科学基金项目三项,参与国家自然科学基金重点项目2项。现已发表文章60余篇,其中包括TPAMI,TKDE,TFS, TCybernetics, ICCV, CVPR, AAAI, IJCAI, ECAI, INS, PR, JCST等多篇。文章他引合计1000余次。