数据集蒸馏是将知识从大型真实数据集提炼到较小的合成数据集的过程,已成为高效深度学习训练的关键技术。它也被广泛应用于神经架构搜索、持续学习和隐私保护等领域。
南京大学智能科学与技术学院高阳老师团队提出了一种基于样本间和特征间关系的数据集蒸馏方法。基于分布匹配的数据集蒸馏方法存在两个局限性:(1)合成数据集中同一类内的特征分布分散,缺少类别区分度;(2)仅关注平均特征一致性,缺乏精度和全面性。针对上述局限性,提出两个即插即用约束损失:(1)类中心化约束,用以促进特定类样本的聚类,增强类别区分度。(2)局部协方差矩阵匹配约束,用以在样本量较小的情况下,也可以通过局部特征协方差矩阵在真实数据集和合成数据集之间实现更精确的特征分布匹配。相关工作发表在计算机视觉顶级会议CVPR 2024。
所提方法在四个数据集上蒸馏合成数据的可视化示例
论文链接:
https://arxiv.org/abs/2404.00563
上一篇:下一篇: