高阳教授：面向丰富观测多智能体任务的压缩状态表征学习方法

在部分可观测多智能体任务中，目前主流多智能体强化学习算法通过在训练阶段直接访问状态来提升智能体协作策略学习效率。然而，这一条件在现实生活多智能体任务中通常无法满足。因此，如何实现面向部分可观测多智能体任务的状态表征学习至关重要。针对这一问题，南京大学智能科学与技术学院高阳教授团队关注具有丰富观测假设的多智能体任务，提出Task Informed Partially Observable Stochastic Game来形式化该类任务中的压缩状态表征学习问题，并提出相应解决算法STAR。

具体而言，STAR算法将压缩状态表征学习划分为空间表征压缩和时间表征压缩两个子步骤，其中空间表征压缩利用信息瓶颈理论，基于智能体联合观测为每个智能体学习近似任务真实状态的状态表征，而时间表征压缩则基于双向互模拟度量对齐具有相似任务相关特征的状态表征，从而实现压缩状态表征的高效学习。实验结果表明，STAR算法在星际争霸多个地图上明显优于对比算法，验证了其有效性。该工作已经被人工智能顶级会议IJCAI 2024接收。