Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model

时间
2025-10-28 14:00:00
地点
南雍楼东121
主题
类别
主办

主讲人:汤宏垚

主讲人简介:汤宏垚,博士,天津大学智能与计算学部副研究员。2023年博士毕业于天津大学智能与计算学部,2023年至2024年于Mila研究所/蒙特利尔大学担任博士后研究员。主要研究方向为强化学习、具身智能以及基础模型。近年来,在NeurIPS、ICML、ICLR、TNNLS、TEC等人工智能领域国际顶级会议和期刊上发表论文30余篇。相关研究成果在游戏AI、药物发现、电子设计自动化、机器人等多个领域落地应用。