【05-21】预训练模型视觉提示学习方法研究

文章来源:  |  发布时间:2025-05-21  |  【打印】 【关闭

  

时间:2025年5月21日(周三)13:30-15:00

地点:中国科学院软件园区5号楼4层中会议室


报告摘要:


近年来,随着大模型技术的不断发展,视觉/多模态大模型集体涌现。通过图像、点云、视频等海量异构数据,训练得到的视觉/多模态大模型中蕴含着丰富的预训练知识,对其进行全量微调即可应用于多种下游视觉任务。然而,全量微调会带来巨大的计算开销,导致预训练模型的实际应用受到严重限制。因此,如何实现预训练视觉/多模态模型的高效微调,提升其在下游任务的泛化能力,具有重要意义。视觉提示学习技术旨在保持预训练模型冻结的同时,仅引入少量的可学习提示参数,调整预训练模型使其适应下游任务。相比于全量微调,视觉提示学习技术能够显著降低预训练模型微调的计算开销,具有重要的理论和应用价值。本报告聚焦预训练模型视觉提示学习方法,将介绍我们最新发表于CVPR 2025、AAAI 2025、IJCV 2024等工作。报告主要内容包括两个方面:(1)针对不同异构数据特征难对齐、不同模型结构提示设计难兼容的挑战,探讨差异化视觉提示架构设计方法;(2)针对不同样本间差异化信息难提取的挑战,探讨实例级视觉提示信息建模方法。


报告人介绍:


周嘉欢,北京大学王选计算机研究所研究员、博士生导师,国家高层次青年人才,北京大学小米博雅青年学者。2013年本科毕业于清华大学自动化系,2018年博士毕业于美国西北大学计算机科学专业。主要研究方向为计算机视觉、机器学习、人工智能等,已发表Nature子刊、CCF-A和IEEE Trans论文五十余篇,包括Nature Communications、Nature Synthesis、IEEE TPAMI、IJCV、IEEE TIP、IEEE TIFS、CVPR、ICCV、ICML、ECCV、ICLR、AAAI、ACM MM等领域内顶级期刊和会议论文。主持包括国家自然科学基金优秀青年科学基金项目(海外)、国家自然基金委面上项目、某基础加强技术领域基金、全国重点实验室基金、多项校企合作项目等。担任CCF-CV、CSF-VCS专委会委员,国际期刊Machine Vision and Applications编委、国际会议CVPR、ICML、NeurIPS、ICME、ICPR领域主席,AAAI程序委员会委员。