中国科学技术大学连德富教授到访齐鲁工业大学(山东省科学院)计算学部

发布时间:2023-06-03通讯员:李春林出处:计算机科学与技术学部供稿审核人:王玉立责任编辑:姜维生浏览次数:47

6月1日,应齐鲁工业大学(山东省科学院)计算学部邀请,国家优秀青年基金获得者、中国科学技术大学计算机科学与技术学院副院长连德富教授到访,在长清校区机电楼B310会议室为学部师生作了主题为《针对大规模向量检索的学习型平衡树索引》的学术报告,并与参会师生进行了深入探讨。澳大利亚悉尼科技大学助理教授汪守金以线上形式共同参加报告。



连德富的报告高屋建瓴、深入浅出。他首先为同学们介绍研究背景,指出向量检索专注于从一堆数据点中找到K个最近邻,并广泛应用于信息检索和推荐系统等多个领域。当前的先进方法如HNSW生成的索引占用大量内存,限制了其处理的数据规模。近年来,占用小内存的空间划分学习索引取得了重要进展,但它们通常依赖大量标签数据进行有监督学习,并且模型复杂度限制了其泛化能力。针对这些问题,连德富在本次报告中介绍了一种基于平衡K叉树的轻量级可学习索引BATL。首先,该方法针对数据点集进行分层的学习划分,其中相同的数据点桶由根到对应叶的路径表示,这种方式大大减少了类的数量,并可以提升泛化能力。然后,BATL以交替方式更新分类器和平衡树:在更新分类器时,连德富创新性地利用序列到序列的学习范式,以学习如何将每个查询点路由到平衡树上的实际叶节点上,于是向量检索就被简化为序列(即路径)生成任务,可以通过对编码器-解码器进行束搜索来简单地实现;在更新平衡树时,BATL在平衡约束下自顶向下地应用分类解码器将每个数据点导航到树节点上。其次,多个针对大规模向量数据集的实验表明,BATL在延迟、准确性和内存成本之间取得了更好的权衡,优于目前的SOTA基线方法。最后,连德富指出其下一步工作将专注于为向量检索问题寻找新的训练范式,以降低大规模数据集训练开销。


报告结束后,学部教师管红娇博士针对不平衡数据分类的研究工作向连德富请教了科研方法;悉尼科技大学汪守金助理教授针对如何平衡科研与工程项目与连德富交流应对策略;多位同学针对数据点桶的分配问题向连德富请教替代方案。几位教授共同对课题组推荐系统方向的研究工作进行了指导,并鼓励大家凝练科学问题,努力冲击高水平学术论文,主动探索新问题、主动加强与外界的学术交流。最后,学部鹿文鹏教授对连德富的报告会进行了总结,感谢其对计算学部和自然语言处理与认知计算课题组的关心支持,期待其再次来访。


连德富,国家优青,中国科学技术大学特任教授、计算机科学与技术学院副院长,博士生导师。曾任电子科技大学副教授、悉尼科技大学访问学者,曾入选微软亚洲研究院铸星计划。研究领域包括深度学习和推荐系统,主持了国家自然科学基金优秀青年科学基金、面上项目、科技部科技创新2030重大项目课题、国防科技173重点项目等。在KDD、NeurIPS、TPAMI、TKDE等高水平会议和期刊上发表论文100余篇。曾获得教育部自然科学一等奖、安徽省教学成果一等奖、四川省教学成果奖二等奖、APWeb最佳学生论文、WISE 2022最佳论文、WWW 2021最佳论文候选。