当前位置: 首页 > 学术信息 > 正文
学术信息

基于非对称核学习方法的Transformer自注意机制分析与优化学术报告

发布时间:2024年05月28日 来源:suncitygroup太阳新城官网 浏览次数:

报告主题:基于非对称核学习方法的Transformer自注意机制分析与优化

报告时间:2024年5月28日下午3:00-4:00

报告地点:民主楼313

报告简介:Transformer中的自注意力矩阵可解释为非对称核矩阵,因此可借鉴核学习方法对其进行分析与优化。然而,经典核学习方法通常限定于对称半正定核,且其训练效率受限于训练数据规模,阻碍了其在深度学习模型中的应用。鉴于此,我们提出非对称核SVD,将SVD推广至非线性特征空间,实现对自注意力机制的原-对偶模型及原-对偶优化问题的推导;同时,构建新型注意力机制PrimalAttention,将二次计算复杂度降为线性计算复杂度,并增强了模型鲁棒性及泛化能力;进一步,推导一组共享对角协方差矩阵的稀疏高斯过程,构建自注意力机制的贝叶斯模型,保留了其非对称特性。

报告人简介:陶清华,比利时荷语鲁汶大学电子系助理研究员。2020年于清华大学自动化系系统工程所获得博士学位,师从王书宁教授开展分片线性神经网络建模与优化研究。此后,加入比利时荷语鲁汶大学电子系Johan A.K. Suykens教授课题组,开展核学习方法及深度神经网络分析与优化研究。陶清华面向深度神经网络学习机理分析、模型结构优化、优化算法设计等方面进行了持续研究,在本领域著名期刊及会议Nature Reviews Methods Primers、IEEE T-NNLS、IEEE T-ITS、Automatica、Signal Processing、TMLR、NeurIPS、ICML、ICLR等发表论文28篇;作为主要发起人及委员会成员举办国际研讨会“International Workshop on Deep Learning and Kernel Machines”,多次担任IEEE TIP、IEEE TNNLS、Machine Learning、NeurIPS、ICML、ICLR等期刊及会议审稿人。



联系电话:0731-88830700

版权所有:suncitygroup太阳新城(中国)集团官方网站