首页 188体育注册 >新闻资讯 校园风采 188体育APP下载
Li Feifei团队的新作品:DIT将在没有培训的情况下直接改变,模型的深度将减少一半,质量也将改善
2025-06-13

编辑关于机器心脏的报告:钦贡·陈的陈(Chen Chen)本文提出了一项名为“移植”的技术,并通过在小型计算机预算下的先前训练的扩散变压器(简称DIT)的版本探索了新的模型架构设计。这种方法使研究人员可以通过从头开始替换特定模型(例如MLP)操作员而无需从头开始训练模型,从而降低计算复杂性,同时保持模型的质量,从而创建新的混合体系结构。该模型的模型设计在自动学习中起着核心作用,并且与数据,算法,计算机功率和参考点一样重要。定义模型的元素,例如模型函数,操作员选择(预防机制,定罪等)和配置配置(模型深度,宽等)。尽管如此,由于培训模型的高成本(即解决方案工作,not)。因此,研究新体系结构仍然是一个挑战,尤其是对于生成模型。在本文中,来自斯坦福大学和Liquid AI等机构的研究人员调查了该主题。换句话说,我们正在制作以前训练的模型的建筑版本来研究新的体系结构。论文中的链接:https://arxiv.org/pdf/2506.05340V1文档主页:https://grafting.stanford.edu/纸质标题:探索一个专门探索传播变压器设计,本研究提出了一种简单的方法来编辑预分类的扩散变压器。计算预算。覆盖过程如下:(i)蒸馏激活:在此阶段,其函数移至新的操作员,用于用于回归目的的原始操作员的活动性能。此阶段的核心是实现运算符之间功能的传输。 (ii)光调整:此阶段由于多个新操作员的整合而减少了错误的传播使用有限的数据进行调整。此外,在编辑体系结构时,您可以添加,消除和交换运算符。提供各种策略,包括转换。在本文档中,我们还基于DIT-XL/2构建了一个测试平台,以检查模型质量的影响。使用此测试平台,该文档通过用门卷积替换SoftMax的注意力,将当地注意力和线性注意力替换,并用可变的变化和卷积变化代替MLP,从而开发了一系列混合设计。值得注意的是,许多混合设计使用先前培训的资源信息的不到2%的资源信息(FID:2.38–2.64,而DIT-XL/2中的2.27)实现了良好的质量。接下来,本文将文本的图像模型(PixArt-σ)移植,达到了1.43次的加速度,Val得分超过2%。最后,本文通过将每对序列变压器模块转换为平行模块,提出了用于重建DIT-XL/2的案例研究通过移植技术。这将模型的深度降低了一半,这比其他具有可比深度的模型的质量更高(FID:2.77)。总而言之,这项研究表明,可以在训练前通过DIT对扩散模型的新设计进行研究,其修改范围从替换运算符到建筑重建。移植物和扩散变压器两个阶段移植方法旨在实现新的体系结构编辑以前训练的模型的图形计算效率。这提出了两个问题,因为这项研究的重点是用替代方案代替现有运营商。问题1:在将新操作员集成到计算图中之前,我应该如何启动新运营商?承认第一阶段:激活和初始化蒸馏。这可以认为是回归问题,因为DIT激活是连续且软的。问题2:集成了多个操作员时如何减轻错误的传播进入计算图?与阶段2兼容:光调节。随着越来越多的运算符的交换,初始化错误继续扩散并偏离预处理模型的行为。本文档使用良好的末端 - 到末端调整以减少第1阶段的累积误差。在等式1中显示了罚款目标。实际上,该文档发现,即使更换了DIT -XL/2中的所有MHA或LayersMLP,也只能恢复10%的训练数据。在研究新建筑设计之前,该研究引入了简单的控制配置和自动覆盖物。用相同类型的操作员替换现有操作员(MHA,MLP等),但重量的随机初始化。这允许计算图表结构,包括运算符的类型和参数编号,以维护特定的计算过程。自动移植具有三个功能:(1)评估封面过程的有效性精灵而没有改变建筑。 (2)提供了比较不同替代方案的性能点。 (3)影响性能的研究因素,例如数据大小,回归目标和超参数。激活行为分析和自动启动会导致该文档,Primero我们分析了DIT-XL/2层中MHA和MLP运算符的激活行为。在这两种情况下,在本文档的激活值中都观察到显着差异,尤其是在更深层次的层中(表1(i,ii))。分析后,我们得出结论,可以通过选择操作员的特定回归目标来实现高质量初始化。如表1(III,IV)所示,回归目标的选择会影响性能。对于MHA,L1获得最高的FID(2.51),其次是Huber(2.55)和L2(2.58)。对于MLP,L2执行最佳(2.33),L1执行最低(2.83)。值得注意的是,MLP中的参数数量是MHA TW的量冰。这表明高质量初始化需要个性化的激活意识策略。这项研究发现,将10%的数据用于完整的自动启动,为基础产生了CER表现。它表明,在培养基和计算的预算中,完整的自动启动是可行的。实验实验I:携带本节时的混合体系结构的实现围绕此问题。现有操作员已被有效替代方法来调查此问题,该文档描述了以下封面过程:1。替换-MHA或MLP的操作员类型。 2。要替换的运算符类型 - 卷积等。3。层选择策略 - 在所有层中交换运算符或使用启发式选择。 4。替换率:全部或部分替换。在实验中,本研究创建了一个测试平台,并提出了两个层次选择策略:完全交换和阶梯交换。有关测试P的更多信息,请参见表3latform。此外,这项研究还介绍了两个新的高效激活卷积运算符HYENA-X和Hyena-Y,它们被设计为MHA的直接替代品。图3显示了其结构。 MHA结果。 DIT-XL/2中MHA操作员的转移和替换为质量效率提供了补偿。主要发现是:在交织在一起的植入物下,小型接受场表现出令人惊讶的作用。在该实验中,发现诸如滑动窗(SWA)的注意力(hyena-x/and Mamba-2)的替代方案保持了50%的插入式汇率比例之间的差距(2.27)之间的差距(2.27)。尤其值得一提的是,尽管SWA和HIENA变体的接收场(卷积K = 4/window w = 4)的接收场(卷积k = 4/window w = 4)是最小的。替代策略:隔开替换和完整替换。绩效通常通过增加监护人替代者的故事行动而降低Element从50%到75%,但SWA仍然有效,替换为75%(FID = 3.09)。通过100%的替换,该性能急剧恶化(所有FID 75),由局部分析组成,表明仅亚杆子在本地适合移植物。消融实验的数据大小和层选择结果。 MLP结果表明,用端口替换MLP操作员是有效的。实验后,绘制关键点1。移植物是较小的计算预算,非常有效地在下面建立具有出色发电质量的高效混合体系结构。交织的设计特别有效。实验II:通过实现的变压器结果进行改进的互文的传播。移植模型在实际时间计算机速度(墙壁时间)中达到了1.43倍,而评估得分的产生(Gineval)显示出略有下降(47.78,而49.75)。属性的特定指标是维护本质上是可比的,定性样品也显示出良好的对齐和质量。在某些纹理区域观察到局部扭曲。这是由于Lora的不良适应性以及所使用的合成数据的质量(有关更多详细信息,请参见D.3和D.4)。关键点2:移植技术成功地应用于Wensheng图中的位置。建立的混合体系结构同时实现了显着的加速,生产质量的损失最低。有关更多信息,请参见原始文档。

Copyright © 2024-2026 188体育注册_188体育APP下载 版权所有

网站地图

鄂ICP备36659856号

友情链接: