你的位置:开云(中国大陆)Kaiyun·官方网站 - 登录入口 > 新闻中心 > 开云体育以罢了迫切 token 的筛选保留-开云(中国大陆)Kaiyun·官方网站 - 登录入口
开云体育以罢了迫切 token 的筛选保留-开云(中国大陆)Kaiyun·官方网站 - 登录入口
发布日期:2025-08-10 08:09    点击次数:163

Diffusion Transformer 模子模子通过 token 粒度的缓存措施,罢了了图像和视频生成模子上无需考试的两倍以上的加快。

上海交通大学等团队提议 Toca(Token-wise Caching),有关论文已被 ICLR 2025 接纳。

Diffusion Transformer 在图像和视频生成中展现了权贵的后果,但代价是雄壮的推测老本。

为了处分这一问题,特征缓存措施被引入,用于通过缓存前几个本领步的特征并在后续本领步中复用它们来加快扩散 Transformer。

可是,之前的缓存措施忽略了不同的 token 对特征缓存确认出不同的敏锐性,而对某些 token 的特征缓存可能导致生成质料举座上高达 10 倍的破裂,相较于其他 token。

Toca 团队提议了基于 token 的特征缓存措施,允许自适合地采取最相宜进行缓存的 token,并进一步为不同类型和深度的神经辘集层诈欺不同的缓存比率。

通过在 PixArt- α、OpenSora 和 DiT, 以及 FLUX 上的平方实验,团队深刻注解了在图像和视频生成中无需考试即可罢了团队措施的有用性。举例,在 OpenSora 和 PixArt- α 上分袂罢了了 2.36 倍和 1.93 倍的接近无损的生成加快。

配景 Backgrounds

扩散模子 ( Diffusion Models ) 在图像生成、视频生成等多种生成任务中展现了出色的性能。连年来,以 FLUX, Sora, 可灵等模子为代表的 Diffusion Transformers 通过膨胀参数目和推测范畴进一步鼓舞了视觉生成范畴的发展。可是,Diffusion Transformers 濒临的一个要紧挑战在于其高推测老本,这导致推理速率迟缓,从而防碍了其在实时场景中的施行诈欺。为了处分这一问题,商酌者们提议了一系列加快措施,主要都集在减少采样步数和加快去噪辘集模子。

近期,基于特征缓存来罢了去噪模子加快的措施由于其优秀的无损加快性能,以及无需考试的优良性能,受到工业界的平方怜惜。上海交通大学张林峰团队进一步细心到一个当可是真义的表象:不同推测层,以及同推测层的不同 Token 关于缓存邪恶的适合性不同,不异的缓存邪恶在不同位置对模子影响最高不错达到数十,百倍的各别,因此有必要进一步将模子加快的粒度由特征级进一步到 token 级,并商量了奈何估量视觉生成模子中 token 的迫切性,以罢了迫切 token 的筛选保留。

中枢孝敬

ToCa 初度在 DiT 加快中中引入 token 级的缓存复用战略,并初度从邪恶累积与传播的角度分析特征缓存措施。

ToCa 提议 4 种从不同角度开赴,适用于不轸恤形的 token selection 战略:

基于 Self-Attention Map 来评估 token 对其它 token 的影响 ;

基于 Cross-Attention Map 评估文生图 / 视频任务中 image token 对 text token 的怜惜分散,以加强限制才调 ;

基于该 token 在先赶赴噪步中的被连气儿缓存复用的次数缱绻增益战略,饱读吹 token 在本领步上被更均匀地推测,幸免局部邪恶累积过大,破裂全局图像 ;

将各个 token 的迫切性得分基于空间分散进行加权,饱读吹被推测的 token 在空间上分散更均匀。

ToCa 被诈欺于多种最新模子上开展实验,深刻注解了其比较现存措施愈加优秀,包含文生图模子 PixArt-alpha,FLUX-dev 和 FLUX-schnell,文生视频模子 OpenSora,以及基于 ImageNet 类标签生成图像的 DiT 模子。

商酌动机

如图 1 所示,不同 token 在相邻两步间进行特征缓存引入的邪恶值的各别高达几十上百倍;

图 2 深刻不同 token 上引入不异大小的邪恶,这着手幅度疏通的邪恶在模子推理过程经过累积和传播,对模子的输出的影响各别也极大。因此,有必要商量 token 级别的特征缓存 - 复用战略,使得模子的推测更都集在要道被需要的 token 上。

措施推测过程

ToCa 的缓存 - 复用过程如图 3 ( a ) 所示:

Cache 启动化 着手推理一个完好的本领步,将各层的特征放入 cache 中以便使用。

迫切性得分推测在使用 ToCa 的本领步上,关于每一层:先推测各个 token 的迫切性得分,将最低的部分 token 符号为 cache 状况(举例图示中 ID 为 1 和 3 的 token),不传入辘集层进行推测。

部分推测关于被传入的 token ( 2,4,5 ) , 推行正常的推测 , 得到它们的输出。

Cache 更新从 cache 中调出存储的 token 1,3 的输出,并将推测得到的新的 token 2,4,5 输出更到 cache 中。

频繁这么的一个轮回长度为 2~4 个本领步,即 1 步充分推测后续搭配 1 至 3 个 ToCa step。此外,ToCa 还基于不同层的迫切性,缱绻了跟着层深度高潮而衰减的推测比例,确定请参考论文。

迫切性得分推测

如图 4 所示,ToCa 缱绻了基于 4 个不同方面商量的迫切性分数推测,在施行诈欺中它们以 加权乞降给出总的迫切性得分,确定请参考论文。

实验收尾

ToCa 被诈欺于文本到图像生成模子 PixArt-alpha, FLUX, 类到图像生成模子 DiT, 以及文本到视频生成模子 OpenSora 以考据其措施有用性,充分的实验收尾深刻注解,ToCa 具有特出其他同类措施的加快后果。

图像生成模子 : PixArt-alpha,FLUX, DiT

如上图所示,ToCa 比较另两种加快措施和无加快的高质料原图对都后果更佳,且具有更佳的图 - 文对都才调(举例从左到右第四列的 wooden dock)。

从 FID-30k 和 CLIP Score 上估量,ToCa 也赢得了远超其他措施委果认。

如上图所示,ToCa 在 FLUX 模子上的生成质料也极佳,不错看到和原图基本莫得各别。但值得商量的是在翰墨生成这类对细节条件极其高的任务上(举例左下角的舆图)仍有各别,这将行为团队后续商酌的起点。

关于高等的模子,使用 Image Reward 频繁能更好地对生成质料进行估量,团队分袂在 50step 的 FLUX-dev 和 4step 的 FLUX-schnell 上开展了实验,不错看到,ToCa 在 FLUX 上 1.5 倍加快,比较未加快模子的数值方针基本不变,远远优于其他措施。

在基础模子 DiT 上的收尾也深刻注解了 ToCa 的优厚性。

视频生成模子:OpenSora

团队制作了一个网页来展示 OpenSora 上的加快后果。

https://toca2024.github.io/ToCa

此外,团队将视频生成收尾部分抽帧以供快速浏览:

在 VBench 上测试 ToCa 的加快后果,实验收尾标明,ToCa 远优于其他措施,赢得了高达 2.36 倍的无损加快 , 在加快后果和生成质料上都赢得最优确认。

ToCa 在 VBench 的大部分方针上都赢得了和原模子险些疏通的得分。

追溯

ToCa 行为初度被提议的从 Token 级来罢了扩散模子加快的措施,比较以往加快措施具有更强的适配性,(尽管缱绻时行为专为 DiT 加快的决策,它的结构也不错被复用到 U-Net 结构的模子上),同期在多种任务上具有极佳委果认。连年来,包括 ToCa 在内的系列基于特征缓存的扩散模子加快措施兼具无需考试的优厚性和壮健的无损加快后果,赢得了独特的见效,是一种不同于蒸馏类措施的值得被进一步探索的加快决策。

论文:https://arxiv.org/abs/2410.05317

Github:https://github.com/Shenyi-Z/ToCa

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 形状主页赓续,以及联系面容哦

咱们会(尽量)实时复兴你

一键怜惜 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「堤防心」

接待在评述区留住你的思法!开云体育