开云「中国内陆」官方网站 更高效、更智能、更环保
你的位置:开云「中国内陆」官方网站 更高效、更智能、更环保 > 新闻资讯 >
发布日期:2025-12-23 08:34 点击次数:88

欧洲杯体育
这项由香港中语大学的郭宇伟、字节进步的杨策元等盘考团队配合完成的阻塞性盘考,于2024年12月发表在考虑机视觉限度的顶级会议上。对这项盘考感意思意思的读者不错通过arXiv:2512.15702v1查询完整论文。盘考团队冷落了一种名为"重采样强制查考"(Resampling Forcing)的全新框架,专门治理AI视频生成中的"忘记症"问题。
当咱们驳斥AI生成视频时,大多数东说念主可能会料想那些令东说念主印象深入的短片断。然而,若是你也曾尝试让AI生成一段较长的视频,你可能会发现一个奇怪的时势:视频伊始时还很日常,但跟着时分推移,画面伊始变得暧昧、误会,以致皆备崩坏。这就像一个东说念主在讲故事时,伊始讲得很好,但说着说着就忘记了前边的情节,最后悉数这个词故事变得不知所云。
这种时势在AI限度被称为"曝光偏差"(exposure bias),它是自总结视频生成模子靠近的中枢挑战。自总结模子的就业旨趣近似于东说念主类讲故事:它需要把柄前边也曾生成的内容来决定下一个画面应该是什么样的。在查考阶段,AI模子就像一个学生在课堂上锻真金不怕火,安分会给它提供圆善的参考谜底。但在本色诓骗中,AI必须依赖我方之前生成的内容,而这些内容时常并不圆善。这种查考与本色诓骗之间的各别,便是导致视频质料冉冉恶化的根底原因。
盘考团队通过一个生动的譬如来解释这个问题:想象一个厨师在学作念菜时,老是使用最簇新、最圆善的食材进行锻真金不怕火。但在果真的厨房里,他必须使用之前处理过的、可能也曾有些变质的食材来不息烹调。收尾显而易见,整说念菜的质料会越来越差。
为了治理这个问题,之前的盘考者们尝试了各式法式。有些盘考采纳了"后查考"计策,即先查考一个基础模子,然后再进行额外的调治。关联词,这些法式时常依赖于一个"双向教师模子"或在线判别器。双向教师模子的问题在于它大约"看到将来",这不服了履行天下中时分的单向性原则。就像一个预言家在带领学生时,不留意泄露了将来的信息,导致学生无法果真掌抓推理武艺。
字节进步和香港中语大学的盘考团队冷落的"重采样强制查考"法式,就像是为AI学生创造了一个愈加真实的锻真金不怕火环境。在这个环境中,AI不再依赖圆善的参考尊府,而是要学会在不圆善的条目下不息就业。
具体来说,盘考团队联想了一种"自我重采样"机制。这个机制的就业旨趣近似于一个特殊的查考模范:AI模子领先会很是在历史画面中引入一些造作,模拟真实使用时可能出现的不圆善情况。然后,它必须基于这些带有造作的历史画面来预计下一个画面。这么的查考方式使得AI模子变得愈加"鲁棒",即使面对不圆善的输入,也能保持相对雄厚的输出质料。
这种法式的奥秘之处在于,它并不试图皆备摈斥造作,而是教养AI如安在造作存在的情况下不息日常就业。就像教一个司机不仅要在圆善的说念路条目下驾驶,还要学会在雨天、雾天等不睬想条目下安全行驶。
盘考团队在达成这个想法时,面终末一个缺点的本事挑战:怎么模拟真实的模子造作。他们采纳了一种篡改的法式,通过自总结重采样来模拟推理时的模子造作。这个经由分为两个阵势:领先,他们向真实视频帧添加噪声,使其左迁到某个中间时分步;然后,使用在线模子权重完成剩余的去噪阵势,产生包含模子造作的左迁帧。
为了纵脱这个经由,盘考团队引入了一个缺点参数:仿真时分步ts。这个参数纵脱着历史诚实度和造作改造天真性之间的均衡。较小的ts值会产生接近真实的左迁样本,饱读舞模子保持对历史帧的诚实,但可能导致造作累积。较大的ts值则为造作改造提供更大的天真性,但可能导致内容漂移。盘考团队通过数学建模,找到了最优的ts分散,确保在两个顶点之间获取最好均衡。
另一个缺点篡改是"历史路由"机制。跟着视频长度的增多,AI需要处理的历史信息越来越多,这就像一个东说念主的记念就业越来越重。传统的治理决议是使用"滑动窗口"法式,只怜惜最近的几个画面,但这种法式会挫伤永远依赖关联,影响视频的全局一致性。
盘考团队冷落的历史路由机制,就像给AI配备了一个智能的记念治理系统。这个系统大约动态地从大都历史画面中采用最考虑的k个画面进行怜惜,而不是粗浅地只看最近的画面。这种采用是基于内容考虑性的,而不是基于时分距离的。就像一个训诲丰富的编剧在写续集时,会回想悉数这个词故事线中最考虑的情节,而不单是是上一集的内容。
在本事达成上,盘考团队使用了点积算作采用圭臬,通过查询令牌qi和历史帧描述符之间的相似度来详情最考虑的历史帧。这种法式将每个令牌的珍主见复杂度从线性O(L)裁减到常数O(k),其中L是历史帧数目,k是采用的帧数。当k拓荒为一个小值时,不错达成很高的疏淡性,但路由机制以头级和令牌级的方式操作,意味着不同珍主见头和空间位置的令牌不错路由到不同的历史搀杂,集体产生比k帧大得多的有用剿袭域。
盘考团队在实验联想上也展现了周详的接头。他们基于WAN2.1-1.3B架构构建了我方的法式,并加载了预查考权重以加快禁止。原始模子使用双向珍主见生成5秒视频(81帧),分辨率为480×832。盘考团队修改了时分步条目以维持每帧噪声级别,并使用torch.flex_attention()达成了疏淡因果珍主见,莫得增多额外参数。
查考经由采纳了分阶段计策。领先,在切换到因果珍主见后,模子使用教师强制主义在5秒视频上查考10,000步进行预热。然后调治到重采样强制查考,先在5秒视频上查考15,000步,再在15秒视频(249帧)上查考5,000步。最后,启用疏淡历史路由进行1,500次迭代的微调。查考批次大小为64,AdamW优化器的学习率为5×10^-5。时分步移位因子拓荒为s=0.6,top-k历史路由中k=5。为了提升服从,历史重采样使用1步Euler求解器。
实验收尾展示了该法式的显赫上风。在定性比较中,盘考团队将他们的法式与多个现存的自总结视频生成基线进行了比较,包括SkyReels-V2、MAGI-1、NOVA、Pyramid Flow、CausVid、Self Forcing和LongLive等。收尾透露,大多数严格的自总结模子在长视频生成中都出现了造作累积时势,阐扬为情态、纹理和举座明晰度的冉冉下跌。
罕见值得珍重的是与LongLive的比较。LongLive天然在长距离视觉质料方面阐扬细密,但盘考团队发现,从短双向教师模子蒸馏的法式无法确保严格的因果关联。在"倒牛奶"的例子中,LongLive产生的液体水平先高涨后下跌,违抗了物理定律。比拟之下,盘考团队的法式保持严格的时分因果关联:液体水平单调增多,同期源容器变空。
定量评估使用VBench提供的自动方针进行。悉数模子都被要求生成15秒视频,然后将其分为三个片断分袂评估,以更好地评估永远质料。收尾标明,该法式在悉数视频长度上都保持了可比的视觉质料和优胜的时分质料。在更长的视频长度上,该法式的性能也与长视频蒸馏基线LongLive相配。
盘考团队还进行了扫视的消融盘考。他们比较了不同的造作模拟计策,包括噪声增强、并行重采样和自总结重采样。收尾透露,自总结重采样计策获取了最高质料,其次是并行重采样和噪声增强。盘考团队以为这是因为加性噪声与模子的推理时造作模式之间存在不匹配,以及并行重采样只拿获每帧左迁而忽略跨时分的自总结累积。
在仿真时分步移位的盘录取,盘考团队发现模子性能对移位因子s的采用相对鲁棒。使用顶点值进行消融以更好地可视化移位因子的影响,收尾透露,使用小s值查考的模子阐扬出造作累积和质料下跌,而终点大的s值会裁减与历史的语义一致性,增多启动内容漂移的风险。因此,适中的s值关于在缓解造作累积和防御漂移之间获取均衡至关缺点。
疏淡历史计策的比较透露,路由到前20个历史帧中的前5个大约在75%的疏淡性下产生与密集珍主见相配的质料。将前5个减少到前1个(95%疏淡性)只酿成隐微的质料下跌,讲解注解了路由机制的鲁棒性。盘考团队进一步对比了前1个路由与大小为1的滑动窗口,尽管疏淡性罕见,但路由机制在鱼的外不雅一致性方面阐扬更优。他们假定滑动窗口珍主见的固定和局部化感受野加重了漂移风险,而动态路由使每个查询令牌大约采用不同的历史高下文组合,集体产生更大的有用感受野,更好地保持全局一致性。
历史路由频率的分析揭示了风趣的模式。盘考团队实验了k=1,3,5,7,并可视化了在生成第21帧时前20帧的采用频率。收尾透露,采用频率呈现搀杂"滑动窗口"和"珍主见积贮"模式:路由器优先采用启动帧以及紧接在主义之前的最近帧。这种后果在顶点疏淡性(k=1)下最为彰着,跟着疏淡性裁减(k=1→7),分散变得愈加均匀,包含更等闲的中间帧。
这项盘考的风趣不单是在于本事篡改,更在于它为AI视频生成限度指出了一个新的发展标的。传统的法式试图通过更复杂的模子架构或更大的数据集来提升质料,而这项盘考则从查考计策的角度脱手,通过模拟真实诓骗场景来提升模子的实用性。
天然,这项盘考也有其局限性。算作基于扩散的法式,该模子需要迭代去噪阵势进行推理,达成及时延伸可能需要后续加快,如少步蒸馏或改进的采样器。此外,查考经由波及处理双重序列(扩散样本和清洁历史),可能通过近似于其他盘考的架构优化来改进。
尽管如斯,这项盘考为将来的AI视频生成本事奠定了缺点基础。它不仅治理了现存本事的中枢问题,还为长视频生成、及时交互式视频生成等诓骗场景提供了可行的治理决议。跟着本事的进一步完善,咱们不错期待看到更长、更连贯、更稳妥物理定律的AI生成视频。
说到底,这项盘考最大的孝顺在于它改变了咱们对AI查考的想考方式。它告诉咱们,惟恐候最好的查考法式不是给AI提供圆善的条目,而是让它学会在不圆善的履行中日常就业。这种想路不仅适用于视频生成,可能对悉数这个词AI限度都有缺点的启发风趣。关于普通用户来说,这意味着将来咱们将看到愈加雄厚、可靠的AI视频生成器用,大约创造出更长、更连贯的视频内容,为内容创作、涵养、文娱等限度带来新的可能性。
Q&A
Q1:什么是重采样强制查考,它怎么治理AI视频生成的问题?
A:重采样强制查考是一种新的AI查考法式,它通过很是在查考时给AI提供不圆善的历史画面,让AI学会在真实诓骗中面对我方之前生成的不圆善内容时仍能保持雄厚的输出质料,就像教司机在各式路况下都能安全驾驶不异。
Q2:历史路由机制是怎么就业的,有什么上风?
A:历史路由机制就像给AI配备了智能记念治理系统,它能从大都历史画面中动态采用最考虑的画面进行怜惜,而不是粗浅地只看最近的画面。这么既减少了考虑就业,又保持了视频的永远一致性。
Q3:字节进步这项盘考对普通用户有什么本色风趣?
A:这项盘考将让AI视频生成变得愈加雄厚可靠,用户不错生成更长、更连贯的视频内容,而不会出现画面冉冉崩坏的问题,这对内容创作、涵养和文娱等限度都有缺点价值。
Powered by 开云「中国内陆」官方网站 更高效、更智能、更环保 @2013-2022 RSS地图 HTML地图