澳门六合彩官网
热点资讯
新澳门六合彩内部资料

你的位置:澳门六合彩官网 > 新澳门六合彩内部资料 > 澳门六合彩网址开奖结果 一拖一拽,小猫活了!Netflix等新作爆火,噪声歪曲算法让清醒限定更粗拙

澳门六合彩网址开奖结果 一拖一拽,小猫活了!Netflix等新作爆火,噪声歪曲算法让清醒限定更粗拙

发布日期:2024-02-07 23:10    点击次数:82

新智元报谈澳门六合彩网址开奖结果

编订:英智

【新智元导读】本文残忍了一种全新的噪声歪曲算法,行使光流推导出的结构化噪声来替代传统随即噪声,到手收尾了对视频清醒的雄壮限定才气。

在视频扩散生成领域,怎么精确操控视频中的清醒细节而又不葬送画面质地,一直是研究者共同追赶的标的。

来自Neflix、Stony Brook大学等机构的研究东谈主员翻新性地残忍通过结构化的潜在噪声采样限定清醒。

收尾举止很粗拙,只好对老师视频作念预处理,生成结构化噪声。这一过程不触及扩散模子的设计,无需窜改其架构和老师历程。

研究残忍了一种全新的噪声歪曲算法,速率超快,能及时运行。 它用光流场推导的歪曲噪声,取代随即的时序高斯噪声,同期保握了空间高斯性。

由于算法高效,能用歪曲噪声以极小的资本微调视频扩散基础模子。

这为用户提供了全面的清醒限定决策,可用于局部物体清醒限定、全局录像机清醒限定以及清醒搬动等场景。

此外,算法兼顾了歪曲噪声的时序一致性和空间高斯性,既能保证每帧画面的像训导量,又能灵验限定清醒。

论文贯穿:https://arxiv.org/pdf/2501.08331

本研究的孝敬如下:

翻新的视频扩散模子处治决策:残忍一种粗拙新颖的举止,将清醒限定回荡为可用于噪声变形的流场,在潜在空间采样时能平直使用。它不仅能与率性视频扩散基础模子搭配,还可和其他限定形式协同使用。

高效的噪声变形算法:研发出高效的噪声变形算法,它既能保握空间高斯性,又能跟踪跨帧的时刻清醒流。这让微调清醒可控的视频扩散模子时,铺张的资本最小,操作也更粗拙。

实验和用户研究充分考据了该举止在种种清醒限定应用中的上风。

这些应用涵盖局部物体清醒限定、清醒传递到新场景、基于参考的全局相机清醒限定等。

在像训导量、可控性、时刻连贯性以及用户主不雅偏好等方面,阐发尽头优异。‍

Go-with-the-Flow

现时的视频扩散模子存在局限性,研究者残忍了一种翻新且粗拙的举止,旨在把清醒限定作为结构化组件,融入到视频扩散模子潜在空间的无序现象中。

具体收尾形式是关联潜在噪声的时刻散播。

先从二维高斯噪声片动手,把它和凭据老师视频样本索要的光流场算出来的歪曲噪声片,按照时刻规章勾通起来。下图显著展示了该举止的历程。

本文残忍翻新的噪声歪曲算法,运行速率极快,冒失及时运行。

传统举止需从运转帧起,对每一帧都进行一系列复杂的歪曲操作,而本文的算法例通过在连气儿帧之间迭代歪曲噪声来收尾标的。

广东队开场进攻状态火热,吉伦沃特4投4中连得10分帮助球队取得领先。但随着深圳队加强防守,广东队进攻受阻加之篮板保护不力,被对手打出一波14-2反超比分。困境之下,张皓嘉强硬打成2+1、莫兰德抢断一条龙暴扣稳住阵脚。双方在节末互有往来,首节结束广东队27-28暂时落后。

“最大的问题是匹配不上对手的强度,过去几年对手对辽宁队的防守策略一直没变,但我们在这方面依然有欠缺。”

具体来说,研究者在像素层面精确地跟踪噪声和光流密度,依据前向、后向光流澳门六合彩网址开奖结果,运筹帷幄画面的延迟与减弱变化,以此来笃定噪声的歪曲形式。

同期,连合HIWYN残忍的条款白噪声采样举止,保证算法在运行过程中历久保管高斯性。

在视频扩散推理阶段,本文残忍的举止上风彰着,能依据不同清醒类型,自动调整噪声变形,为多种清醒限定应用提供一站式处治决策。

局部物体清醒限定:当用户想要限定局部物体清醒时,只需给出拖动信号,就能在物体轮廓范围内天真窜改噪声元素,让局部物体按照需求清醒。

全局相机清醒限定:针对全局相机清醒的限定,复用参考视频里的光流数据,对输入噪声进行歪曲处理,这么就能在不同文本刻画或运转帧条款下,重重生成视频。

率性清醒传递:进行率性清醒传递时,清醒抒发形式不再局限于常见光流,还包括3D渲染引擎生成的光流、深度变形等样式。

Go-with-the-Flow主要由两部分组成:噪声歪曲算法和视频扩散微调。

噪声歪曲算法运行时,和扩散模子的老师历程互不侵扰。研究团队行使这个算法生成噪声模式,再用这些模式去老师扩散模子。

本研究中的清醒限定皆备基于噪声运回荡,在视频扩散模子中莫得添加任何独特参数,这么既能简化模子结构,又能提高运行着力。

HIWYN残忍将噪声歪曲应用于图像扩散模子的遐想。受此启发,研究团队发现了歪曲噪声的新用法,即是把它作为视频生成模子的清醒限定条款。

研究团队使用由多数视频和歪曲噪声对组成的数据集,对视频扩散模子进行微调。经过这么的处理,在推理阶段就能很好地限定视频里的清醒了。

噪声歪曲算法

为了便于进行大界限噪声歪曲操作,研究团队研发出一种快速噪声歪曲算法。

这个算法是逐帧处理噪声的,只需要存储前一帧噪声(尺寸是H×W×C)和每个像素的光流密度值矩阵(尺寸为H×W),这里的密度值能体现特定区域中噪声的压缩进度。

HIWYN算法在运行时,需要进行耗时的多边形光栅化和每个像素的上采样操作。

新算法平直凭据光流跟踪帧与帧之间画面的延迟和减弱情况,全程只用到像素级别的操作,这些操作还很容易收尾并行处理,大大提高了着力。

新算法和HIWYN算法一样,都能保证噪声的高斯性。

下一帧噪声歪曲

噪声歪曲算法通过迭代形式来运筹帷幄噪声,某一帧的噪声运筹帷幄仅取决于前一帧的现象。

假定每帧视频的尺寸是H×W,用 代表一个高为H、宽为W的 二维矩阵。

已知前一帧的噪声q和流密度 , 同期知谈正向流f和反向流f ′: , 基于这些条 件,算法就能算出下一帧的噪声q′和流密度 , q′(或p′)与前一帧的q(或p)通过流在时刻上斥地起关联。

本文的算法连合了延迟和减弱两种动态机制。

当视频里某个区域放大,或者有物体朝着相机出动时,就会触发延迟机制。在这种情况下,现时帧的一个噪声像素,会鄙人一帧中对应一个或多个噪声像素,这即是延迟。

在减弱时,研究者鉴戒了拉格朗日流体能源学的想路,把噪声像素遐想成沿着前向光流f出动的粒子。

这些粒子出动后,画面中时常会留住空缺区域。关于前向光流f莫得遮蔽到的区域,就行使反向光流f'拉回一个噪声像素,再用延迟过程中算好的噪声去填充这些空缺。

此外,为了永劫刻保管噪声散播的正确性,研究团队借助密度值,来记载特定区域内噪声像素的汇集数目。

在减弱情形下,当这些噪声像素与左近其他粒子搀杂时,密度较高的粒子会有更大的权重。

为了同期处理好延迟和减弱这两种情况,研究者构建了一个二分图G。图里的边标明了噪声和密度从前一帧传递到下一帧的形式。

在详细沟通图中各边的作用,生成下一帧噪声q'时,依据光流密度对噪声进行缩放,以此确保原始帧的散播特质冒失得以保留。

同期运筹帷幄延迟和减弱的情况,幸免它们互相关扰,就能确保最终输出的驱散顺应完整的高斯散播。

实验驱散

为了考据决策的灵验性,研究团队开展了多数实验及用户调研。驱散标明,在保握清醒一致性和针对吞并情境渲染不同的清醒后果方面,该决策阐发尽头出色。

从实验数据和用户响应可知,本决策在像素画面质地、清醒限定精确度、与文本刻画的契合度、视频时刻连贯性以及用户喜好进度等方面,都具有显贵上风。

用Moran's I倡导揣测空间关系性,K-S践诺评估正态性。选拔多种基准进行对比,包括固定独处采样噪声、插值举止过甚他噪声歪曲算法。

不错看到,本文残忍的举止在Moran's I倡导和K-S践诺中阐发精致,标明无空间自关系性且顺应正态散播;而双线性、双三次和最隔邻插值举止未能保握高斯性,存在空间自关系性且偏离正态散播。

本文的举止在保握空间高斯性上见效显贵,且在噪声生见着力和实质应用方面有很强的可行性。

实验驱散标明,本文的举止着力极高,比并行的InfRes运行更快,比较HIWYN,速率提高了26倍,这成绩于算法的线性时刻复杂度。

算法的着力比及时速率快了一个数目级,这透露在视频扩散模子微调时动态应用噪声歪曲是可行的。

为考据噪声歪曲算法灵验性,将经不同举止歪曲的噪声输入到用于超别离率和东谈主像重光照的预老师图像扩散模子中,通过评估输出视频的质地和时刻一致性。

驱散涌现,本文的算法在时刻一致性上比基线举止更出色,处理出路、布景和边际时相识性更好。

在DifFRelight视频重光照任务中评估噪声歪曲举止。推理时,研究者从特定区域编订出画面,并按照指定光照条款进行处理。本文的举止在图像和时刻倡导上阐发更好,能灵验更动图像扩散模子。

接下来聚焦视频扩散中的局部对象清醒限定。为评估模子限定才气,将其与SG-I2V、MotionClone和DragAnything三种基线举止对比。

现存举止在处理复杂局部清醒时存在局限,SG-I2V会误判清醒导致场景平移,DragAnything劳作一致性易失真,MotionClone难以捕捉狭窄动态。

本文的模子在处理复杂清醒时阐发优异,能保握对象保真度和三维一致性。多数研究和评估阐发了本文的举止在清醒一致性、视觉保真度和举座真正感方面上风显贵。

本文的举止通常赈济清醒搬动和相机清醒限定。

在DAVIS数据集的对象清醒搬动中,清醒保真度和视频质地更好,生成视频与真正视频复原度高。

在相机清醒限定上,在DL3DV和WonderJourney数据集以及深度歪曲实验中阐发出色。

在视频首帧编订才气上,能无缝融入新增对象并保留原始清醒,彰着优于基线举止。

本研究残忍了一种新颖的、速率快于及时的噪声歪曲算法,它能将清醒限定当然地融入视频扩散噪声采样过程。

研究者用这种噪声歪曲本事对视频数据进行预处理,以开展视频扩散微调,从而提供了一种通用且用户友好的范式,可应用于种种清醒可控的视频生成场景。

参考贵府:

https://x.com/EHuanglu/status/1882014762281865379

https://x.com/natanielruizg/status/1882121096859890140

https://eyeline-research.github.io/Go-with-the-Flow/



友情链接: