欢迎光临AG亚娱官方网站入口_AG百家家乐官网网站!
服务热线:400-123-4567

新闻资讯

麻省理工学院和Adobe将共同开发AI视频生成工具。

日期:2025-06-08 11:52 浏览:
(来源:MIT News)资料来源:如果您有机会观看生成视频的人工智能模型背后的过程,您会怎么看?也许它认为这类似于创建停止运动动画的方式:将许多图像拼接在一起。但是,像OpenAI或Google Sora一样,“扩散模型”并非如此。这些系统不是生成绘图视频框架(或“自动-RED”),而是同步整个序列。由此产生的剪辑往往在照片级别具有现实主义,但是该过程很慢,无法实时更改。最近,麻省理工学院(CSAEL)人工智能实验室和Adobe Research的科学家开发了一种称为“ Causvid”的混合方法。该系统通过完整的序列扩展模型来训练自动抗压系统,该模型允许快速预测以下图像框架,并保证图像的质量和一致性。根据简单的短信,Causvid可以实现变量作品。您可以将固定的照片转换为动态场景,扩展视频的持续时间,甚至按照生成过程中的新说明实时修改内容。该技术优化了最初需要50个步骤的流程,以便快速创建交互式内容。您可以创建许多富有想象力的艺术场景:纸飞机变成天鹅,羊毛巨大的巨大旅行,穿过雪田,孩子们跳下水坑的孩子。用户还可以逐步创建。当第一个指示“生成一个越过道路的人”时,添加一个新的元素“一旦角色到达相反的人行道,就可以从口袋里写笔记本”。该模型可用于各种视频编辑任务,包括通过生成与音频翻译同步的视频来了解不同语言的实时广播的帮助。它还可以帮助您表示视频游戏中的新内容或QuicKLY生成培训模拟,为您的机器人创建新任务。您可以教他们完成。 Causvid可以被视为“老师和学生模式”。其中,模型传播的完整顺序是“老师”。它类似于一个强大的模型,该模型驱动Sora或我看到,并且可以理解所有视频传输。同时,他们可以想象序列的原理,介质和末尾,主导着运动的细微差别,物体的持久性以及场景的一般稳定性随时间。这种全面的理解允许制作高度稳定的高分辨率视频,但是同时处理完整序列的处理需要许多计算机资源,这本身就是较慢。 “学生”是一个更简单的自我代表模型。根据序列中的上一个元素,自我代表模型预测以下元素:在视频环境中,这意味着预测以下ta基于当前帧和上一个帧。此顺序过程基本上比尝试一次解决所有问题要快得多。但是,尝试生成纯自我宣传的视频通常会失败,而陷阱是“错误的积累”。想象一下在尝试每个后续帧时事先进行模型,会有一些小错误。随着时间的流逝,这些小错误会累积,从而导致视觉上的不一致,波动和视频复制期间的质量显着下降。出口可以开始软化,但很快就会在视觉上变得令人困惑。 Causvid避免了这个问题,因为它熟悉了教师模型的预测。完整的序列传播教师可以在培训阶段理解整个视频轨迹,并将您的经验传播给自我代表的学生模型。这不仅意味着告诉学生“如何看待下一个桌子”,而且要训练他们的模型以了解基本的动态和一致性要求D用于生成稳定的视频。从本质上讲,教师模型教导学生不仅可以迅速进行预测的未来框架,而且还教会他们预测并始终如一地与整个顺序的高度理解保持一致。这是没有指导的这种一般因果方法的重要区别。培训教师模型的高质量生产以发芽并从全球理解中受益,学生模型可以学会快速预测以后的框架,而不会陷入累积错误,例如模型前后。当研究人员测试Cassvid生成10秒HD视频的能力时,该模型表明了出色的视频制作人才。它的性能远远超出了参考模型,例如Open和MovieGen,其生产速度比竞争对手快100倍,这使其能够生成最稳定和最高质量的视频剪辑。该团队还测试了Causvid的稳定性,该稳定性产生了30秒V心态。这在图像质量一致性方面淹没了类似的模型。这些结果表明,预计该技术将在几个小时或无限的时期内到达稳定的视频。有趣的是,作为研究的一部分进行的用户研究提供了有关因果绩效实践经验的宝贵信息。与基于扩散技术的教师模型相比,大多数用户更喜欢由学生模型制作的视频。文件作者天文·尹(Tianwei Yin)说:“自动支队模型速度的优势至关重要。” “视频的质量与教师模型的质量相媲美。CAUSVID在900多次测试中以84.27的全面得分在900多次测试中以84.27的成绩匹配。它的性能尤其可以预期,当Causal Architection(甚至是Time -Time -Time -Time Generation),Carnegie Mellon Systector Mellon Assector Mellon Assector and Time Generation Causal Architection时,速度会更加提高。Not Involved in the Study, "This Groundbreaking Works Significantly Improper Sensimation Efficient, Meaning Smoother Streaming Speeds, The Potential For More Powerful Interactive Applications, and Lower Carbon Footpron Footprint. This Research was Supported by the Amazon ScieNCE CENTER, The Gwangju Academy of Sciences, Adob​​e, Google, The the US Air Force Research Institute and the Artificial Intelligence Accelerator of the US Air Force. UU.
首页
电话
短信
联系