AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述


AI 生成内容已经成为当前人工智能领域的最热门话题之一,也代表着该领域的前沿技术。近年来,随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布,AI 图像生成和编辑领域实现了令人惊艳的视觉效果,并且在学术界和工业界都受到了广泛关注和探讨。这些方法大多基于扩散模型,而这正是它们能够实现强大可控生成、照片级生成以及多样性的关键所在。

然而,与简单的静态图像相比,视频具有更为丰富的语义信息和动态变化。视频能够展示实物的动态演变过程,因此在视频生成和编辑领域的需求和挑战更为复杂。尽管在这个领域,受限于标注数据和计算资源的限制,视频生成的研究一直面临困难,但是一些代表性的研究工作,比如 Make-A-Video、Imagen Video 和 Gen-2 等方法,已经开始逐渐占据主导地位。

这些研究工作引领着视频生成和编辑技术的发展方向。研究数据显示,自从 2025 年以来,关于扩散模型在视频任务上的研究工作呈现出爆炸式增长的态势。这种趋势不仅体现了视频扩散模型在学术界和工业界的受欢迎程度,同时也凸显了该领域的研究者们对于视频生成技术不断突破和创新的迫切需求。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述


近期,复旦大学视觉与学习实验室联合微软、华为等学术机构发布了首个关于扩散模型在视频任务工作的综述,系统梳理了扩散模型在视频生成、视频编辑以及视频理解等方向的学术前沿成果。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

  • 论文链接:https://arxiv.org/abs/2310.10647
  • 主页链接:https://github.com/ChenHsing/Awesome-Video-Diffusion-Models

视频生成

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

基于文本的视频生成:自然语言作为输入的视频生成是视频生成领域最为重要的任务之一。作者首先回顾了扩散模型提出之前该领域的研究成果,然后分别介绍了基于训练的和无需训练的文本 - 视频生成模型。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

Christmas tree holiday celebration winter snow animation.

基于其他条件的视频生成:细分领域的视频生成工作。作者将它们归类为基于以下的条件:姿势(pose-guided)、动作(motion-guided)、声音(sound-guided)、图像(image-guided)、深度图(depth-guided)等。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述


AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

无条件的视频生成:该任务指的是在特定领域中无需输入条件的视频生成,作者根据模型架构主要分为基于 U-Net 和基于 Transformer 的生成模型。

视频补全:主要包括视频增强和恢复、视频预测等任务。

数据集:视频生成任务所用到的数据集可分为以下两类:

1.Caption-level:每个视频都有与之对应的文本描述信息,最具代表性的就是 WebVid10M 数据集。

2.Category-level:视频只有分类标签而没有文本描述信息,UCF-101 是目前在视频生成、视频预测等任务上最常用的数据集。

评价指标与结果对比:视频生成的评价指标主要分为质量层面的评价指标和定量层面的评价指标,质量层面的评价指标主要是基于人工主观打分的方式,而定量层面的评价指标又可以分为:

1. 图像层面的评价指标:视频是由一系列的图像帧所组成的,因此图像层面的评估方式基本上参照 T2I 模型的评价指标。

2. 视频层面的评价指标:相比于图像层面的评价指标更偏向于逐帧的衡量,视频层面的评价指标能够衡量生成视频的时序连贯性等方面。

此外,作者还将前述提到的生成模型在基准数据集上的评价指标进行了横向比较。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

视频编辑

通过对许多研究的梳理,作者发现视频编辑任务的核心目标在于实现:

1. 保真度(fidelity):编辑后的视频的对应帧应当与原视频在内容上保持一致。

2. 对齐性(alignment):编辑后的视频需要和输入的条件保持对齐。

Voicepods Voicepods

Voicepods是一个在线文本转语音平台,允许用户在30秒内将任何书面文本转换为音频文件。

Voicepods 142 查看详情 Voicepods

3. 高质量(high quality):编辑后的视频应当是连贯且高质量的。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

基于文本的视频编辑:考虑到现有文本 - 视频数据规模有限,目前大多数基于文本的视频编辑任务都倾向于利用预训练的 T2I 模型,在此基础上解决视频帧的连贯性和语义不一致性等问题。作者进一步将此类任务细分为基于训练的(training-based)、无需训练的(training-free)和一次性调优的(one-shot tuned)方法,分别加以总结。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述


AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

基于其他条件的视频编辑:随着大模型时代的到来,除了最为直接的自然语言信息作为条件的视频编辑,由指令、声音、动作、多模态等作为条件的视频编辑正受到越来越多的关注,作者也对相应的工作进行了分类梳理。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

特定细分领域的视频编辑:一些工作关注到在特定领域对视频编辑任务有特殊定制化的需求,例如视频着色、人像视频编辑等。

视频理解

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

扩散模型在视频领域的应用已远不止传统的视频生成和编辑任务,它在视频理解任务上也展现了出巨大的潜能。通过对前沿论文的追踪,作者归纳了视频时序分割、视频异常检测、视频物体分割、文本视频检索、动作识别等 10 个现有的应用场景。

未来与总结

该综述全面细致地总结了 AIGC 时代扩散模型在视频任务上的最新研究,根据研究对象和技术特点,将百余份前沿工作进行了分类和概述,在一些经典的基准(benchmark)上对这些模型进行比较。此外,扩散模型在视频任务领域也还有一些新的研究方向和挑战,如:

1. 大规模的文本 - 视频数据集收集:T2I 模型的成功离不开数以亿计高质量的文本 - 图像数据集,同样地,T2V 模型也需要大量无水印、高分辨率的文本 - 视频数据作为支撑。

2. 高效的训练和推理:视频数据相比于图像数据规模巨大,在训练和推理阶段所需要的算力也呈几何倍数增加,高效的训练和推理算法能极大地降低成本。

3. 可靠的基准和评价指标:现有视频领域的评价指标往往在于衡量生成视频与原视频在分布上的差异,而未能全面衡量生成视频的质量。同时,目前用户测试仍然是重要的评估方式之一,考虑到其需要大量人力且主观性强,因此迫切需要更为客观全面的评价指标。

以上就是AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述的详细内容,更多请关注其它相关文章!


# 训练  # 伊犁优化网站  # 服务好的酒店网站建设  # 玉溪抖音seo公司费用  # 青岛大型网站建设  # 牛发网 seo547.cn  # 潍坊校园网站推广  # 网站设计建设方案怎么写  # 网站排名优化 在线宙d9斯真行  # 搜索关键词快速排名  # 上海  # 考虑到  # 进行了  # 自然语言  # 丰田  # 高质量  # 中国科学院  # 视频编辑  # 评价指标  # 复旦  # controlnet  # stable diffusion  # 模型  # 菏泽网站建设开户 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶  可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能  国网辉南供电:无人机空中巡检 全力护航端午佳节  彭博社:苹果Vision Pro曾测试VR手柄追踪方案  脑虎科技:奔跑在“脑机接口”最前沿 跨界融合取得阶段性成果  特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会  第二届光合组织AI解决方案大赛赛果揭晓  首届全国体育人工智能大会在首都体育学院召开  Meta将VR头显最低年龄限制从13岁降至10岁  上新7款产品,美图继续“蹭”AI  直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  当孔子遇见AI|尼山的“数字”  硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲  谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型  配 3D 机器人头像,谷歌展示全新安卓 LOGO  尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器  如何提高集群协作效率?中外团队合作研发基于均值偏移的机器人队形控制策略  编程已死,AI 当立?教授公开“唱反调”:AI 还帮不了程序员  百度创始人、董事长兼首席执行官李彦宏:AI原生应用比大模型数量更重要  科技数码圈的新物种 乐天派桌面机器人 AI +安卓+机器人 首发价1799元  人工智能和神经网络有什么联系与区别?  机构研选 | 虚拟电厂是电力物联网升级版 智能电网望迎来高速发展  实践J*a开发,构建高性能的MongoDB数据迁移工具  面向AI大模型,腾讯云首次完整披露自研星脉高性能计算网络  酒店业将如何受益于人工智能的改变?  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”  即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%  联想举办2025创新开放日,展出260余项算力及AI产品技术  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  B站内测 AI 搜索功能,输入“?”即可体验  苹果式 AI 哲学:不着一字,处处落子  清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!  泗洪:畅通城市“血管” ,管下机器人来帮忙  用人工智能技术,亚马逊为用户生成产品评论摘要,帮助他们轻松选购  OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75%  给小朋友最好的科技礼物:乐天派桌面机器人  SnapFusion技术大幅提升AI图像生成速度  成都大运会闭幕式引入人形机器人展示表演  V社悄悄封禁使用AI生成美术素材的游戏  AI会帮我们把活干完吗?  为AI而服务设计:构建以人为本的AI创新方法  AI大举入侵内容行业,哪些上市*及动漫公司进行了布局?  网易数帆以AI融合创新引领数据分析与软件开发新趋势  全新“AI助手”!讯飞星火助手中心人机协作共创新生态  以计算机视觉技术为基础的库存管理如何改革零售行业  看懂AI,找到增长新势能 | 笔记侠AI峰会等你来  站在社会的高度理解人工智能  当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜? 

 2023-10-23

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.