有哪些AI生成视频的工具网站？

Question

有哪些AI生成视频的工具网站？

关注者

127

被浏览

417,625

50 个回答

AI 视频工具：我在AI视频生成领域的革命：Runway、Stable Video Diffusion与Pika三大神器全面解析这篇文章中提到的目前技术最好的三款视频工具。本文是根据最新消息，对AI视频工具的更新内容，关注我，实时了解AI工具及应用的最新资讯。

今天介绍的三款图片+动作生成视频项目都是国产项目，一是剪辑魔法师（剪辑魔法师 - 操作简单易上手的视频剪辑_视频编辑软件），第二阿里的Animate Anyone，第三是字节跳动的MagicAnimate。三个项目的技术路线是一样的，显然属于竞品。其中阿里的Animate Anyone没有公开代码，没有demo，只是发了一篇宣传文章；字节跳动的MagicAnimate公开了代码，也公开了demo，感兴趣去试一下。

两款声音+图片生成视频项目：一个是微软GAIA；一个是字节与阿里联手推出的VividTalk产品。也就是让图片说话的两个产品。

AI 视频工具，真的越来越精彩了。

一、剪辑魔法师

https://www.xunjieshipin.com/jianjimofashi?stzhcjl20240305-3315229245

首先介绍到“剪辑魔法师”，相比其它工具而言，其实它更像是一款剪辑工具并融合了AI技术，软件中搭载各种不同的美化功能和大量的剪辑模式，让我们可以进行搭配剪辑，但今天重点介绍的是它的AI核心功能——“文字转视频”；

整个生成过程只需要我们输入一个大致的视频主题，随后在正文部分可以对视频主题扩充具体的要求，例如需要出现的元素、场景、人物情绪等等，脚本确认完成后点击“生成视频”等待片刻即可得到视频内容；

待视频生成完成后，我们便可以跟其它剪辑工具一样对其进行一番操作，手法基本如出一辙，素材修改、添加、编辑，各种震撼转场、特效、滤镜等等的润色，在这里都可以任我们挑选！众所周知，AI生成视频的效果全靠我们输入的关键词，只要掌握得当，视频效果绝对差不到哪里去！

https://www.zhihu.com/video/1748353315539460096

剪辑魔法师项目地址：

https://www.xunjieshipin.com/jianjimofashi?stzhcjl20240305-3315229245

二、阿里的Animate Anyone

Animate Anyone是一个由阿里巴巴集团的研究人员开发的人物动画框架。这个框架能够将人物照片转化为由特定姿势序列控制的动画视频，同时保证人物外观的一致性和时间稳定性。它通过设计ReferenceNet来保留人物的精细外观特征，通过引入一个高效的Pose Guider来实现动作控制，以及通过有效的时间建模方法来确保视频帧之间的平滑过渡。

https://www.zhihu.com/video/1715682692207685632

Animate Anyone的实现原理主要包括三个关键组件：ReferenceNet，Pose Guider和Temporal Layer。ReferenceNet是一个特征提取网络，用于提取参考图像中的空间细节。Pose Guider是一个轻量级的网络，用于将运动控制信号集成到去噪过程中。Temporal Layer则用于捕捉视频帧之间的时间依赖关系，确保角色运动的连续性。

https://www.zhihu.com/video/1715683636559609856

在应用方面，Animate Anyone不仅可以应用于一般的字符动画，而且在特定的基准测试中，如时尚视频合成和人类舞蹈生成，也表现出色。此外，它还能处理各种类型的字符动画，包括全身人物图像、半身肖像、卡通角色和类人角色。这个框架有可能成为未来各种图像到视频应用的基础方法，激发更多创新和创造性的应用。

https://www.zhihu.com/video/1715683555554963456

没有公开代码，没有demo，只是发表了一篇论文宣传，文章地址：https://humanaigc.github.io/animate-anyone/。

三、字节跳动的MagicAnimate

与阿里的Animate Anyone类似，MagicAnimate也是一种基于扩散模型的人类图像动画框架，旨在增强时间一致性，忠实地保留参考图像，并提高动画的真实感。该框架由视频扩散模型和外观编码器组成，分别用于时间建模和身份保护。为了支持长视频动画，研究者设计了一种简单的视频融合策略，以在推理过程中产生平滑的视频过渡。

https://www.zhihu.com/video/1715685269163012097

实现原理：给定参考图像和目标DensePose运动序列，MagicAnimate使用视频扩散模型和外观编码器进行时间建模和身份保护。设计了一种简单的视频融合策略，以在推理过程中实现平滑的视频过渡。

https://www.zhihu.com/video/1715685408484990976

应用：

1、未知领域动画：MagicAnimate可以为油画和电影角色等未知领域图像制作跑步或做瑜伽的动画。

2、结合T2I扩散模型：将MagicAnimate与DALLE-3生成的参考图像结合，制作各种动作的动画。

3、多人动画：根据给定的运动，为多个人制作动画。

与阿里的Animate Anyone相比，画面质量，人物一致性上、手部和面部动作 MagicAnimate 差一些，但MagicAnimate支持多人。

代码公开了，可以去魔改；demo也放出来了，去体验一下吧。

MagicAnimate网址：https://github.com/magic-research/magic-animate

Huggingface上的在线测试地址：MagicAnimate - a Hugging Face Space by zcxu-eric

四、微软GAIA

微软的GAIA（Generative AI for Avatar）框架，是一个用于零-shot（仅使用单张肖像照片）生成逼真说话头像的视频数据驱动方法。GAIA消除了领域先验，提高了生成头像的自然度和多样性。其实现原理主要包括两个阶段：1）将每帧画面分离为运动和外观表示；2）根据语音和参考肖像照片生成运动序列。为实现这一目标，研究者收集了一个包含16K独特演讲者的大型高质量说话头像数据集，用于训练模型。

GAIA框架包括两个主要部分：一个变分自编码器（VAE）和一个扩散模型。VAE负责从视频帧中提取运动和外观表示，通过训练学会重构输入帧。扩散模型则用于根据语音特征和参考帧生成运动序列。在推理阶段，扩散模型根据输入语音和目标头像照片生成运动序列，然后与照片结合，通过VAE解码器合成输出视频。

GAIA框架具有以下功能和模式：

1、视频驱动的说话头像生成（Video-driven Talking Avatar Generation）：给定一个视频作为驱动，GAIA可以生成与输入视频具有相似外观和动态的说话头像。这可以用于跨视频角色替换。

https://www.zhihu.com/video/1715689838802755584

2、语音驱动的说话头像生成（Speech-driven Talking Avatar Generation）：仅使用一张静态肖像图片和语音作为输入，GAIA可以生成与语音同步的逼真说话头像视频。

https://www.zhihu.com/video/1715689880145731585

3、可控姿态的说话头像生成（Pose-controllable Talking Avatar Generation）：GAIA支持通过设置关键姿态（如头部姿势、眼睛注视方向等）来控制生成的说话头像视频。这意味着用户可以自定义角色的姿态，同时保持唇部动作与语音同步。

https://www.zhihu.com/video/1715689931417186304

4、全可控的说话头像生成（Fully Controllable Talking Avatar Generation）：GAIA允许对生成的说话头像视频进行更细粒度的控制，例如分别控制角色的嘴巴、眼睛和其他面部特征。这为生成具有特定表情和动作的逼真视频提供了更大灵活性。

5、文本指导的头像生成（Text-instructed Avatar Generation）：GAIA框架可以响应文本指令生成说话头像视频。例如，当给定一个静态肖像图片时，模型可以根据文本指令（如“微笑”或“向左看”）生成相应的视频。

以上功能太牛逼了，你做过的照片说话的项目，有比这个牛的吗？GAIA还未公开。

这是项目地址：https://microsoft.github.io/GAIA/

五、字节与阿里联手推出的VividTalk产品

VividTalk是一种新颖的通用框架，支持生成高质量、富有表现力的面部表情和自然头部姿势的说话头视频。该方法由两个串联的阶段组成：音频到网格生成（Audio-To-Mesh Generation）和网格到视频生成（Mesh-To-Video Generation）。在音频到网格生成阶段，该方法将音频映射到非刚性表情运动和刚性头部运动。对于表情运动，同时使用混合形状（blendshape）和顶点偏移（vertex offset）作为中间表示，以最大化模型的表现能力。对于刚性头部运动，提出了一种新颖的可学习头部姿势代码库（Learnable Head Pose Codebook）和两阶段训练机制。在网格到视频生成阶段，使用双分支运动VAE（Variational Auto-Encoder）和生成器将驱动的网格转换为密集的运动，并用于合成最终的视频。

https://www.zhihu.com/video/1715693511116955648

VividTalk 支持对各种风格的面部图像进行动画处理，例如人类、现实主义和卡通。