综合介绍
MuseV是一个GitHub上的公共项目,旨在实现无限长度和高保真度的虚拟人视频生成。它基于扩散技术,并提供了Image2Video、Text2Image2Video、Video2Video等多种功能。提供了模型结构、使用案例、快速开始指南、推理脚本和致谢等详细信息。
MuseV 是基于扩散模型的虚拟人视频生成框架,具有以下特点:
支持使用新颖的视觉条件并行去噪方案进行无限长度生成,不会再有误差累计的问题,尤其适用于固定相机位的场景。
提供了基于人物类型数据集训练的虚拟人视频生成预训练模型。
支持图像到视频、文本到图像到视频、视频到视频的生成。
兼容 Stable Diffusion 文图生成生态系统,包括 base_model、lora、controlnet 等。
支持多参考图像技术,包括 IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。
我们后面也会推出训练代码。
功能列表
无限长度视频生成
高保真度虚拟人影像
多功能支持:Image2Video、Text2Image2Video、Video2Video
明确的模型结构和使用案例
快速开始和推理脚本
使用帮助
访问GitHub仓库以获取最新信息和下载资源
遵循快速开始指南进行初次项目设置
使用提供的推理脚本来生成视频内容
组合使用方法:
方法一:真人录制视频+Muse Talk
方法二:图片+MuseV+Muse Talk
成品
从一段静态图片循环视频中,让其中的动漫人物开口说话,卡通人物嘴唇本身缺失导致开口说话时怪怪的,下次应该换一个有“嘴唇”的图像,最好是“真人”。45秒视频在官方测试环境等待15分钟左右。
在ComfyUI工作流中让视频开口说话
我们推出 MuseTalk
,一种实时高质量口型同步模型(在 NVIDIA Tesla V100 上为 30fps+)。 MuseTalk 可以与输入视频一起应用,例如由 MuseV 生成的视频,作为完整的虚拟人解决方案。