Loading...

WorldDreamer:一种通用世界模型,用于视频生成,能够在图像到视频合成、文本到视频生成、视频修补、视频风格化甚至动作到视频生成等方面展现出卓越的性能

AI视频创作6个月前发布 阿强
24 0
WorldDreamer:一种通用世界模型,用于视频生成,能够在图像到视频合成、文本到视频生成、视频修补、视频风格化甚至动作到视频生成等方面展现出卓越的性能插图

WorldDreamer:WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens (world-dreamer.github.io)

WorldDreamer是一种通用世界,用于,通过预测掩码标记的令牌,能够在图像到视频合成、文本到视频生成、视频修补、视频风格化甚至动作到视频生成等方面展现出卓越的性能。

视界一粟YiSu有哪些功能?

1. 图像到视频合成

2. 文本到视频生成

3. 视频修补

4. 视频风格化

5. 动作到视频生成

产品特点:

WorldDreamer通过将图像和视频转换为视觉令牌,并进行令牌掩码操作,将文本和动作输入分别编码为嵌入,作为提示,然后通过STPT预测掩码的视觉令牌,最终通过视觉解码器实现视频生成和编辑。

应用场景:

1. 自然场景视频生成

2. 驾驶环境视频生成

3. 视频编辑

视界一粟YiSu如何使用?

用户可以将图像、文本或动作输入转换为视觉令牌,并通过STPT预测掩码的视觉令牌,最终通过视觉解码器实现视频生成和编辑。

    © 版权声明

    相关文章

    暂无评论

    暂无评论...