阿里达摩院低调上线文本生成视频大模型,已开放试玩

头条快讯12个月前更新 七叔
218 0 0

近日,阿里达摩院低调地在魔搭社区(ModelScope)放出了“文本生成视频大模型”。根据官方介绍,目前文本生成视频大模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

阿里达摩院低调上线文本生成视频大模型,已开放试玩
阿里达摩院低调上线文本生成视频大模型,已开放试玩
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...