OpenAI首个AI文生视频模型“Sora”正式发布

责任编辑:王鹤迦 2024.02.16 13:02 来源:通信世界全媒体

通信世界网消息(CWW)近日,美国人工智能研究公司OpenAI推出了一款文生视频模型“Sora”。通过简短或详细的提示词描述,或一张静态图片,“Sora”就能生成类似电影的逼真场景,涵盖多个角色、不同类型动作和背景细节等,最高能生成1分钟左右的1080P高清视频。

86b939fa5a5ca3d397087ade2f1f3579_24cbe631a137462190b2e12b429f4c0a.jpg

OpenAI的官网介绍称,如果给定一段简短或详细的描述或一张静态图片,“Sora”就能生成类似电影的1080P场景,包含多个角色、不同类型的动作和背景细节。使用这款模型可以用文本生成长达一分钟的视频。开发这一模型旨在教会人工智能理解和模拟运动中的物理世界,并训练其帮助人们解决需要现实世界互动的问题。“Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”

OpenAI表示,当前的模型存在弱点,可能难以准确地模拟复杂场景的物理表现,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。也可能无法理解因果关系的具体实例,并举例称,视频很可能会出现“一个人咬了一口饼干,但饼干上没有咬痕。”

“Sora”不仅能模拟真实世界,而且能学习摄影师和导演的表达手法,并在AI视频中展现出来。“我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。”OpenAI表示。整体来看,“Sora”生成的视频噪音比较少,原始的训练数据比较“干净”,而且基于ChatGPT、DALL·E文生图技术能力,“Sora”视频生成技术更加高超。

“Sora”已经成为了目前最强的AI视频生成类模型。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容