OpenAI首个AI文生视频模型“Sora”正式发布

责任编辑：王鹤迦 2024.02.16 13:02 来源：通信世界全媒体

通信世界网消息（CWW）近日，美国人工智能研究公司OpenAI推出了一款文生视频模型“Sora”。通过简短或详细的提示词描述，或一张静态图片，“Sora”就能生成类似电影的逼真场景，涵盖多个角色、不同类型动作和背景细节等，最高能生成1分钟左右的1080P高清视频。

86b939fa5a5ca3d397087ade2f1f3579_24cbe631a137462190b2e12b429f4c0a.jpg

OpenAI的官网介绍称，如果给定一段简短或详细的描述或一张静态图片，“Sora”就能生成类似电影的1080P场景，包含多个角色、不同类型的动作和背景细节。使用这款模型可以用文本生成长达一分钟的视频。开发这一模型旨在教会人工智能理解和模拟运动中的物理世界，并训练其帮助人们解决需要现实世界互动的问题。“Sora是能够理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现通用人工智能（AGI）的重要里程碑。”

OpenAI表示，当前的模型存在弱点，可能难以准确地模拟复杂场景的物理表现，可能混淆提示的空间细节，可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹等。也可能无法理解因果关系的具体实例，并举例称，视频很可能会出现“一个人咬了一口饼干，但饼干上没有咬痕。”

“Sora”不仅能模拟真实世界，而且能学习摄影师和导演的表达手法，并在AI视频中展现出来。“我们探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。”OpenAI表示。整体来看，“Sora”生成的视频噪音比较少，原始的训练数据比较“干净”，而且基于ChatGPT、DALL·E文生图技术能力，“Sora”视频生成技术更加高超。

“Sora”已经成为了目前最强的AI视频生成类模型。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动