Sora问世有望成为“世界模型”？

作者：王鹤迦责任编辑：王鹤迦 2024.02.28 14:18 来源：通信世界全媒体

通信世界网消息（CWW）2月16日，OpenAI（美国开放人工智能研究中心）推出了首个视频生成模型“Sora”。与Runway Gen2、Pika等AI视频工具仍在努力提升短时连贯性不同，Sora通过接收文本指令，能够生成清晰度为1080P、时长60秒的短视频，同时也可以对现有视频进行前后延伸。而一年前，同一研究团队发布的AI语言模型ChatGPT，已使得文本创作、撰写以及代码审查等工作变得极为便捷。

Sora作为一个基于深度学习的视频生成模型，采用了扩散型变换器架构，并使用大量的视频数据进行训练，其强大之处在于生成的视频可以包含精细的画面场景、生动的角色表情以及复杂的镜头运动。这意味着，继文本、图像之后，OpenAI将其先进的AI技术拓展到了视频领域。Sora是首个能够理解和模拟现实世界的视频生成模型，这一能力的实现是AGI（通用人工智能）的重要里程碑。

在OpenAI发布的Sora视频实例中，其中一个视频展示了“海盗船在咖啡杯中缠斗”的场景。为呈现出理想的视觉效果，Sora需克服多个物理难题，如咖啡杯与海盗船的相对尺寸、咖啡液体的流动性对船体运动的影响（包括波浪、水花等），以及光线和阴影的处理等。尽管在视频中船体运动过程的效果仍存在明显的瑕疵，但Sora似乎具备一定程度的“物理”理解能力。因此，有人认为Sora具有“世界模型”的特点，这使其在逼真度方面更具优势。

“世界模型”即对现实物理世界进行模拟，使人工智能能够类似人类，对世界形成全面且精确的认识，这将有助于AI视频生成更为流畅、逻辑更加严密。例如，咬一口饼干，饼干上会留下齿痕，这一逻辑对于人类而言是非常简单的；然而，要让AI模型理解前后两帧画面之间的逻辑关联却非常困难，它需从海量数据中学习并掌握生成语言、图像及视频的相应方法，从而生成“推理”结果。

事实上，当前的Sora也是如此，OpenAI在技术报告中公布了Sora的不成熟之处：Sora可能难以准确模拟复杂场景的物理原理，可能无法理解因果关系，可能混淆提示的空间细节，可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹等。笔者了解到，目前Sora对物理的理解是脆弱的，远非完美，仍会产生不符合常识的幻觉，还不能很好地掌握物体间的相互作用。

图灵奖得主杨立昆认为：“一个AI模型可以生成逼真的视频，这并不代表AI模型可以理解世界。”Sora目前的能力就像是人类做梦，虽然梦中场景很真实，但是逻辑上仍然存在一些问题。

尽管仍存在不少“Bug”，但不可否认的是，Sora的未来绝不仅是一款“人类造梦机”。360的创始人周鸿表示，Sora的面世意味着实现AGI的时间将从10年缩短到一两年。在他看来，Sora只是小试牛刀，它展现的不仅是视频制作能力，更是大模型对真实世界有了理解和模拟之后的新成果和新突破。

可以预见的是，Sora将被最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域运用多模态大模型能力，辅助人类生成视频，不仅能大幅提高生产效率，还可以提供全新的视觉冲击，能够帮助企业真正实现降本增效、提升用户体验。

目前，Sora还未对公众开放，其性能和可靠性还需进一步提高，当然Sora可能带来的社会和伦理问题也需要解决。

如今，生成式AI产品正在潜移默化地改变我们的生活方式，每个人都在思考此类产品如何助力自身的生活与工作。当然，要全面打开生成式AI的想象力，还是要依托多模态大模型。Sora的发布以及后续科技巨头的持续跟进，有望为AI产业带来又一轮爆发式的增长。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动

Sora问世 有望成为“世界模型”？

Sora问世有望成为“世界模型”？