Sora问世 有望成为“世界模型”?

作者:王鹤迦 责任编辑:王鹤迦 2024.02.28 14:18 来源:通信世界全媒体

通信世界网消息(CWW)2月16日,OpenAI(美国开放人工智能研究中心)推出了首个视频生成模型“Sora”。与Runway Gen2、Pika等AI视频工具仍在努力提升短时连贯性不同,Sora通过接收文本指令,能够生成清晰度为1080P、时长60秒的短视频,同时也可以对现有视频进行前后延伸。而一年前,同一研究团队发布的AI语言模型ChatGPT,已使得文本创作、撰写以及代码审查等工作变得极为便捷。

Sora作为一个基于深度学习的视频生成模型,采用了扩散型变换器架构,并使用大量的视频数据进行训练,其强大之处在于生成的视频可以包含精细的画面场景、生动的角色表情以及复杂的镜头运动。这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。Sora是首个能够理解和模拟现实世界的视频生成模型,这一能力的实现是AGI(通用人工智能)的重要里程碑。

在OpenAI发布的Sora视频实例中,其中一个视频展示了“海盗船在咖啡杯中缠斗”的场景。为呈现出理想的视觉效果,Sora需克服多个物理难题,如咖啡杯与海盗船的相对尺寸、咖啡液体的流动性对船体运动的影响(包括波浪、水花等),以及光线和阴影的处理等。尽管在视频中船体运动过程的效果仍存在明显的瑕疵,但Sora似乎具备一定程度的“物理”理解能力。因此,有人认为Sora具有“世界模型”的特点,这使其在逼真度方面更具优势。

“世界模型”即对现实物理世界进行模拟,使人工智能能够类似人类,对世界形成全面且精确的认识,这将有助于AI视频生成更为流畅、逻辑更加严密。例如,咬一口饼干,饼干上会留下齿痕,这一逻辑对于人类而言是非常简单的;然而,要让AI模型理解前后两帧画面之间的逻辑关联却非常困难,它需从海量数据中学习并掌握生成语言、图像及视频的相应方法,从而生成“推理”结果。

事实上,当前的Sora也是如此,OpenAI在技术报告中公布了Sora的不成熟之处:Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。笔者了解到,目前Sora对物理的理解是脆弱的,远非完美,仍会产生不符合常识的幻觉,还不能很好地掌握物体间的相互作用。

图灵奖得主杨立昆认为:“一个AI模型可以生成逼真的视频,这并不代表AI模型可以理解世界。”Sora目前的能力就像是人类做梦,虽然梦中场景很真实,但是逻辑上仍然存在一些问题。

尽管仍存在不少“Bug”,但不可否认的是,Sora的未来绝不仅是一款“人类造梦机”。360的创始人周鸿 表示,Sora的面世意味着实现AGI的时间将从10年缩短到一两年。在他看来,Sora只是小试牛刀,它展现的不仅是视频制作能力,更是大模型对真实世界有了理解和模拟之后的新成果和新突破。

可以预见的是,Sora将被最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域运用多模态大模型能力,辅助人类生成视频,不仅能大幅提高生产效率,还可以提供全新的视觉冲击,能够帮助企业真正实现降本增效、提升用户体验。

目前,Sora还未对公众开放,其性能和可靠性还需进一步提高,当然Sora可能带来的社会和伦理问题也需要解决。

如今,生成式AI产品正在潜移默化地改变我们的生活方式,每个人都在思考此类产品如何助力自身的生活与工作。当然,要全面打开生成式AI的想象力,还是要依托多模态大模型。Sora的发布以及后续科技巨头的持续跟进,有望为AI产业带来又一轮爆发式的增长。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容