快手可灵PK Sora，五大场景全面评测谁才是真正的“世界模拟器”？

访客 2024-06-20 21:06:18 15905 抢沙发

默认

摘要： 大洋彼岸，Sora的到来，似乎让AI有了睁眼看世界的可能。在官方表述中，Sora被称为世界模拟器：它理解真实的规则，并在...

大洋彼岸，Sora的到来，似乎让AI有了睁眼看世界的可能。在官方表述中，Sora被称为世界模拟器：它理解真实的规则，并在此基础上生成世界。

如果说从前还是一道铜墙铁壁，那么现在，虚拟与真实可能仅一线之隔。大家都不想做创建虚构的玩具，而是想成为生成世界的造梦机。Sora之后，它的挑战者们前赴后继。

6月，视频生成大模型迎来又一轮新品爆发，生成式AI赛道像是过年了。快手可灵、Luma AI以及Runway迭代更新后的Gen-3 Alpha等现象级爆款不断涌现。其中，讨论度最高的是快手自研视频生成大模型可灵，全面对标Sora。

《时代周刊》记者将OpenAI官方公布的5条Sora视频提示词投喂给可灵，对其文生视频的能力进行测试，同时从动态、视效、细节、场景等多维度表现进行结果比对和关联。

每经记者从五大场景全面评测Sora和快手可灵

测试和观察后发现，虽然在部分维度Sora仍然领先，且可灵由于尚处开放初期，上线功能相对单一，生成存在一定限制，但几乎可以判断，国产视频生成大模型已经上升到了一个新的高度。

国金证券互联网传媒首席分析师陈泽敏在接受记者采访时表示，抛开技术，快手可灵已经实现一部分绝对真实世界观的数据支持，AI对不同世界观的快速理解以及在视频上的反应，这是我认为不可思议的。

可灵，灵吗？

Sora之后，国内视频生成大模型不断推出。

3月底，字节旗下Dreamina（即梦）内测视频生成功能；4月底，生数科技首个文生视频模型Vidu发布；5月，腾讯也开源了DiT架构的混元文生图模型。

今年以来，快手先后发布1750亿参数规模的通用大语言模型快意和文生图大模型产品可图。视频生成大模型可灵则在6月被推出，快手方面称，可灵能够生成大幅度的合理运动，模拟物理世界特性，生成的视频分辨率达1080p，时长最长可达2分钟。图生视频功能后续开放。

《时代周刊》记者选取了OpenAI官方公布的5条Sora视频提示词（东京街头的女士、太空人、无人机视角的海岸、3D动画的小怪物、云端读书的年轻人）测试可灵。同时比对生成视频进行效果测试，从画面呈现功能与体验两大维度下的多个具体表现进行总结。

在画面呈现上：

1、动态效果。可灵的镜头普遍为前后向逻辑推进，Sora则更丰富。在海浪撞击悬崖的无人机视图一项，Sora画面的聚焦点在提示词中有灯塔的小岛，对整个环境进行环视，重点突出。可灵的镜头前后推进，小岛被设置在画面的最远端，没有重点突出小岛。不过，Sora和可灵对海浪的运动轨迹描述都很准确。

Sora（上）与可灵（下）生成视频对比图片来源：视频截图

2、视觉效果。这一项上，Sora和可灵表现都较为优秀。特别是在东京街头的女士视频画面呈现上，无论是对霓虹灯色彩的展示，还是潮湿地面反光的呈现，两个模型的画面光影表达都很准确。

Sora（上）与可灵（下）生成视频对比图片来源：视频截图

3、细节表现。记者重点关注到二者对人的五官的呈现。Sora的刻画更细致，特别是人在动态场景下，五官没有变形，几乎是相对静态的。可灵在动态场景下，人的五官有所变形，会随着画面镜头的推进、人的动作而扭曲。

但在3D动画的小怪物生成上，可灵的细节表现与Sora差别不大，特别是对小怪物蓬松毛发特性的捕捉和呈现上，很精准也很细致。

Sora（上）与可灵（下）生成视频对比图片来源：视频截图

4、连贯性和流畅度。Sora和可灵的画面表现均连贯、流畅，但稍有不同的是，对复杂场景的描述，Sora明显更优。特别是在太空人的画面生成上，可灵的画面只给出了太空人的正面特写，但Sora呈现了远近景的切换，添加了更多辅助元素，如飞船等。

在功能和体验上，Sora与可灵视频生成的风格都更偏向模拟真实世界的场景。无论是科幻场景、自然风光、超自然画面、3D动画等都更加侧重写实的风格。

在不同场景的适配上，Sora的能力似乎更胜一筹。在对云端上读书的年轻人的画面生成上，可灵的贴图感更重，素材间的融合度不高。语义的理解上，Sora和可灵都较为准确，特别是对提示词中不同主体的捕捉，都比较完整。

Sora（上）与可灵（下）生成视频对比图片来源：视频截图

不过，需要注意的是，可灵目前生成的视频长度均为5秒，与Sora的10至20秒相比，前者在复杂场景的叙述处理上会呈现一定的局限性。上线初期的可灵，功能较单一，风格切换等有局限性。

此外，《时代周刊》记者也在体验时发现，在一些视频生成时，可灵也会失灵。例如，弹吉他的熊猫拥有人类的手指；提示词中浅绿色的布艺沙发，到了视频中呈现的则是红棕色的皮质沙发。同时，在一些视频中，当有多个主体时，有时也会出现一些元素无法完全呈现在视频中的情况。

图片来源：视频截图

而在生成10岁小女孩在羽毛球场比赛时，小女孩手里的羽毛球拍变成了网球拍，且只有乒乓球拍大小，羽毛球也变成了网球。可见，实际生成视频时，可灵有时存在一些较大的偏差。

图片来源：视频截图

值得注意的是，上述可灵视频由记者测试生成，不同版本视频可能存在差异。而目前Sora仍未开放，所生成视频均为官方发布的版本，待Sora开放测试后，用户实际测试效果或许与官方发布视频也有差异。

可灵一号难求？Sora技术架构路线可以被复现

肯定是超出预期的，而且最先推出来比肩Sora的是快手团队，还挺意外。多位在互联网行业深耕多年的资深行业人士、资深产业分析师在接受《时代周刊》记者采访时坦言。

随着快手可灵正式开放内测，社交平台上，已有不少博主、创作者分享自己使用可灵的体验，国外创作者们也是各种求内测。虽然目前内测只能生成5秒视频，但已经有不少体验者通过多个视频组合成短片，不少网友笑称压力给到了抖音剪映。

早在2023年初，快手就启动了新AI战略，在最近几次财报电话会议上，快手联合创始人兼首席执行官程一笑也频频谈及快手自研大模型的研究及应用进展。不过，在很多人看来，快手更侧重于短视频和社交内容，而非专业的视频剪辑工具。此前的大模型竞争中，快手也并不是引人关注的第一梯队成员。

此前，快手推出的通用大语言模型快意以及文生图大模型产品可图，在市场的关注度和影响力均相对有限。如今，可灵的出现，让国内大模型赛道看到了对标Sora弯道超车的可能。

可灵生成的3D动画的小怪物

《时代周刊》记者了解到，在架构选择方面，可灵整体框架采用了类似Sora的DiT结构，用Transformer代替了传统扩散模型中基于卷积网络的U-Net。同时，在此基础上，快手大模型团队还对模型中的隐空间编/解码、时序建模等模块进行了升维。

在陈泽敏看来，抛开技术，快手可灵已经实现一部分绝对真实世界观的数据支持，AI对不同世界观的快速理解以及在视频上的反应，这是我认为不可思议的。

在互联网产业深耕多年的某头部游戏公司高管李严（化名）认为，或许抖音未来也会推出类似的文生视频模型，但目前可灵的推出，最大的意义在于，它证明Sora的技术架构路线是可以被复现的，并且依托短视频平台的海量、优质过往数据，是可以后来居上的。同时，也说明之前Sora出现时业内对它真实世界模拟器的评价可能过高。

相关研报指出，目前，国内大语言及多模态大模型正持续追赶海外主流大模型，模型能力逐步提升，带动下游应用发展。过去几个月，国内头部应用总访问量与海外头部应用总访问量差距逐渐缩小，看好未来国内应用快速增长的趋势。

陈泽敏指出，虽然可灵抢跑为快手在文生视频赛道开了一个好头，但这条道路要持续走下去，仍需要很大投入。

未来如果‘可灵’能够延长到完整的15秒，并拥有连贯、不拖影、多元世界观融合的高质量视频，那一定会对短视频的生产方式带来变化，越来越多的创作者或许将被取代，但好内容的价值也会更高。陈泽敏告诉《时代周刊》记者。