今年不懂这个词，你有可能失业

Sora显著提高了AI文字生成视频的能力上限

两只金毛犬在山顶上录制播客，会是一个怎样的场景？

北京时间2月16日，网友在社交媒体上写下对AI模型Sora的这一文字提示，OpenAI首席执行官山姆·奥特曼将其输入Sora，生成了一个10秒的高清视频，并将其发布在社交平台。画面中，两只金毛犬头戴耳机，面前立着两个话筒，放松地蹲坐在山间一块红白相间的野餐布上。金毛犬的毛发光泽、周围的山顶环境非常逼真，几乎和电视纪录片别无二致。

OpenAI科学家蒂姆·布鲁克斯在社交媒体发布的由Sora生成的视频截图，由于视频中女性扭头角度过大，被网友戏谑是“做了驱魔人式的180度旋转”。图源：视频截图

在聂再清看来，现在人们看到的都是由OpenAI挑选后发出的视频，大家觉得很惊艳，但到底还有多少不完善之处，不能完全确定，还要等发布更多视频才知道真正效果。

不同于一些技术从业者的乐观和兴奋，王帅对Sora模型的认知更为冷静。他更在意Sora这类模型如何落地。最近有人向他询问，Sora生成的视频中，人和车辆那么自然，模型是怎么控制每个物体的？但实际上，模型运行的方式与人类思考的方式截然不同，模型根本不知道有物体存在，是大数据告诉它每一部分要做成什么样子。生成视频依靠的是巨大的数据，如果有足够数据，便会更好生成视频。但未来在编辑视频时，可能会出现数据分布之外的情况，如果数据没有覆盖到，生成效果可能不尽如人意。

王帅进一步解释说，不只是要数据规模大，还要有更好的数据细节，“人们使用模型生成了一个效果很好的60秒视频，但这还没有结束，人们后期如果想做视频编辑，比如摘掉那位东京街头漫步的女士的墨镜，如果训练数据中没包含这一动作的视频，或很少见，模型可能做不到这一指令，或者做得效果很差。因此，在测试时，需要做非常多的调试工作，是非常耗时耗力的事情。”王帅提到，Sora的学习逻辑与ChatGPT是相通的，模型学到了足够多的数据，因而掌握了数据间的规律。但这仍和通用人工智能有区别—— Sora本质上还是在模仿训练数据中的视频。

“一段文字提示，模型中可能会对应由上千万的视频，目前OpenAI呈现了一个看起来足够好的视频，大家就觉得这个模型很厉害，但你不知道它能不能很好地生成其他视频。”王帅提到，这就像是一个问题有100个答案，但它只给出一个正确答案，这意味着大模型就会做这个题了吗？不是，除非它也能把剩下99个答案都告诉你，才说明它的理解没有问题。

至于是否会颠覆影视行业，在王帅看来，大家现在猜测一些大方向，但很可能答案是在意料之外。“谷歌刚成立时，人们不会想到它会以做广告盈利，人们最初对Facebook改变社交方式寄予厚望，但不会想到它未来泄露用户数据隐私的丑闻，AI技术亦是如此。多位技术人员认为只要解决技术难题就可以了，不是这样的。技术在商业和社会层面将会带来怎样的影响，是一个极其复杂的系统，很难单独用技术逻辑来理解。”

（王帅为化名。）

记者：杨智杰

编辑：杜玮

运营编辑：马晓轶