今年不懂这个词,你有可能失业
Sora显著提高了AI文字生成视频的能力上限
两只金毛犬在山顶上录制播客,会是一个怎样的场景?
北京时间2月16日,网友在社交媒体上写下对AI模型Sora的这一文字提示,OpenAI首席执行官山姆·奥特曼将其输入Sora,生成了一个10秒的高清视频,并将其发布在社交平台。画面中,两只金毛犬头戴耳机,面前立着两个话筒,放松地蹲坐在山间一块红白相间的野餐布上。金毛犬的毛发光泽、周围的山顶环境非常逼真,几乎和电视纪录片别无二致。
OpenAI科学家蒂姆·布鲁克斯在社交媒体发布的由Sora生成的视频截图,由于视频中女性扭头角度过大,被网友戏谑是“做了驱魔人式的180度旋转”。 图源:视频截图
在聂再清看来,现在人们看到的都是由OpenAI挑选后发出的视频,大家觉得很惊艳,但到底还有多少不完善之处,不能完全确定,还要等发布更多视频才知道真正效果。
不同于一些技术从业者的乐观和兴奋,王帅对Sora模型的认知更为冷静。他更在意Sora这类模型如何落地。最近有人向他询问,Sora生成的视频中,人和车辆那么自然,模型是怎么控制每个物体的?但实际上,模型运行的方式与人类思考的方式截然不同,模型根本不知道有物体存在,是大数据告诉它每一部分要做成什么样子。生成视频依靠的是巨大的数据,如果有足够数据,便会更好生成视频。但未来在编辑视频时,可能会出现数据分布之外的情况,如果数据没有覆盖到,生成效果可能不尽如人意。
王帅进一步解释说,不只是要数据规模大,还要有更好的数据细节,“人们使用模型生成了一个效果很好的60秒视频,但这还没有结束,人们后期如果想做视频编辑,比如摘掉那位东京街头漫步的女士的墨镜,如果训练数据中没包含这一动作的视频,或很少见,模型可能做不到这一指令,或者做得效果很差。因此,在测试时,需要做非常多的调试工作,是非常耗时耗力的事情。”王帅提到,Sora的学习逻辑与ChatGPT是相通的,模型学到了足够多的数据,因而掌握了数据间的规律。但这仍和通用人工智能有区别—— Sora本质上还是在模仿训练数据中的视频。
“一段文字提示,模型中可能会对应由上千万的视频,目前OpenAI呈现了一个看起来足够好的视频,大家就觉得这个模型很厉害,但你不知道它能不能很好地生成其他视频。”王帅提到,这就像是一个问题有100个答案,但它只给出一个正确答案,这意味着大模型就会做这个题了吗?不是,除非它也能把剩下99个答案都告诉你,才说明它的理解没有问题。
至于是否会颠覆影视行业,在王帅看来,大家现在猜测一些大方向,但很可能答案是在意料之外。“谷歌刚成立时,人们不会想到它会以做广告盈利,人们最初对Facebook改变社交方式寄予厚望,但不会想到它未来泄露用户数据隐私的丑闻,AI技术亦是如此。多位技术人员认为只要解决技术难题就可以了,不是这样的。技术在商业和社会层面将会带来怎样的影响,是一个极其复杂的系统,很难单独用技术逻辑来理解。”
(王帅为化名。)
记者:杨智杰
编辑:杜玮
运营编辑:马晓轶