AI 视频生成模型测评报告：Minimax文本控制最强，可灵1.5成“端水”大师

最近 AI 圈子杀疯了，先是 ChatGPT 带着大家玩文字游戏，现在更牛逼的来了，AI 视频生成模型横空出世，直接颠覆影视行业!今天我就来带大家看看，这个号称能颠覆好莱坞的 AI 视频生成，到底几斤几两?

VideoGen-Eval从文本与视频一致性、画面组合、场景过渡、创造性、风格化、稳定性、动作多样性等多个维度对现有模型进行了评估，并指出了各模型的优缺点。

各大视频模型综合对比如下:

在文本生成视频（T2V）方面，Gen-3、Kling v1.5和 Minimax 表现出色，其中 Minimax 在文本控制方面表现突出，尤其在人物表情、运镜、多镜头生成和主体动态方面表现优异。

Gen-3在控制光照、纹理和电影化技巧方面表现出色，而 Kling v1.5则在视觉效果、可控性和动作能力之间取得了良好的平衡。

Pika1.5在特定视频特效生成方面表现突出，例如膨胀、融化、爆炸等特效。

首先，我们要明确一点， AI 视频生成模型，简单来说就是你喂它文字或图片，它就能给你生成一段视频。想想看，以后拍电影是不是连演员都不用请了，直接把剧本扔给 AI，然后等着收钱就行了?

想得美!事情哪有那么简单。为了搞清楚这些 AI 模型到底行不行，来自香港中文大学和腾讯的研究人员搞了个叫 "VideoGen-Eval" 的项目，专门评估这些模型的真实水平，结果发现，事情并不简单。

目前市面上的 AI 视频生成模型主要有两类:闭源和开源。闭源模型就相当于那些高科技公司的独门秘籍，比如 Runway 公司的 Gen-3和 LumaLabs 公司的 Dream Machine，这些模型通常生成视频质量更高，功能更强大，但你不花点钱就别想体验。而开源模型就相当于江湖上的武功秘籍，人人都可以学习，比如 Open-Sora 和 EasyAnimate，虽然效果可能不如闭源模型，但胜在免费开源，人人都能参与进来。

对比视频如下:

提示词:Static camera， a glass ball rolls on a smooth tabletop

提示词:FPV aerial shot， the sunshine shines on the snow capped mountains， a quiet atmosphere

提示词:Zooming in hyper-fast to a red rose and showcase the details of its petals

"VideoGen-Eval" 这个项目测试了各种 AI 视频生成模型，包括文本生成视频（T2V）、图像生成视频 (I2V) 和视频生成视频 (V2V) 三个方面。结果发现，这些模型虽然在某些方面取得了很大进步，比如画面质量、动作自然度和与文本描述的匹配度，但离我们想象中的完美，还差得远呢!

先说优点，现在的 AI 已经可以生成一些简单的视频了，比如你输入“一只泰迪熊在超市里走动，镜头逆时针旋转”，AI 就能生成一段镜头旋转的泰迪熊视频。听起来是不是挺神奇的?但是，如果你想让 AI 生成一些复杂的场景，比如“一个人在游泳池里游泳，水花四溅”，或者“三只猴子在森林里跳跃，两只鹦鹉在树丛中飞翔”，那 AI 就开始抓瞎了。

究其原因，主要是因为 AI 对物理规律、空间关系、物体属性等方面的理解还不到位。比如你让 AI 生成一段“玻璃球在桌子上滚动”的视频，AI 可能就不知道玻璃球应该怎么滚才符合物理规律，最后生成的视频就会很奇怪。

除此之外，AI 在处理快速运动、人物表情、多人物交互等方面也存在很大问题。比如你想让 AI 生成一段打棒球的视频，结果 AI 生成的画面可能就会非常鬼畜，人物动作完全不协调，甚至连棒球都飞到九霄云外去了。

更别提那些需要 AI 发挥想象力和创造力的场景了，比如你想让 AI 生成一段“一个人被五彩烟雾包围”的视频，AI 可能就只会生成一堆乱七八糟的颜色，根本看不出是什么东西。总之，目前所有模型都无法做到完美，在处理复杂动作、多物体交互、物理模拟、语义理解、精细控制等方面仍存在很大挑战。

完整测评视频点此查看：https://ailab-cvc.github.io/VideoGen-Eval/#text-to-video