DeepSeek开源周,其他人也没闲着。
2月25日,凌晨Claude发布了Sonnet3.7版本,白天的DeepSeek开源了DeepEP代码库,晚上阿里的最新视频生成模型Wan2.1 亮相,真是热闹的一天啊!
相比于一个代码能力更强的语言模型,一个让开发者更为兴奋的底层的代码库,视频生成模型显然更让普通人兴奋。
仍然秉持着“能开尽开”的风格,这次万相开源了14B和1.3B两个参数的全部推理代码和权重,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验。
并且采用了最宽松的Apache2.0协议,意思是生成的内容版权完全归开发者所有,既可以用于免费渠道,也可以商用。
在评测集VBench中,万相2.1超越了Sora、Luma、Pika等国内外开源模型。
它的效果到底如何?废话不多说,我们先上评测!
目前在通义万相里体验2.1极速版和专业版,两个版本都是14B的,极速版生成速度约4分钟左右,专业版的生成速度更慢一些,大概1个小时生成,但效果更稳定一些。
文生视频2.1专业版相比于极速版对于文本理解更精确,画面的清晰度也相对高一些。但两个版本生成的视频画面都存在明显变形,对于一些物理世界的细节理解有欠缺。
提示词:参考盗梦空间拍摄方式,俯拍广角镜头,酒店走廊以每秒15度角持续旋转,两位西装特工在墙壁与天花板间翻滚格斗,领带受离心力影响呈45度飘起。顶灯碎片随重力方向错乱飞溅。
专业版
极速版
提示词:红裙女孩在蒙马特阶梯跳跃,每级台阶弹出旧物收藏盒(发条玩具/老照片/玻璃弹珠),暖调滤镜下鸽子群组成心形轨迹,手风琴音阶与脚步节奏精确同步,鱼眼镜头跟拍。
专业版
极速版
万相2.1是目前全球首个能够直接生成中文文字的开源视频模型。虽然能够准确生成指定文字,但只限比较短的文本,超出一定长度就会出现乱码的情况。
提示词:狼毫毛笔在宣纸上挥洒,墨迹晕染时文字“命运”逐笔浮现,字迹边缘泛起金色微光。
图生视频效果比较稳定,人物一致性较高,没有明显变形,但对提示词的理解不完整,缺少细节。比如案例视频中珍珠奶茶里没有珍珠,石矶娘娘没有变成大胖丫头。
提示词:油画风格,一位穿着朴素的少女拿出一杯珍珠奶茶,轻启朱唇缓缓品尝,动作优雅从容。画面背景是一片深邃的暗色调,仅有的光线聚焦在少女脸上,营造出神秘而宁静的氛围。近景,侧脸特写。
提示词:石人手臂随着步伐自然摆动,背景光线逐渐从明亮转为昏暗,营造出一种时间流逝的视觉效果。镜头始终保持静止,聚焦于石人的动态变化。初始画面中那个小巧的石人,随着视频的推进,体型逐渐增大,最终在结尾画面中,变身成为一个圆润可爱的石头女孩。
总的来说,万相2.1语义理解和物理表现还是有待提高的,但整体审美在线,而且开源后或许会加快优化更新速度,期待后续可以有更好的呈现效果。
在算法设计上,万相依然基于主流DiT架构,和线性噪声轨迹Flow Matching,看着有点复杂,其实大家都差不多是这个思路。
意思是先生成一堆噪点(类似电视雪花屏),直到图片变成纯噪声,模型再开始“去噪”,将每个噪点放在该放的位置,通过多次迭代生成高质量的图片。
但问题在于,传统扩散模型生成视频时计算量极大,需要不停的进行排序优化,这就导致了一生成时间长但视频时间不够长、二占内存耗费算力。
这时候万相提出了一个新颖的3D时空变分自动编码器(VAE),称为Wan-VAE,通过组合多种策略,改进了时空压缩,减少了内存的使用。
这个技术有点类似于《三体》中的“二向箔”,将人从三维变成二维。时空压缩的意思就是压缩视频的时空维度,比如将视频分解为低维来表示,从生产一个三维的立方体,到先生成一个二维的立方体再还原成三维,或采用分层生成来提升效率。
举个简单的例子,Wan-VAE可以把一本《三国演义》压缩成大纲,在大纲里保留恢复内容的方法,大大降低了对内存的占用,同时可以通过此方法,记住更长部头的小说。
解决了内容占用问题,就顺带解决了长视频生产的难题,传统的视频模型只能处理固定长度,超过某一长度就卡顿或崩溃,但如果只存储大纲,并记住前后关联,那么在生成每一帧时,临时存储前几帧的关键信息,便可以避免从第一帧开始重新计算。理论上,按照这种方法,可以对无限长度的1080P视频进行编码和解码,而不会丢失历史信息。
这也就是为什么,万相可以跑在消费级显卡上的原因。传统的高清视频(如1080P)数据量太大,普通显卡内存不够用。但万相在处理视频前,先降低分辨率,比如把1080P缩放到720P,减少数据量,生成完成后在用超分模型提升画质到1080P。
经过万相的测算,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用,且生产速度快,画质不缩水。
这一部分的技术创新,解决的是此前视频生成模型一直无法大规模应用的工程化难题。但与此同时,万相也在生成效果上做了进一步优化。
比如精细化的运动控制,此前Runaway的原生视频模型的单物体、多物体的相对运动控制都是靠运动笔刷绘制轨迹来完成,而万相允许用户通过文本、关键点或简单草图控制视频中物体的运动方式(例如指定"蝴蝶从左下角盘旋飞入画面")。
万相2.1将用户输入的运动轨迹转化为数学模型,在视频生成过程中,作为额外条件引导模型。但这还远远不够,物体的运动要满足真实世界的物理规律,在数学模型的基础上,引入了物理引擎的计算结果,以提升运动的真实性。
总的来说,万相的核心优势在于通过工程化能力解决实际生产场景中的难题,同时通过模块化的设计为后续的迭代流出了空间。对于普通用户来说,实实在在地降低了视频创作门槛。
全面开源的策略也彻底打破了视频模型付费的商业模式,万相2.1的出现,2025年的视频生成赛道,又有好戏看了!