可灵AI全系模型升级，人人导演时代将为快手带来哪些新故事？|界面新闻

在一个异类世界的城堡中，两个部落的战争一触即发。当魔法棒启动的一刻，天崩地裂……

这并不是好莱坞大片中常见的场景，而是国产制作团队异类Outliers使用可灵AI生成的短片。一些网友看完短片后感叹：《指环王》等好莱坞大片可以重拍一遍了。

在传统影视剧制作中，剧中使用大量复杂的特效意味着高昂的成本。比如，《权力的游戏》前几季单集制作成本达数百万美元，到第八季，由于制作周期长、场景宏大、特效复杂等原因，成本大幅飙升至1500万美元。

但随着AIGC水平的大幅提升，这种影视剧的制作成本正在大幅下降。4月15日，可灵AI正式发布可灵2.0视频生成模型及可图2.0图像生成模型，让AI创作的视频和图片质量再上一个台阶，画面美学、和艺术表现风格都更接近电影质感，AI在影视创作行业的应用也有了更大的想象空间。

视频和图片生成能力均有明显提升

自去年6月发布以来，可灵AI已累计完成超20次迭代，效果持续领先。

从新发布的模型来看，可灵2.0模型在动态质量、语义响应、画面美学等维度，均实现了大幅的升级。

界面新闻以“恐龙朝着镜头冲过来，运动模糊，镜头抖动”为提示词，对比可灵2.0和可灵1.6生成的视频发现，新版模型响应速度更快，画面主体的动作幅度更大，速度更流畅，复杂动作也更加细腻、更自然、更合理，让人有了身临其境之感。

在图生视频上，可灵2.0模型的画面更细腻，能够更好地保持原图画风，画面的美感度也有明显提升。比如，以“油画，孩子们在海边奔跑，海浪拍打着海岸 ”为提示词，新模型的中画面角色在保持了油画质感的同时，跑动的动态也更接近真实效果，呈现出超强的风格感。

同时，在本次2.0模型的迭代中，可灵AI还正式发布了AI视频生成的全新交互理念Multi-modal Visual Language（MVL），让用户能够结合图像参考、视频片段等多模态信息，将多维度复杂创意高效地传达给AI。

发布会现场，盖坤表示，AI在辅助创意表达上拥有巨大潜力，但当前的行业发展现状还远远无法满足用户需求，在AI生成内容的稳定性、以及用户复杂创意的精确传达上仍有“很多挑战” 。也因此，要真正实现“用AI讲好每一个故事”的愿景，必须对基模型能力进行全方位提升，定义人和AI交互的“全新语言 ”。

据介绍，MVL由TXT（Pure Text，语义骨架）和MMW（Multi-modal-document as a Word ，多模态描述子）组成，能从视频生成设定的基础方向以及精细控制这两个层面，精准实现AI创作者们的创意表达。基于该理念，可灵AI还正式推出了多模态编辑功能。用户可以非常直接地把自己的想法用图像等方式表作为输入，生成符合自己想法的创意视频。除了图片和视频，也可以引入其它模态的信息，例如声音、运动轨迹等，更好的帮助用户实现创意意图。此外，多模态编辑还支持在一段视频的基础之上，通过输入图片或文字，对生成的视频内容实现元素的增加、删减、替换。

而在图像生成方面，快手也展示了可图2.0图像生成模型的升级。包括大幅提升指令遵循能力、显著增强电影美学表现力以及更多元的艺术风格。在风格化响应上，可图2.0可支持60多种风格化的效果转绘，模型出图创意和想象力实现大幅跃升。

同时，可图2.0也上线了实用的图像可控编辑功能——局部重绘和扩图，支持图片的增加、修改和修复。比如，用户上传一张猫的照片，涂抹选定眼睛的位置并输入提示词“戴上很酷的墨镜”，就可以生成一张猫戴墨镜的图片。

此外，可图2.0还上线了全新的风格转绘功能，只需要上传一张图片加上风格描述，就能一键切换图片的艺术风格，同时精准保留原图的语义内容。

AI视频领域的国产之光

相比于阿里、字节跳动等互联网大厂，快手在AI大模型领域的布局更为聚焦，核心在多模态大模型研发方面投入资源。在人才、算力等维度也会给予可灵AI更多的支持。

而这样的聚焦策略也让快手在视频生成模型赛道快速突破到全球第一的身位。自去年6月发布以来，可灵AI已累计完成超20次迭代。无论在迭代速度还是模型能力上，可灵AI都处于全球领先水平。根据此前谷歌Veo2技术报告，可灵AI 1.5模型在测评中结果优于Sora ，在处理复杂任务时展现出强大能力。3月27日，全球知名AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6pro（高品质模式）以1000分的Arena ELO基准测试评分登陆图生视频（Image to Video）赛道榜首。

据盖坤介绍，此次发布的可灵大模型2.0及可图大模型2.0两款模型在团队内部的多项胜负率评测中，均稳居业内第一。

在文生视频领域，可灵2.0对比谷歌Veo2的胜负比为205%，对比Sora的胜负比达367%，在文字相关性、画面质量、动态质量等维度上显著超越对手。在文生图领域。可图 2.0 对 Midjourney V7 的胜负比达307% ，刷新行业天花板。

作为全球首个用户可用的DiT视频生成模型，可灵AI的表现在海外也受到了诸多认可，可谓是AI视频领域的国产之光。在全球著名投资基金、咨询公司a16z发布的2025年全球100生成式AI应用排行榜中，可灵AI的表现也尤为亮眼，超越了Sora、Midjourney、Runway等海外知名产品。

截至目前，可灵AI全球用户规模已突破2200万，累计生成1.68亿个视频及3.44亿张图片素材。自去年6月上线至今的10个月时间里，可灵AI的月活用户数量增长25倍。

可灵驱动快手价值重估

技术能力的不断进化让可灵的商用成为可能，技术也正在快速转化成市场的势能。

快手财报显示，自商业化以来截至2025年2月，可灵AI的累计营业收入超1亿元。在商业化上，可灵AI推出了面向C端（用户）的会员收费模式和面向B端（企业）的API订阅模式。

对普通用户来说，他们对内容多样性的追求愈发强烈，同时渴望降低创作门槛，而视频大模型技术恰是解决这一需求的关键突破口。借助视频大模型，普通用户通过一段简单提示语或者一张图片，即可生成高质量的视频内容，这为快手上海量非专业创作者释放创意潜能提供了可能。

在广告营销、专业创作、影视、娱乐创意等产业端，AIGC技术的迅猛发展降低内容生产成本，也重构了生产流程，获得了诸多企业的认可。

目前，可灵AI已与包括小米、亚马逊云科技、Freepik、蓝色光标等在内的数千家国内外企业客户建立了合作关系。盖坤披露，来自世界各地的超1.5万开发者，已将可灵的API应用于不同的行业场景中，累计生成的图像数量约1200万个，生成的视频素材超过4000万个。比如，今年年初，快手可灵 AI 联合快手电商推出 “灵蛇奇遇” 主题活动，携手周大福等品牌打造蛇年新春定制生肖联名款产品，解锁了“AI技术+实体化产品 ” 融合新范式。