从DeepSeek到字节,中国人带来的真正价值

企业
2025 02-24 13:39:31
分享

编者按:本文来自微信公众号 20社(ID:quancaijing_20she),作者: 贾阳 罗立璇,创业邦经授权转载。

市场开始关注DeepSeek如何影响英伟达估值时,英国《金融时报》发表了一篇评论认为,对于DeepSeek的成功,市场更应该担心的是:这意味着中国已经掌握了“改善”的艺术。

什么是“改善”?

这是一个来源于日本的概念:Kaizen(改善的日文发音),大致涵盖了模仿、优化流程、生产物美价廉的产品。Kaizen被认为是丰田生产方式的核心之一,在中国汽车行业也曾备受推崇,比如长城汽车的座右铭就是,每天进步一点点。

在欧美研究者看来,Kaizen是日本在1970年代和80年代经济起飞,成为超级大国的主要原因之一。这是一个先发国家,或者说所有市场霸主很容易认可的逻辑:后来者,可以通过在原有产品、技术的基础上加以优化改善,打败先行者。

正是沿着这个路线,日本公司在汽车、消费电子和半导体等行业从技术和质量上击败了欧美传统巨头。

用这个词来描述当下的中国AI行业,这背后代表了一种混杂的态度,既有对于DeepSeek“创新含量”的质疑,也有对中国工程师团队能够在最尖端行业平推工艺优化迭代的惊叹。但相较于美国人一惊一乍的“Sputnik”,《金融时报》多了一份旁观者的冷静。

或许在这一段DS热潮稍息之际,我们可以有余裕看一下更核心的问题:中国以什么体系、路径,诞生了DeepSeek这样的现象级创新。DeepSeek路径,能否泛化为中国路径?

01一个典型的中国式“改善”

两周前,字节发布了视频生成模型OmniHuman,用户仅需输入一张图片和一段音频,就可以生成一条AI视频。

你可以让爱因斯坦成为物理名师课堂的讲师,让泰勒·斯威夫特唱中文神曲。这比之前的做对口型视频的流程更简单,效果也非常真实。

图片

OmniHuman可以生成光线、质感、细节相对应的,任意图像比例、任意人物比例的视频。

一位国内大模型厂商从业者认为,OmniHuman属于一种AI口播类产品,没有什么创新之处,功能都不是全新的,但他也承认是在AI口播这个垂直领域,OmniHuman还是非常实用。

“AI口播的核心功能是要素替换,而不是内容创造”。这是一个很窄的领域,因此OmniHuman发布后,没有像可灵那样吸引来广泛关注。

OmniHuman可以适配不同画风,生成以前做不出来的姿势,来适配人物。

由于我们最近一直在找最简单的数字人方案来做视频,这个大模型还是一下就吸引了我的注意,因为它确实用户友好,如果再搭配剪映加上字幕,就很容易实现让AI替我们念稿子的想法。

本质上,OmniHuman这个“傻瓜级”视频生成模型,是一个垂直模型。把原本更垂直的面部动画模型和姿势调节模型,合并成了更有适用性的数字人动画模型。

它的长处在于,给定一个基础人像,让它按照语音/视频的指令一边演讲/唱歌,一边身体自然律动,效果无比出色(参考演示视频效果)。至于从无到有的内容创造,对不起,不是我的专业。

而它之所以能做到小赛道的高分(据OmniHuman论文数据),答案其实并不复杂。那就是针对单一目标,做极致的工程学优化。

据OmniHuman的论文,原本更垂直的数字人模型(如主播类),大多专注口型,为求精确,往往需要过滤裁剪大量与面部表情无关的训练数据。而OmniHuman,从原本被浪费的数据中,提炼出有价值的运动模式,驱动面部表情的同时,也驱动身体姿势,使生成的形象更自然灵动。

这是一款中国AI产业“应用”思维下诞生的典型产品。

如果在基础研究上没有足够能力,或短时间内大模型的能力无法显著突破,又或大模型本身的商业化遥遥无期,那么用已有技术打磨出一个好用的应用,是商业公司的最优解。

事实上,字节的AI产品覆盖相当全面,在AI视频生成这个方向上,我们甚至看到豆包和剪映两个团队在赛马,在OmniHuman发布前,豆包也发布了一款视频生成产品。

这某种程度上而言,算是原本意义上的“Kaizen”的实践。

Kaizen的核心,就是在原有产品基础上去追求极致,无论是单点的优化,还是整个系统的再降本增效。

但“Kaizen”的壁垒能维持多久,是一个问题。比如,过去几周,一个经常被拿来对比的产品是豆包:就在豆包好不容易有了近千万的DAU,成了国内排名第一的AI产品时,DeepSeek R1发布了,上线仅20天DAU超过2000万。

这可能也是这一领域的独特风险。大模型的进步曲线十分陡峭,不像互联网产品或者是传统制造业已经平缓。虽然中国互联网企业在AI应用打造上更有优势,但AI技术目前仍在发展中。我们看到的产品仍然都是是阶段性的,也就很难形成绝对壁垒,无论对于open AI还是豆包。

而DeepSeek,则是在最前沿的方向,把Kaizen做到了极致。

02共同的秘诀

来自东方的神秘力量——“工程科学”,不仅出现在OmniHuman这个小模型中,更在整个AI产业中涌现,产生效果。揭开今年科技圈春晚序幕的DeepSeek,是这方面的佼佼者。

DeepSeek最让人瞩目的要数两点,一是极致的性价比,二是优越的模型表现。

而这两点的实现,来自DeepSeek高密度、一环扣一环的工程创新。

很多读者可能已经遗忘了,去年拉开大模型价格战不是大厂,而是幻方。当时它发布了DeepSeek-v2,带来全方位的推理成本下降,能够在盈利的基础上进行降价。而年末发布的DeepSeek-v3,进一步进行了工程上的创新优化。

最值得称道的工程创新,是模型架构层面的。

新的混合专家系统(Mixure of Experts,MoE)架构,作为一个更精细的任务“分诊台”,只激活少量合适的专家,从而在推理过程中减少参数量,提升效率。

也有算法层面的,新的多头潜在注意力机制(Multi-Head Latent Attention,MLA),把加载上下文的显存占用,降到了常见架构的5%-13%,显著降低了推理成本。这来自于DeepSeek一个年轻研究员的个人灵感,最终被团队落地,实现了极其罕见、有魄力的Attention架构创新。

此外,还有几乎无人工干预的强化学习(RL)。尤其是DeepSeek-R1-Zero模型,仅靠简单的奖惩信号来优化模型行为,纯RL。而这个过程中,R1-Zero自发获得了优化推理的能力,在推理过程中产生了令人激动的“顿悟时刻”(Aha Moment)。这是GPT-o1隐藏的秘密和壁垒,DeepSeek自己攻破了这个谜题。

图片

(论文记录了一个案例,R1-Zero在数学推理的过程中,突然停下,"Wait, wait. Wait. That's an aha moment I can flag here",而后重新审视了自己的解题思路。研究团队也将这视为RL能力的彰显。)

当然还有一系列针对数据压缩、数据处理流程、芯片带宽通信调度等等的细节创新优化。

图片

(来自腾讯科技)

这就进入到一些争议环节了。

以FutureLabs首席专家胡延平为代表的一些人认为,DeepSeek的亮点,按实际价值其实依次是强化学习、混合专家模型MoE、知识与模型蒸馏、多头注意力、多Token预测、混合精度训练和PTX等。尽管其中没有一项是DeepSeek自己完全原创、独创的,但是DeepSeek成功地进行了非常系统的再创新。

那么,这实际上是最经典的“改善”逻辑——博采众长,从而实现效率最大化。

也有一些人,尤其是在阅读了DeepSeek的多份论文后,发出了“低成本高效率”之外的另一种的感叹——这不是单点的巧思,而是一整个系统的创新。

比如,在R1发布前,Perplexity CEO Aravind Srinivas对V3评价已经非常高,他在接受CNBC专访时称,MoE非常难训练,有准确度的8位浮点训练很难做到,在美国并不常见。

通常的认知是中国人擅长复制,如果美国人停止发表论文,他们就赶不上。“但现实是,DeepSeek-V3中一些细节非常出色,我甚至不会惊讶Meta会借鉴并应用到Llama中。他们不是在复制,而是在创新。”

VC机构Benchmark合伙人Chetan Puttagunta读了V3的论文,他认为DeepSeek团队贡献了一些在算法方面真正的创新,某种程度上是世界领先水平的创新。

图片

公允地说,DeepSeek没有做出Transformer模型之外的底层创新——像杨立昆(Yann LeCun)所说的大语言模型之外的世界模型,但在Transformer领域内,DeepSeek做出了有突破价值的工程学创新,从而让Transformer模型更强大了。

本质上,它做的正是GPT3做的事。

在AI领域,工程创新,跟最前沿的理论创新,并不是孤立存在的。它们往往是并行的,互相验证,互相启发。规模效应、工程本身会带来意外的aha moment,从而推动理论、模型创新进入新的阶段。

在R1发布后,据DeepSeek团队研究员Daya Guo称,R1-Zero的性能曲线还在“不断上升”,真切感受到RL的威力。

梁文锋最近又新发了署名论文,又提出了一个新的Attention模型——NSA(Native Sparse Attention),相较于其之前的MLA模型,提升推理效率的同时,能更好地模拟人类对长文本的理解方式。

图片

要求大算力的预训练阶段比拼,竞争强度下降。而在RL这个想象空间巨大的领域,中国的AI企业正在迅速追赶Open AI。

03“Kaizen”的极致阶段,创新涌现

一位大模型公司的人士在和我们讨论Kaizen时认为,持续改善说起来容易做起来很难,因为绕行和摸鱼才更符合人性。

实际上DeepSeek所做的尝试,很多公司都曾做过一项或者是几项,但发现效果不佳后,就不再继续。DeepSeek某种意义上的价值,在于掀开了中国从业者心中的天花板。

日本公司成功的核心在于恒心,丰田等日本公司将其发展成一种企业文化。将改善的权力交给了每一位员工,在生产线上,任何员工发现问题都有权举手叫停。

这种改善带来的进步,看起来并不复杂,只是在原本的产品路径上又跨越了一个难点,或者是降低一点点成本、一点点使用门槛。

《金融时报》认为,回顾丰田“Kaizen”式的成功,或许更能解释中国企业的进步,以及为什么这样的进步,有可能帮助这些公司获得最大的市场成功。

丰田在上世纪80年代,通过更高效和低成本的生产方式,制造出了廉价但可靠的科罗拉,打败了大众的甲壳虫,从而重塑了美国的汽车工业。

图片

比起美国公司所习惯的“大力出奇迹”来得到创新,丰田更专注于在作业过程中,杜绝资源浪费和自发实现渐进式的进步,这样的方法被总结为“改善”。

丰田能够在美国市场迎头赶上,做到了以下三点:

1、大量模仿,小幅提升。最后,技术落后的丰田,靠逆向工程雪佛兰的发动机,研发出了自己的引擎,马力比之前提高了10%。

2、认真调研市场需求。当时的美国处于石油危机下,消费者特别需要油耗低的小型车。丰田的小型车的抛锚率远低于当时大热的大众甲壳虫,还便宜。

3、改善生产流程,去掉无用的环节,实现全局细节优化,从而做到成本和质量上的双优化。

这样的路线,在今天中国的很多行业也在被不断执行且发扬光大。

比如在电动车行业,最早的阻碍是电池。比亚迪找用磷酸铁锂迭代了此前主流的三元锂。但最初的方案续航旅程很短,比亚迪又在2020年推出了“刀片电池”,基本弥补了在续航上和三元锂电池的差距,且成本极低。

同时,在实现大部分零件自产的前提下,比亚迪造出了性价比最高的车辆,从而成为新能源“销冠”。

但到如今,中国的新能源汽车,早已经超出了原本的“改善”范畴。

作为全球最大的电动车生产与消费国,中国的电动车行业是一个有机整体,在电池、压铸技术、空气悬挂、汽车芯片、智能座椅、智能驾驶、软件等多个方面都在内卷式创新。它们的对手,也从特斯拉变成了彼此。

一年前,中国还没有能提供全场景L2辅助驾驶能力的头部供应商,但没有意外的话,到今年底,L2+就会成为所有主力车型的标配。

用深入观察中国电动车的Reddit用户singularity的观点,这是整个生态系统整体发展的故事,推动快速应用,优化产业链,构建特定专业领域的庞大集群——飞轮开始加速。而在AI领域最近发生的事情,让他想起了汽车领域发生过的事。

在人工智能领域,这个轨迹目前为止确实是相似的。

Open AI目前最强大的o3固然惊艳,但仅部分向公众开放,且价格高昂。能够实现相似智能水平的DeepSeek-R1-Zero横空出世,将其在RL阶段实现深度思考的秘诀开源,追赶Open AI的路径似乎已被解密。

和DeepSeek R1几乎同时发布的月之暗面的Kimi k1.5,也英雄所见略同地推出了稀疏注意力机制,名为MoBA(混合块注意力机制),同样对标o1正式版。

而k1.5的推理能力也相当不错。Open AI的论文表示,R1和k1.5两者的独立研究都证明,利用思维链能够提升大模型在数学与编程上的能力。

图片

字节随后发布的豆包大模型1.5 Pro,也声称采用了稀疏MoE架构。其稀疏模型架构命名为UltraMem,称推理速度相比MoE架构提升2-6倍,推理成本最高可降低83%。

在scaling law告急后,行业转向加码RL,中国企业则还有一个突破Transformer算力桎梏的共同目标——Attention架构提高了模型智能程度,但却需要占用大量内存,且计算成本高昂。

在海量的AI人才努力下,大家都给出了相似的解题思路,只不过DeepSeek的创新更加密集,更系统,给出了最高分答卷。

《金融时报》乐观估计,相较于日本原版,中国式的 “改善” 能在更快节奏、更具颠覆性的时期发挥作用,且成果可能更为显著。

首先是中国的人力资源和人才规模与以往完全不是一个量级,让“改善”能够在更大范围内进行,改善再加上规模化的威力,是不可小觑的。

其次是,在数字化时代,消费者反馈和公司调整会更快。

更重要的是,中国不论官方还是民间,依然有意愿和能力为快速规模化提供资金支持。

在大语言模型的scaling law被质疑触墙的过去一年,我时常想起古早美剧《疑犯追踪》中的一个情节——引入了压缩算法后,原本需要巨型数据库容身的AI,可以被装进一个手提箱。

图片

科幻有时候会给出先验的预言。人工智能一定要寄居在海量算力上吗?能不能让AI既聪明,又低能耗呢?

在最新近的现实中,中国的AI创业公司正在为这个使命做出最核心的贡献。

The End
好一二三网hao123.biz网站成立于2007年3月21日,网站关注最实时的文章,教育资讯,教育录取,高考分数线信息,企事业单位招聘资讯