上周Anthropic发布了Claude 3.5 Sonnet的升级,让AI助手能够通过"电脑使用"功能直接与计算机交互。这意味着Claude可以实现自动搜索文件、截取屏幕画面、在应用程序间切换并执行基本任务。这些看上去很基础的操作也许代表着生成式AI的重要转折:从单纯的对话助手,向真正的"自主代理"迈进——这正是包括OpenAI、谷歌在内的各大公司都在努力的方向。
就在AI能力不断突破的同时,真实的商业世界却呈现出一个有趣的反差:在这轮生成式AI浪潮中最赚钱的公司,竟然是以埃森哲为代表的传统咨询公司。据埃森哲2024财年财报显示,其生成式AI相关业务的新增订单已达30亿美元。在国内市场,字节、阿里和智谱等基座大模型供应商也在扮演着类似的角色。
在这期《硅谷101》中,我们邀请到了大模型领域的投资人和创业者:华映资本海外合伙人邱谆(Jonathan Qiu)和AgentQL联合创始人翟琦(Keith Zhai),请他们从投资人和创业者的双重视角,探讨大模型应用落地的挑战,以及尝试从“人工智能”的定义出发,聊聊投资人眼里应用类公司的核心竞争力。
在本期对话中,两位嘉宾深入剖析了当前AI应用遭遇的困境:当前的AI应用正处于"两个月大的婴儿"阶段,整个生态系统尚未成型。最关键的是,与互联网时代相比,AI时代缺少了类似浏览器这样的操作系统层,导致应用与底座模型之间的边界模糊。这直接影响了纯应用公司的生存空间——它们既要考虑产品体验,又要思考如何获取和利用数据来构建自己的护城河。
在这种情况下,两位嘉宾认为机会可能存在于三个方向:首先是多模态,因为这些领域需要自主研发底座模型,更容易形成技术壁垒;其次是在特定垂直领域深耕,用专业领域数据打造差异化优势;最后则是基础设施层面,帮助企业落地AI应用——这也解释了为什么咨询公司能在这波浪潮中占得先机。
以下是部分访谈精选
01 "相当于两个月的婴儿":AI创业还处于不确定的风口
《硅谷101》:我们播客从2022年就在报道生成式AI,那时还是扩散模型的文生图时代,ChatGPT还没发布。请问大家在投资创业过程中,跟随这波AI浪潮的心态变化?
Keith:我们从去年下半年开始。这个行业太早期了,大多数公司是在ChatGPT3.0前后才开始关注。现在大家认为上一代AI和现在的AI是完全不同的两种东西。
它就像一个两个月大的小娃娃,每天都在成长。比如刚开始时,大家谈论的agent其实完全不同。你说的可能是聊天机器人,我说的可能是动作模型,或者是工作流程自动化。这就像村上春树说的"当我在跑步的时候你在想什么,没人知道你在说什么"。
《硅谷101》:Keith,听众可能记得你之前华尔街日报记者时讲东南亚诈骗的那期节目。现在你是以AI创业者身份参与,想知道你选择AI创业时怎么想的?当时市场是什么样?对比今天,在心态、融资、行业认知上最大的变化是什么?
Keith:我之前做了20年记者。选择转行有很多原因,其中一个是我问了一个朋友,他是国内某大型上市公司的创始人。在酒吧里他告诉我:“这是范式革命(paradigm shift),像电器一样不是某个行业的改变,是整个社会的改变。当你认为这是范式革命时,不需要想做什么,需要的是进去开始做。”我用过很多上一代AI语言模型产品,它们都远不如人类写作。但第一次用GPT-3时,我内心非常震撼。
《硅谷101》:现在感受如何?
Keith:就像一直在水里扑腾。我们去年到今年上半年一直在stealth隐身模式。刚完成A轮,但从没感觉上过岸。这个行业变化太快了,跟过去不是一个量级,它对效率是根本性调整。过去做完A轮可能觉得要上岸了,但现在融资上几个亿的公司最后也都不行。所以上岸很难用融资阶段来界定。
《硅谷101》:作为一位投资人和AI领域的专家,Jonathan你觉得从ChatGPT出现到现在,生成式AI的投资浪潮有什么重大变化?
Jonathan:从核心上看并没有根本转变,因为投资的目的始终是商业化。不过我现在在思考一个问题,纯应用可能存在风险,需要一定的技术整合能力。以ChatGPT为例,它是一个垂直整合的应用,既有应用层也有很强的底层能力。
说到agent,我之前在南加大读博士时就研究agent,当时叫"多智能体协作"。那时人工智能有多个分支:机器学习、神经网络、agent、自然语言处理和计算机视觉。我没有选择机器学习和神经网络,但后来这两个方向结合形成了深度学习,成为了整个领域的驱动力。现在的agent与当年最大的区别在于,现在都是围绕深度学习展开的。
多智能体协作示意图 图源:吴恩达
从第一波机器视觉,包括无人驾驶、人脸识别,到今天的大模型,都是围绕深度学习展开。在深度学习的范畴内,我们对应用的要求比以前要高。以前分为看应用和看模型两派,但实际上这两派是一致的,我们都会关注这两个方面。
目前我们发现应用没有大爆发,这导致底座模型也面临挑战。作为平台,它必须让上层生态在各个垂直场景大规模落地才能体现价值。但现在GPT最常用的反而是它自己的应用。
02 创业公司商业化掣肘:有没有私有化的数据?
《硅谷101》:你提到应用还没有大爆发。比如我自己用ChatGPT写采访提纲和节目笔记时,它的表现还不够理想。这是AI能力的问题吗?
Jonathan:是的,这直接关系到AI的底层能力。我认为有以下几点:
首先是底层能力,就像互联网时代的思科提供网络连接能力一样。现在的大语言模型虽然已经很不错了,但基础设施还不够完善。
其次是操作系统(OS)。互联网时代有浏览器作为OS,正是Netscape浏览器的出现,才让思科的基础设施价值充分体现,各种网页应用才开始爆发。移动互联网则有iOS和Android。
但AI时代的OS是什么?OpenAI尝试用GPTs做OS,问题是应用层和底层模型的界限并不清晰。拿Jasper这样的应用来说,很多功能GPT本身就能实现。而且应用层的数据和底座模型的数据往往非常相似。
Netscape Navigator 图源:维基百科
这种界限不清晰还体现在:当用户问了一个问题得到答案时,很难判断这个答案是由底座提供的还是由应用提供的。这和互联网应用不同,比如Uber上哪些功能是iOS提供的,哪些是Uber自己提供的是很清晰的。
《硅谷101》:关于界限不清晰这点,我有不同看法。以Google的Notebook LM为例,表面上它看起来像GPT,但实际上它的功能很独特。它能处理长文本并生成精确的总结,甚至能把播客内容转换成研究报告。它抓取关键点和细节的能力非常强,比很多记者的水平都高。这可能是基于Gemini的底层模型能力,特别是在长文本处理方面。
Jonathan:这正是我想说的特点,你很难区分一个功能到底是应用层的贡献还是底层模型的能力。AI应用与互联网应用不同,它需要两条线:一是产品设计,二是数据能力。产品设计让用户体验流畅,这是互联网产品经理的强项;数据能力则通过微调和RAG来增强底层模型。
以Notebook LM为例,虽然它现在表现出色,但如果是第三方公司用Gemini开发类似应用,核心竞争力就不会那么强,因为长期来看还是要看底层模型的能力。这就是AI原生时代与互联网时代的本质区别,数据的重要性变得前所未有的高。
NotebookLM, 图源:谷歌
单纯应用积累数据后,要考虑怎么跟底座结合,是用微调还是RAG,甚至需要预训练。要跟底座深度整合,或者自研一些底座支撑。像Perplexity这样的公司就是开始比较轻的。
《硅谷101》:你说所有的应用公司最终都要发展底层模型,这是必然趋势吗?
Jonathan:在当前技术架构下,创业公司似乎别无选择。因为你需要不断积累数据来维护护城河,而数据越来越多后,你要考虑如何跟底座模型结合,是继续用微调,还是用RAG,还是有些数据更适合预训练。不管是微调还是RAG,都需要底座模型的支持,尤其是当你想做得更好时。如果你想走得长远,建立高门槛的护城河,就必须与底座模型做更深度的结合,或者开始自研训练。
Keith:我非常同意数据这一点。数据质量非常重要,结构化数据和非结构化数据会带来不同的产品效果。
《硅谷101》:Jonathan你对人工智能有自己的定义,能和大家分享一下吗?特别是为什么数据如此重要?
Jonathan:人工智能的历史从1950年代达特茅斯会议就开始了,包括agent(智能体)、自然语言处理、机器学习、神经网络等多个分支。但我定义的产业化人工智能是从2012年开始的,核心就是深度学习。
2012年之前,所有计算机科学包括传统人工智能都依赖人写算法,有句话叫“人工智能有多智能主要看有多少人”。就像我从小开始就写代码,所有事情都要靠程序员一行行敲代码。但2012年AlexNet出现后,把机器学习和神经网络结合成了深度学习,不再依赖手写代码,而是通过大量数据训练。
这形成了"AI三要素":算法(AlexNet)、数据(李飞飞的ImageNet)和算力(吴恩达和GPU)。这三个要素结合产生了革命性突破,出现了一个“黑盒”模型,效果反而比人工编写的“白盒”模型更好,只是可解释性差一些。
到了2020年GPT-3出现后,第一次把人类积累的电子书、维基百科、Reddit、知乎等所有内容作为训练数据,效果超越了传统自然语言处理的所有成果。现在语言模型完全是数据定义的,这就是为什么在AI时代,你创业第一天就必须考虑数据。但关键是,“有用的数据”这个定义是动态的。比如Transformer出现前,很多数据都用不上,但现在它能处理这些语言数据,产生出超越传统自然语言处理的模型。
《硅谷101》:Keith你觉得什么样的数据是有用的?
Keith:要从人工智能的本质来看,它是要模拟人类行为。人在网上做的就是读和写两件事:读是获取信息,比如听我们的播客,看视频;写是基于信息采取行动,比如交易股票或者点击按钮。
但对机器来说,获取数据很困难,因为互联网本来是为人设计的。每个网站都有自己的护城河,需要API或者写爬虫脚本才能获取数据,这是最脏最累的活,没人愿意干,而且永远做不完。这导致很多做垂直领域的应用公司,它们的数据都差不多,没有特别之处。
《硅谷101》:但这些创业公司怎么能跟OpenAI这样动辄获得百亿美元融资的公司竞争呢?
Jonathan:可以采取渐进式的方法,像爬楼梯一样一步步来。因为按照Scaling Law(规模法则),数据越多,模型能力理论上就应该越强。虽然这需要越来越多的算力,但可以分步实现。
更重要的是差异化定位。OpenAI这样的公司有平台诉求,要服务所有场景,教育、制造业、医疗都要覆盖。但如果你放弃通用平台的诉求,专注于比如AI搜索这样的垂直领域,把一件事做到极致,门槛反而成了护城河。
《硅谷101》:Perplexity它的底层是自己的模型还是建立在其他模型上?
Perplexity插画,图源:Cassie Sun
Jonathan:刚开始并不是。我的总体定义是说要有底座潜力和底座能力的应用公司。因为它有DeepMind的背景,所以他们有这个思维。它可以有几个step,刚开始可能就是套个壳,像GPTs那样直接用API,做些RAG,然后开始做微调。但我想它到了一定层面一定会自己做,因为它要不断积累自己的私有数据。它可以用这些数据再去做微调,同时也应该把这些数据去生成自己的底座。
《硅谷101》:如果Google或Microsoft也来做同样的事情,那该怎么比?
Jonathan:回到刚才那两条线。作为一个AI原生的应用公司有两个角色:第一是做好互联网产品,这方面很多创业公司可能比模型公司或大厂做得更好,因为视角不同。很多确实从产品切入,开始可能就套个壳,但易用性和交互流畅性非常好,所以用户一下就来了。
但这不代表你就成功了。就像最早的Jasper,它当时比GPT用得好是因为产品设计确实更优。但现在你要思考你的护城河在哪里。
《硅谷101》:GPTs上有比较成功的公司吗?
Jonathan:应该是没有。在年初GPTs最火的时候。我直接问过一些开发者问这个问题:你有没有私有数据?他们愣了很久,然后说“我为什么需要私有数据呢?我们没有数据。”
我又问“那你会不会担忧你的护城河(defensibility)?”他们说护城河就是产品设计。这在互联网年代是很通用的思维。为什么互联网应用公司能比大厂厉害,很多时候是在产品层面。他在产品设计上面,尤其是垂直领域,肯定比做底座或者大厂的人更有优势。但是现在你要详细考虑护城河的问题了。
《硅谷101》:Perplexity呢?
Jonathan:我觉得它一定会往底座去做。但这个可以有多种方法,你可以用开源底座去做一些继续训练。
你要从成本上考虑,一上来就全都重新训练,成本太高了。但你可以做继续训练,这个难度也不低,可能比微调要更难一些。但即便是微调,微调跟继续训练有时候界限也开始模糊了。而且还有风险,做不好效果可能并不好。这些成本都要计算进去,但大方向一定是往这走。这就是你的护城河。
你要么就不要有数据,就像GPTs那些。但很快GPTs也都没有了。所以看商业化有时候也会有误区,有些产品可能一段时间用户看起来不错,甚至有些收入。但只要没有护城河,要么就是被底座覆盖掉了,要么就是自己不能持续迭代下去了。
03 纯应用不足以构筑护城河,多模态更有机会
《硅谷101》:我在想这种创业公司的应用类的模型迭代,怎么能卷得过像OpenAI这种动辄百亿美元融资的公司。因为做底层模型需要自己买卡训练,如果一个模型训练得越来越大,智能真的涌现了,这些创业公司再去训练底层模型的意义何在呢?
Jonathan:所以有几种方法。一种就是我刚才说的一步一步来,有点像baby step。你的卡会越来越多,加上数据越来越多,理论上最后输出的模型能力应该是越来越高的。
第二个就是聚焦。你可以做到跟OpenAI和国内六小龙的不同,因为所有做底座模型的人都有做平台的诉求,要赋能所有的上层应用,这样就把它给摊平了。现在来了教育的、制造业的、医疗等垂直行业的都得服务。这是它跟你的最大区别,你可以放弃作为通用平台的诉求,就聚焦在比如AI搜索这样一个垂直应用。我把这一件事情做好,整个底座模型都是为了这个,不是为了去做下一个iOS。这样你会简单很多。
《硅谷101》:还是回到了数据,护城河还是你垂直领域的数据的优秀程度、专业程度和精专程度。
Keith:有点像大语言模型是个推土机,我其实就想凿个钉子。难道要拿推土机去凿吗?也可以也能弄进去,但何必呢?其实拿个小锤子嘣一下就进去了,那我就用小锤子不就得了。
《硅谷101》:Keith你有觉得比较好的商业化案例可以分享吗?
Keith:美国本土还蛮多的。比如现在做coding的几个很火,当然这也涉及到它会有多大的护城河这个问题,比如说GitHub要去做会怎样。还有一个特别火的coding应用Devin,大模型时代“见光死”:demo做得好看,但正式发布后发现完全用不了,这样的产品太多了。
Devin发布会, 图源:官网
Jonathan:Coding应用这个分界不是那么清晰,因为也可以用GPT,现在很多码农就直接用GPT帮他编程了。所以问题是你怎么去创造一个分界。产品肯定要做得很好,但你要实现scaling law,要用私有数据去训练,怎么去跟底座的这些人竞争,做长期的竞争。
如果他们要问我建议,就是你得拥有自己的底座。如果一直用第三方的底座,你的风险永远是大的,因为他们一定也在不断训练。
Keith:其实现在做得好的很多可能都是商业化做得比较好,就是在某一个点抓得准。像Harvey这样做法律方向的大模型应用,也不知道多好用,但能讲好故事。从真正大规模应用角度来说,还是很遥远的。我觉得整个问题的核心还是太早。这是一个新的生产效率工具,但很多人把生产工具当成了生产力,这是一个误区。
《硅谷101》:作为音频工作者,我觉得Google的Notebook LM用来做长文本分析还是蛮好用的。另外有一家创业公司Elevenlabs我很喜欢,它可以把文字转成很好的配音,或者用AI补录音频,效果比真人补录还要自然。不过它在中文方面表现还不够好。Elevenlabs在融资市场表现也很优秀,快到独角兽级别了。还有像Suno这样做文字生成音乐的,也融了很多钱。
Jonathan:这两家都属于跨模态、多模态的产品。我预测它们一定要往底座去延展。
《硅谷101》:它们其实是有底座的。
Jonathan:它们不仅有底座,在声音处理上还有自己的独特优势,有一些paper。所以这些公司要有训练数据,用自己的或半自研的底座去实现最终的模型功能。从这个角度讲,多模态更符合我说的,因为没有现成的第三方底座可用,你反而更需要自己去做很多事情。
《硅谷101》:所以现在整个市场上多模态的表现会不会更好一点?
Jonathan:对,这是我的预估。当然这是把双刃剑,对你的要求更高。很多人会往这条路走,这样从第一天开始就有护城河。不像纯语言模型,你可以一开始没有护城河,直接调用GPT就能出产品。但在多模态领域你要先做出些东西,所以它是把双刃剑。
我个人也比较看好多模态,包括跨到硬件模态。如果能够把硬件数据跟Robotic Transformer(RT)打通,把语言和硬件的传感器数据、机械执行数据从训练层就打通,我觉得这是多模态的一种体现,还是有蛮大空间的。
04 埃森哲生意越兴隆,生态越没有成立
Keith:本质上还是数据的独特性、准确性和优势。我问过美国几家大的VC美国大企业对AI的接受程度如何,其中有一位负责人说吆喝声很多,大家都想学想知道在讨论,但真正能落地的还是很少。
现在大家做的都是AI咨询,特别是RAG这块是过去两个季度最火的。因为作为公司的IT负责人,肯定要考虑公司接下来在AI方面要做什么,要花钱,但可能还不知道该做什么。最起码可以先把架子搭起来,做AI方面的咨询讨论。
在美国,像埃森哲这样最大的科技咨询公司,光咨询就赚得最多。第二季度生成式AI带来了6亿美元新增营收,第三季度涨到9亿美元(编者注:此处“新增营收”特指“由生成式AI带来的新增订单金额”,详情请参考埃森哲财报)。另一家VC跟我聊天时说,就是耍耍嘴皮子做两个RAG,就拿到9亿美金,就是这样的现状。
《硅谷101》:你有用过埃森哲的服务吗?
Keith:我们用不起,太贵了。
Jonathan:咨询公司在今天的地位其实符合我之前的理论。回看互联网时代,很多公司说要做数字化、做网站,也会找外包和咨询公司。比如我自己作为客户,现在要做一个内部的投资GPT能回答投资问题,但因为有很多私有数据,不知道怎么搭建,就需要找咨询公司。事实上我们现在就在做,很多投资公司也在做这个事。
在互联网时代,咨询公司收入只占很小部分。即使把埃森哲、麦肯锡这些外包公司加在一起也是。因为中间有OS,门槛降低了,大部分公司能自己做。以前做个简单APP可能30万人民币左右。但在AI时代,咨询成本很高,而且很多人都会用。因为中间有很高门槛,这件事不容易做。
而且形成一个矛盾,就是数据越多反而越头疼。数据多本来是好事,但数据越多,首先成本抽取就很贵,可能需要用到AgentQL这样的工具。然后还要训练、要放到数据库做RAG,所以干脆找咨询公司。
埃森哲生意越兴隆,反而说明这个生态越没有成立。都要靠第三方交付公司,这是我们观察到的现状。但这本身是个阻碍,必须得迈过去。
《硅谷101》:所以我理解在互联网时代,用埃森哲这类公司帮做APP的比例小,是因为基础设施比较完善,大多数公司可以自己做。
Jonathan:对,完善,然后OS也比较具备。
《硅谷101》:但在AI时代因为基础设施不太完善,每个公司要根据自己的数据去定制模型,门槛还比较高。
Jonathan:对,要经过很多步骤,从数据到RAG。RAG看上去简单但很多公司都做不好,需要对底座模型有理解。
Keith:可以理解为它解决了三个问题:第一是全新事物出现要做什么,第二是怎么做,第三是用什么工具做。这就像假如全球突然变冷了,我们东北人都可以成为埃森哲,因为可以告诉大家冬天要做什么,准备什么样的秋衣秋裤,要准备暖气片,要冬储大白菜等等。
《硅谷101》:那从投资角度看,是不是这个阶段所有做中间服务、建设基础设施的ToB公司,做服务的公司,做基础架构的公司更有价值?
Jonathan:是很有机会的。比如Fireworks、Lepton这样的公司,做GPU的Lambda,还有做数据的,包括Keith这样的公司。从投资人角度,我们把这些都放在基础设施里面。技术设施很复杂,简化下就是各种工具。
图源:Pixabay
但他们不改变生态,不会大大降低应用层的门槛。最好是底座大模型把这些事情都做了。这就是所谓交钥匙工程,OpenAI就是往这个方向走的。他们也都在做Framework、算力优化等。
在今天生态没完全打开的情况下,这些点状工具都很有价值,但风险也比较大。因为整个技术栈都不清晰,大家都在互相重叠竞争。现在还是很早期,就像Keith说的是两个月的baby。
《硅谷101》:在判断这些中间层的ToB公司时,你觉得最核心的几点能力是什么?
Keith:我感觉刚才Jonathan已经把整个链条讲得很清楚了。做基建从工程角度是最难的。但解决了最难的问题之后,在语言模型时代往上走一层反而容易。难的是选择一个底层模型很难走进去的赛道,在这个赛道上把它做到最好。对我们来说语言模型不是目标,但是它是很重要的工具。我们做的事我们认为是语言模型永远都解决不了的。
《硅谷101》:这还是需要对垂直行业的深度理解,和基于扎实的工作建立起来的基本功。
Keith:需要对工程的理解要远远胜过对语言模型的理解。
Jonathan:对。而且基础设施的一个很强的可能性是找到一个可以交钥匙的点,在某个垂直场景里面成为一个操作系统。虽然不能一下变成浏览器或iOS,但可能在某个垂类里面成为一个iOS。但想做一个非常泛的操作系统是有难度的。不过可以探索这条路,这样跟底座的关系也比较容易切分。因为底座模型都想成为通用平台,不会在特别垂直的领域深耕,他们想做AI+所有东西。所以这块是有机会的。