宿敌对决!OpenAI & Anthropic 首席产品官万字访谈:“现在的模型并不是受限于智能水平,而是受限于评估方法”

企业
2024 11-12 11:48:19
分享

文章来源:AI科技大本营

图片来源:由无界AI生成
图片来源:由无界AI生成

译 | 王启隆

视频链接 | youtube.com/watch?v=IxkvVZua28k

出品丨AI 科技大本营(ID:rgznai100)

作为世界上最强大的两个 AI 模型背后的产品负责人,是一种什么样的体验?

OpenAI 的产品负责人 Kevin Weil 在最新访谈中吐槽:“真希望我能提前 60 天知道要发布什么。” 而 Anthropic 的产品负责人 Mike Krieger 在他身旁补充道:“以前每逢苹果 WWDC 开发者大会,我们都会忐忑不安:苹果推出的新功能会成为新机遇,还是会打乱我们的全盘计划?

2024 年,生成式 AI 的竞争格局愈发清晰:OpenAI 前临 Meta、后逢谷歌,外有国产大模型虎视眈眈,内部还外流了不少员工到初创公司。如今,OpenAI 最强劲的对手莫属 Anthropic,ChatGPT 与 Claude 的角力也进入了白热化阶段。

二者不仅在技术实力、人才储备上势均力敌,在商业化道路上也渐行渐近:比方说,Anthropic 预计 2024 年底的年度经常性收入(ARR)将达到 10 亿美元,这一增长轨迹仅比 OpenAI 晚 18 个月。此外,就在 Anthropic 推出能像人类一样使用计算机的突破性功能之际,OpenAI 也在加紧开发新产品,瞄准复杂软件编程任务的自动化。

近日,两家公司的首席产品官(CPO)——OpenAI 的 Kevin Weil 和 Anthropic 的 Mike Krieger 在 Lenny's Podcast 频道与投资人 Sarah Guo 进行了一场播客访谈进行了一场罕见的对话,涉及了多个引人深思的观点:

  • 关于当前模型的局限性:“现在的模型并不是受限于智能,而是受限于评估。它们实际上可以做得更多,在更广泛的领域中更加准确。”
  • 对产品经理角色的新认知:“到了 2024-2025 年,构建 AI 驱动功能的产品经理的工作越来越像研究产品经理,而不是传统的产品经理。功能质量现在完全取决于你在评估和提示方面的水平。”
  • 展望 AI 的未来发展:“主动性和异步是两个关键词。模型将变得更主动,在你授权的情况下,它会监控你的邮件,发现有趣的趋势,为你的会议做准备;同时它也会更异步,可能会说'我需要思考一下,大约一个小时后给你答复'。”
  • 对用户适应能力的惊叹:“ChatGPT 才发布不到两年,当时刚出来时确实让所有人震惊。但现在如果要我们回去用最初的版本,大家可能会说'这也太笨了'。12 个月后,我们可能会说'真难相信我们居然用过那么原始的东西'。”

两位产品负责人之间既有竞争关系,又能坦诚交流,这种微妙氛围之下,到底还带来了多少精彩内容呢?CSDN 精编整理了这场对话的全部内容,下文将尽数放出。


AI 产品经理和以往有什么不同?

主持人:大家好!

Kevin Weil:Sarah,AI 投资领域的女王——(起手就是彩虹屁)

主持人:请别这么称呼我——不过,很高兴能和你们相聚。我原先给这场对话准备了两个方案:第一个想法是来场产品对决,毕竟你们手里都握着代码发布的最高权限。我本想说:“来吧,把未来半年到一年要发布的所有产品都透露出来,管它什么内部规定!” 第二个方案则是一起重新设计 Instagram,因为你们两位都是 Instagram 的老员工。结果这两个提议都被否了。

所以,现在我们只能像朋友间聊天一样随意交流了。虽然内容可能不够劲爆,但我其实特别期待听听你们的想法。对你们来说,现在的职位都算是一个新尝试。Kevin,先从你说起吧。你之前经历过很多不同又有意思的岗位,当你接受这个职位时,身边的人是什么反应?

Kevin Weil:大家都很兴奋。我觉得这是最有意思、影响力也最大的职位之一。需要搞清楚的事情实在太多了。这也是我做过的最具挑战性、最让人着迷,也最容易让人失眠的产品岗位。它既要面对普通产品工作的所有挑战——比如搞清楚产品受众、解决什么问题等等。但最大的不同在于:通常做产品都是在已知的技术框架下工作,你很清楚手上有什么牌可以打。但在 AI 这个领域,每隔两个月,计算机就会展现出前所未有的新能力。每当出现新能力,你就得思考它会给产品带来什么变化,而答案往往是“影响会非常大”。能在第一线见证AI的发展真的很让人着迷。反正我是玩得不亦乐乎。

Kevin 的履历:Instagram 产品副总裁、Twitter 产品高级副总裁,现在是 OpenAI 首席产品官

主持人:Mike,你又是怎么看的?我还记得当时听到你的新闻,第一反应是 Anthropic 居然能说服 Instagram 的创始人去一个已经存在的项目工作。

Mike Krieger:人们的反应主要有三种:了解我的人会说“这很适合你,你一定会玩得开心”;普通朋友会说“干嘛呢?你又不是非要工作,为什么要这么做?”——但熟悉我的人都知道我根本闲不住;第三种是“(Anthropic)原来还能请到Instagram的创始人”,这反应也挺有意思。

说实话,能吸引我的公司可能本来就只有那么几家。所以反应确实因人而异,取决于对我的了解程度,以及是否见过我半退休的状态——那种状态其实也就维持了六周吧,很快我就在琢磨“接下来该干点什么”了。

Mike 的履历:Instagram 联合创始人 & 首席技术官(CTO),现在是 Anthropic 首席产品官

主持人:前不久我们一起吃饭的时候,看到你谈起学习企业级产品时那种孩子般的兴奋劲儿,让我印象深刻。企业级产品的哪个方面给你带来了最大的惊喜?是因为现在服务的不再是普通消费者,还是因为现在到了一个以研究为导向的机构工作?

Mike Krieger:你提到的这两点确实都很新鲜。我 18 岁时曾经立下一个很“少年心性”的誓言:每一年都要尝试不同的事情,不要重复前一年的工作。这也是为什么有时候有人说“要不要再做个社交产品”时,我会觉得——首先,你的标准可能有点走样了,其次,这感觉太像在重复老路。

企业级产品确实很有意思。比如说,打造这种产品的反馈周期更像是投资,周期更长。你可能觉得初次沟通很顺利,对方也很感兴趣,结果发现这还要经过采购流程,可能要半年才能真正部署使用,才知道是否真的合适。所以要适应这种节奏,有时候我会着急“这怎么还没上线?”,然后他们会说“Mike,你才来两个月,这些东西还在各个副总裁那里审批呢,慢慢来。”

适应这种不同的时间节奏确实需要一段时间。但有趣的是,一旦产品部署完成,你就能和客户直接沟通,打电话问他“"效果怎么样?好用吗?” 而面对普通用户时,你只能做数据分析,看整体情况。虽然也可以找几个用户聊聊,但他们没有足够的利益驱动来告诉你哪里做得不好,哪里做得好。这种差异带来了完全不同但都很有价值的体验。

主持人:Kevin,你之前做过这么多不同类型的产品,以前积累的产品直觉在 AI 领域还管用吗?

Kevin Weil:关于企业级产品,我还想补充一点。这里面的有趣之处在于,产品本身并不是全部。你面对的是决策者,他们有自己的目标。你可能做出了世界上最好的产品,公司里的所有人都愿意用,但这并不一定足够。

最近和一个大客户开会的时候,他们说“一切都很好,我们很满意。但有一个问题:所有新功能都得提前 60 天通知我们。”

我当时心想:“我自己都不知道 60 天后会发布什么。”

所以,情况确实很不一样。有趣的是,在 OpenAI,我们同时在做面向消费者的产品、企业级产品和开发者产品。所以我们是在同时应对这些不同的场景。

说到直觉,我觉得在大约一半的工作中是管用的。当你对产品有了清晰认识,比如快要发布高级语音模式或者 Canvas 时,在做最后的调整,理解目标用户和具体问题时,这时候直觉是有用的,因为这更像是常规产品发布的收尾工作。但这些项目的起始阶段完全是另一回事。

因为,经常会出现一些我们完全没有预料到的能力。当你在训练新模型时,你可能觉得它会具备某种能力,但研究团队也说不准,其实没人能完全确定。所以这就像在迷雾中摸索,因为这些都是模型涌现出来的特性。你不知道它是否真的能用,也不知道它的表现会是 60% 水平,还是 90% 水平,甚至是能达到 99%。而当某个功能只有 60% 的成功率时,你要构建的产品就会和 90% 或 99% 成功率时完全不同。所以你只能等待。

我不知道 Mike 是否也有这种感觉,就是会时不时去找研究团队问问:“进展如何?模型训练得怎么样了?有什么新发现吗?” 

然后他们会告诉你:"这是研究工作,我们正在努力。" 他们自己也在摸索。我们都在同时探索这些未知领域。这确实很有趣,因为你是在和团队一起发现新事物,但过程确实充满了不确定性。

Mike Krieger:这让我回想起在 Instagram 的经历。那时每逢苹果WWDC开发者大会,我们都会忐忑不安:“苹果的新功能会成为我们的机遇,还是会打乱我们的全盘计划?现在在 AI 领域的感觉也差不多,只不过颠覆性的变化不是来自外部,而是来自公司内部的研究突破。这种体验很特别,每次研究团队有了新进展,我就知道产品路线图又要推倒重来了。

编写评估标准将成为产品经理的一项核心技能

主持人:Kevin 刚刚形容得很生动——“在迷雾中窥探新能力”。那么,在你们无法确切预知未来的情况下,还能做规划吗?在发现新功能应该加入产品时,你们的迭代过程是怎样的?

Mike Krieger:我觉得在智能方面,你能大致看出它的发展方向,从而预见你会想用模型做什么,然后围绕这个开始构建产品。

我们可以从三个方面来看:首先是智能本身,虽然不可完全预测,但至少有一个可以观察的发展轨迹。

其次是从产品端决定投入的能力,并与研究团队一起进行微调。比如开发 Cluade 的 Artifacts 功能时,我们投入了大量时间与研究团队合作——我想 OpenAI 的 Canvas 也是一样的流程,对吧?总会有一个共同设计、共同研究、共同微调的过程。这也是在这家公司工作、在这里做设计的一大特权。

第三点就是能力前沿的突破,对 OpenAI 来说可能是语音模式,对我们来说是刚发布的计算机使用(Computer Use)功能,你在设计的时候会想:“60% 的成功率?好吧,可以接受。” 所以我们会尽早让设计师参与进来,但要明白的是,这并不是在下一个稳赢的赌注。研究的目的是为了通过学习积累经验,而不是每次都要做出完美的可发布产品。你的成果可能是一些概念验证或者能激发产品想法的信息,而不是一个完全可预期的产品开发过程,不能指望研究一到位就万事大吉了。

Kevin Weil:研究工作确实很有意思,至少部分研究是非常面向产品的,特别是在后训练阶段,就像 Mike 刚刚所说说的。但有些部分确实更像学术研究。比方说,有时候你会突然听说某个新能力,可能是在开会时偶尔提了一嘴,“要是能做到这个就好了。”

结果研究团队的人会说,“哦,这个我们三个月前就能做到了。”

然后我们就会追问,“真的吗?具体是什么情况?”

他们会说,“我们当时不知道这很重要,所以现在在研究别的东西了。” 这种意外惊喜时有发生,这也让我们在投资决策时要多加考虑。

主持人:如果一个模型在某项任务上的成功率是 60% 而不是 99%,你们觉得这样的模型还能用来做什么?很多任务的成功率确实更接近 60%,但任务本身很重要、很有价值。你们内部是如何评估任务进展的?在决定是靠产品设计来优雅处理失败情况,还是等待模型本身变得更好这个问题上,你们是怎么权衡的?

Kevin Weil:实际上,即使成功率只有 60%,很多事情也是可以做的。关键是要专门为这种情况设计产品。你需要考虑到人类会更多地参与其中。比方说 GitHub Copilot,这是第一个让人们意识到 AI 不仅能用于简单问答,还能创造实际经济价值的产品。我不确定它具体是基于哪个模型构建的,但肯定是好几代之前的版本了。

主持人:应该是 GPT-2 吧,那可是个相当小的模型。

Kevin Weil:即便那时的模型在编程相关的任何方面都称不上完美,它依然能创造价值。因为如果它能帮你完成一部分代码,那也是省下了你亲自编写的时间,你可以在它的基础上修改。这种方式是完全可行的,我们会看到类似的情况发生在向智能体和更复杂任务的转变上。虽然可能做不到完美,但如果能帮你节省 5 到 10 分钟,那也是有价值的。更重要的是,如果模型能够意识到自己在哪些地方没有把握,能够主动询问“这部分我不太确定,你能帮我确认一下吗”,那么人类和模型的配合就能达到远超研究时预计的 60% 效果。

Mike Krieger:说到这个神奇的 60% 数字——这其实是我刚才随口编的。不过这确实说明了一个问题,这可能就是 AI 的及格线。实际上,模型的表现往往是很不均衡的,在某些任务上表现出色,在其他任务上则相对较差。这种特点其实也很有帮助,比如当我们和客户进行试点项目时,经常会在同一天收到截然不同的反馈。

有的客户会说“这简直解决了我们所有的问题,我们试了三个月都没解决的事情,现在一下就搞定了”,而另一家可能会说“差得远了,还不如其他模型好用。”这种反差让我们保持谦逊,你可能有自己的内部评估标准,但真正到了实际应用场景,就像你精心设计了产品,放到一个用户面前,突然发现“哦,原来是这样”。在模型开发中也会遇到类似情况,我们尽可能想要建立可靠的评估机制,但客户有他们自己的数据集、独特的使用方式和特定的提示方法。这就揭示出一个现象:当产品真正投入使用时,效果往往呈现双峰分布。

Kevin Weil:不知道你有没有这种感觉,我觉得现在的模型并不是受限于智能水平,而是受限于评估方法。它们实际上可以做得更多,在更广泛的领域中表现得更准确。关键是要教会它们,它们已经具备了这样的智能,你需要教它们一些特定领域的知识,这些可能不在它们最初的训练数据中,但只要方法得当,它们是完全可以掌握的。

Mike Krieger:没错,我们经常遇到这种情况。大约三年前有很多令人兴奋的 AI 部署,现在那些团队会说“我们觉得新模型更好,但我们从没做过正式评估,因为那时候我们只顾着发布炫酷的 AI 功能了。” 最难的部分是要让人们退后一步,思考“什么样的结果才算成功?你究竟想解决什么问题?” 而且通常到这种时候,产品经理已经换人了。然后新接手的人需要重新思考:“这个功能究竟应该是什么样子?让我们设计一些评估标准。”

我们的经验是,Claude 其实很擅长编写评估标准,也能胜任评分工作。这样我们就能自动化很多评估工作,但前提是你得先明确什么样的结果才算成功。然后我们就可以一起迭代改进。往往这就是把任务从 60% 提升到 85% 成功率的关键。

顺便说一句,如果你来 Anthropic 面试——也许你应该来看看,也许你对现在的工作很满意,但没关系,我就是提一嘴(现场挖人)——你会发现我们面试流程中有一个环节就是让候选人把一个粗糙的评估提示改进成高质量的版本,我们想看到你的思考过程。但市面上具备这种能力的人才还很缺乏。如果说有什么是我们最想教给别人的,可能就是这个。

Kevin Weil:是的,编写评估标准。我觉得这将成为产品经理的一项核心技能。

Mike Krieger:说点内部的有趣变化吧,可能有点像是在讲八卦。我们内部有专门负责模型能力和开发的研究产品经理,也有负责产品界面的产品经理和 API 产品经理。但我们最终意识到,到了 2024-2025 年,构建 AI 驱动功能的产品经理的工作越来越像前者而不是后者。

比如我们最近发布了代码分析功能,现在 Claude 可以分析 CSV 文件并为你生成代码。产品经理可能完成了 80% 的工作,然后不得不把项目交给那些懂得如何编写评估标准、进行模型微调和优化提示词的产品经理。我们发现这其实就是同一个角色,因为你的功能质量现在完全取决于你在评估和提示方面的水平。所以产品经理这个角色的定义正在发生融合。

Kevin Weil:确实如此。我们也专门设置了一个训练营,让每个产品经理都学习如何编写评估标准,理解好的和差的评估之间的区别。当然我们还在不断完善这个过程,需要持续迭代和改进,但这确实是开发优质 AI 产品的关键所在。

主持人:对于那些想在 AI 产品开发领域发展的人来说,我们显然没法都去参加你们的训练营。那么这些人该如何培养对评估和迭代循环的直觉呢?

Kevin Weil:我觉得实际上可以通过使用模型本身来学习,就像你说的,你可以问模型“什么是好的评估标准?” 给它一个具体场景,让它帮你写一个样例评估,它往往能给出相当不错的建议。

Mike Krieger:没错,这确实很有帮助。还有一点,如果你听听 Andrej Karpathy 以及其他在这个领域深耕多年的专家们的建议,没有什么比深入研究数据更重要。

人们经常会陷入这样的思维定式:“根据这些评估标准,新模型只是从 78% 提高到了 80%,甚至性能下降了,所以不值得迭代”。这时我会说:“我们能具体看看它在哪些案例中表现不好吗?” 然后才有可能会发现另一种情况,即实际上新版本更好,只是评分标准还不够准确。

让我说点 Anthropic 内部的趣事。我们每个模型发布时都会有模型卡片,而看这些评估结果时,我们有时会想“这个答案可能不太符合人类的表达方式”或者“这个数学计算似乎有点问题”。想要在评估中得到 100 分真的很难,因为评分本身就是个很有挑战性的工作。所以我建议大家要去看看实际的回答,即便是样例也要认真分析“也许我们应该调整评估标准”或者“虽然评估标准很严格,但整体感觉还不错”。深入了解数据、真正掌握数据的本质,这一点至关重要。

Kevin Weil:随着我们向更复杂的任务和智能体方向发展,这个问题会变得更有意思。比方说,假如有一个评估测试的内容是“我给你一个数学题,你能准确计算四位数的加法”,人类评审员很容易判断对错。但当模型开始处理更长篇、更模糊的任务,比如“帮我在纽约订一个酒店”,那什么才算是正确答案?这个问题很大程度上需要考虑个性化因素。如果你让两个完全称职的人来完成这个任务,他们很可能会给出不同的答案。所以评分标准必须变得更加灵活。

Mike Krieger:我想我们两家实验室对 AI 能力的发展都有类似的认识框架。就像职业发展一样,随着时间推移,模型能承担的任务越来越复杂,周期越来越长。评估标准也需要像绩效考核那样演进——最近公司正在做绩效考核,所以我不自觉地会用这个比喻——我们不能再用简单的对错来评判模型了。AI 达到了称职员工的水平吗?完成任务的速度超出预期了吗?它能发现一些我们都不知道的新东西吗?评估标准需要更全面,就像我们评价一个人的表现一样。

Kevin Weil:更别提这些评估标准都是由人来制定的。而模型已经达到了这样一个水平:在某些任务上经常能胜过人类。人们有时候会更喜欢模型给出的答案,而不是人类的回答。

颠覆我们过去 25 年使用计算机养成的习惯

主持人:说得好。那看来评估能力确实是关键。除了要花时间研究这些模型、学习编写评估标准之外,你觉得产品人员现在还需要培养哪些技能?你们都在这条学习曲线上,有什么经验可以分享?

Mike Krieger:我觉得一个被低估的技能是用这些模型来做原型设计。我们最优秀的产品经理就是这么做的:当我们陷入关于 UI 设计方案的漫长讨论时,在设计师还没来得及打开 Figma(一款 UI 设计协作工具)之前,我们的产品经理或工程师就会说:“我已经让 Claude 生成了这两种 UI 方案的对比,我们先来看看效果。” 我觉得这种提前设计原型的方式很棒,然后我们会基于此就能继续深入探讨,从而能比以前更快地尝试更多可能性并进行评估。所以,掌握如何使用 AI 工具来快速制作原型,我认为这是一项非常重要的技能。

Kevin Weil:说得对。我还觉得,这也会推动产品经理更深入地了解技术细节。这种情况可能会随着时间而改变,就像如果你在 2005 年做数据库技术,可能需要以完全不同的方式深入理解技术细节,而不像现在做数据库技术那样,已经有了很多抽象层,你可能不需要了解所有底层原理。当然不是说每个产品经理都要成为研究员,但是对技术有基本的认识,花时间学习这个领域的术语,对这些技术的工作原理建立直觉,我觉得这些都会带来很大帮助。

Mike Krieger:还有一个重要的方面是,当你在处理一个随机的、不确定的系统时,评估标准只是我们最好的尝试。但在一个你无法完全控制模型输出的世界里做产品设计时,你需要考虑:怎样设计反馈机制来形成闭环?如何判断模型是否偏离了正确方向?如何快速收集用户反馈?应该设置什么样的安全护栏?如何了解它在整体层面的表现?这变成了一个需要理解智能体在众多用户、大量输出中的整体表现的问题,需要产品经理掌握完全不同的技能。这不像传统的“点击按钮没法关注用户”这类容易界定的问题。

Kevin Weil:没错。也许五年后当人们都习惯了这种模式,情况会有所不同。但我觉得我们现在都还在适应这种非确定性的用户界面。当然,不是指在座的技术从业者,你们都在研究技术产品,而是那些使用 AI 的普通用户,他们肯定还不习惯。这完全颠覆了我们过去 25 年使用计算机养成的习惯。通常情况下,相同的输入会得到相同的输出,但现在不是这样了。这不仅需要我们在构建产品时适应,还要站在用户的角度思考这意味着什么。这里面既有挑战,也有独特的优势。所以思考如何利用这些特点变得很有趣。

Mike Krieger:我想起在 Instagram 工作时期,我们会持续进行用户研究。每周邀请不同的用户来,只要有新原型就让他们试用。在 Anthropic 我们也在做类似的事情。但有趣的是,以前在用户研究中让我感到惊讶的是用户如何使用 Instagram,他们的使用场景或对新功能的反应。而现在,一半的惊喜来自用户的反应,另一半来自模型在特定场景下的表现。有时你会感到欣慰:“太好了,它(AI)理解得很准确!” 这几乎会让我们产生一种自豪感,尤其是在用户研究环境中看到它反应得当的时候。当然也会有挫折感,比如“糟糕,它完全理解错了用户意图,现在已经说了十页无关的内容了。” 这也是一个学习放手的过程,要接受在这种环境中各种意外情况的发生。

主持人:你们都曾经负责过那些迅速教会数亿人新行为模式的消费者产品。而现在这些 AI 产品的发展速度似乎比那还要快,对吧?如果连产品经理和技术人员对如何使用它们都没有太多直觉,你们是如何在当前的规模上教育最终用户使用这些反直觉的产品的?

Kevin Weil:说到这个,人类适应新事物的速度真的很神奇。前几天我和人聊天,他们在讲第一次乘坐 Waymo(无人驾驶出租车)的体验。他们最开始 30 秒还在担心:“天哪,小心那个骑自行车的!” 5 分钟后就开始感叹,“哇,我真的在体验未来。” 再过 10 分钟,他们就已经在车里百无聊赖地刷手机了。

看看我们适应新技术的速度有多快。明明那些东西放在以前就像魔法一样。ChatGPT 才发布不到两年,刚出来的时候确实让所有人都震惊了。但现在如果让我们回去用最初的版本,应该是 GPT-3.5 吧——

主持人:那简直是噩梦。

Kevin Weil:对,现在让所有人去用 GPT-3.5 都会说:“这也太笨了吧!” 所以你看,我们现在正在开发的东西,还有 Mike 你们正在开发的东西,现在看起来都像魔法一样神奇。但 12 个月后,我们可能会说“真难相信我们居然用过那么原始的东西。” 迭代的速度就是这么快,但最让我惊讶的是人们适应的速度。虽然我们一直在努力帮助用户跟上发展,但实际上人们也充满热情,他们理解世界正在朝这个方向发展。我们要做的是确保这个转变尽可能顺利地进行。

Mike Krieger:我们正在改进的一个方面是让产品本身具有教育功能,这听起来很直白。我们之前没这么做过,但现在我们想让 Claude 更多地了解自己。它的训练数据中已经包含了“Claude 是 Anthropic 开发的 AI”这样的基本信息。但现在我们会直接告诉它最近新发布的功能以及使用方法,因为用户经常会问这个问题。这也是来自用户研究的发现,他们会问“这个功能怎么用?” 然后 Claude 会说,“我不知道,你可以去网上搜索看看?”——这显然一点帮助都没有。所以我们现在真的在努力让它掌握最新版本信息,让它了解自己都会什么。

这是一个正在改进的过程。但看到现在的效果很令人振奋,比如它能给出具体的文档链接,告诉你“具体是这样操作的”,“我来一步步帮你”,“这里可能需要调用 Artifacts 窗口,我来帮你解决”。这些系统实际上很擅长解决 UI 问题和用户困惑。

注:笔者经常用 Claude,所以对这段非常有共鸣。以前如果想让 Claude 调用 Artifacts 窗口,它根本不能理解命令。但现在可以让 Claude 在任意场合调用任意数量的 Artifacts,不仅提升了体验,还改变了我的使用习惯。

让 LLMs 模仿人类的思维

主持人:在企业环境中推动变革管理时,情况会有所不同,因为企业已经有既定的工作方式和组织流程。那么你们是如何帮助整个组织理解这些提升生产力的改进,以及可能带来的其他变化呢?

Mike Krieger:企业市场确实很有趣。即便一些产品已经拥有数百万用户,但其中的重度用户主要还是那些热爱技术的早期采用者,其他则是长尾用户。但当你进入企业环境,你需要为整个组织部署产品,而这个组织中往往有大量非技术人员。我认为这其实很棒,因为你可以看到技术基础并不扎实的用户第一次接触基于聊天的大语言模型,同时你也有机会组织培训课程,提供教育资料。我觉得我们需要从这些经验中吸取教训,思考如何教育下一个亿级的用户使用这些界面。

Kevin Weil:而且企业内部总会有一些技术达人,他们非常乐意指导别人。比如在 OpenAI,我们有可定制的 GPT(Custom GPTs),经常会看到组织内部创建几百上千个不同的定制版本。这为那些技术爱好者提供了一个绝佳机会,让他们能为团队创造实际价值,同时也让 AI 的应用变得更加平民化。这是个很好的切入点 —— 找到这些技术领军人物,他们自然而然就会成为组织内部 AI 应用的布道者。

主持人:说到这个我必须问问 Mike,怎么玩转你们最新的“计算机使用”功能(Computer Use)?这项技术太惊艳了,你们内部是怎么实践的?

Mike Krieger:就像刚刚 Kevin 之前说的,内部觉得准备好了,我们就直接发布。这个功能其实是比较晚才确定下来的。虽然我们确信它很不错,但也不想就这样贸然发布。它还处于早期阶段,还会犯错,但我们一直在思考怎么把这件事做好。

最有趣的使用案例发生在我们的 beta 测试时期。有人说:“我想试试看能不能让它帮我们订披萨。” 结果它真的做到了。当达美乐的披萨送到办公室时,想到这完全是 AI 订的,那种感觉真的很特别。虽然我们心想:“好吧,虽然是达美乐,但起码是 AI 订的。(达美乐的网络订阅服务是集成了 API 的,所以让 AI 订达美乐其实难度很低)” 不过它确实点了不少披萨,可能比我们预期的量还要多。

还有一个有意思的早期应用是 UI 测试,这让我想到在 Instagram 时期我们基本上没有 UI 测试,因为它们很难写,而且很容易出问题。经常是你移动了一个按钮的位置,按道理测试应该通过,这就是这次更新的重点,但测试却失败了,然后你还得重新做一遍截图。但早期迹象表明,计算机使用功能在检查“它是不是按预期工作?是不是完成了你想要的功能?”这方面特别在行。我觉得这很有意思。

我们还在探索一些涉及大量数据处理的智能体任务。我们正在和支持团队、财务团队合作,因为这些表格迟早要自动填写。现在的问题是,数据经常被困在不同的系统里,如果想把它们转移到另一个系统,就需要人工时间。我在讨论计算机使用功能时总喜欢用“枯燥工作”这个词,意思就是说把那些枯燥的工作自动化,这样你就可以把精力放在创造性的工作上,而不是在那里点击三十次才能完成一件事。

主持人:再让我问 Kevin 一个问题。现在有很多团队在尝试用 OpenAI o1。这款模型显然能做更复杂的事情。此外,对于那些已经在应用中使用了 GPT-4 或类似模型的团队,显然不能简单地用 o1 替代,你能给我们一些指导建议吗?你们内部是怎么使用的?

Kevin Weil:在这里我要说一个很多人可能没注意到的重点。无论是我们的高级企业客户,还是我们内部团队,都不会简单地用一个模型解决问题。关键在于设计一个完整的工作流程 —— 让不同的模型基于各自的优势协同工作。比如说 o1,它在推理能力方面确实很强,但也有其局限性:需要较长的思考时间,不支持多模态输入,等等。所以你得清楚每个模型的特点,然后巧妙地把它们编排到一起。

主持人:能给大家解释一下,究竟什么是推理吗?

Kevin Weil:我想大家已经很熟悉预训练规模扩展的概念了。从 GPT-2 到 3、4、5,等等。你在预训练阶段投入越来越多的算力,这些模型就变得越来越“聪明”,或者说,它们掌握的知识越来越多。但这类 AI 更像是「系统 1 思维」(system 1),就是你问一个问题,它立即给出答案,有点像在做文本补全。

主持人:就像我现在问你问题,你必须马上回答。对,就是想到什么说什么,一个词一个词往外蹦,别想太多。

Kevin Weil:确实很神奇,对人类思维的理解往往能帮助我们理解这些模型是如何工作的。就像我说错了一句话很难纠正回来,模型也是这样。说回预训练这个话题,o1 实际上是通过查询时的处理来提升智能的一种新方式。不同于「系统 1 思维」,当你问我一个问题时,我不会立即给出答案,而是会停下来思考。就像我会做的那样,比如说让你解决一个数独题,或者纽约时报的连线填词谜题。你会进行分析、假设,用已知信息来验证或否定这些假设,然后基于这些继续推理。这就是科学突破产生的方式,也是我们解决复杂问题的方法。所以关键是要教会模型如何这样思考。

现在的模型会在给出答案前思考 30 到 60 秒。那不妨想象一下,如果它们能够思考 5 个小时或 5 天会怎样。这基本上是提升智能的一种全新方式。我们觉得我们才刚刚开始,可以说是处在这种新型推理方式的 GPT-1 阶段。但同样,你不会在所有场景下都用这种方式,有时候你问我一个问题,你不想等 60 秒,我就应该直接给你答案。所以我们最终会用不同的方式组合使用这些模型。拿网络安全来说,你可能会觉得这不太适合用模型,因为它们可能产生幻觉,在这个领域这似乎很危险。但你可以先针对特定任务微调一个模型,然后再微调模型使其对输入输出的要求非常精确,让这些模型开始协同工作。比如让一些模型负责检查其他模型的输出,发现问题时要求重试。

这就是我们在内部获得大量价值的方式:针对特定用例,设计模型之间的协作机制,让它们一起完成特定任务。这又回到了我们如何理解人类工作方式的问题,我们人类是如何完成复杂任务的?通常是不同的人,带着不同的专长,一起协作来完成一个困难的任务。

全新的人机交互范式

主持人:在结束之前,我特别想请你们预测一下未来——我知道现在 AI 发展太快,可能没人能看得太远——但告诉我你们能看到多远?比如说,半年或一年内,你们觉得会出现什么样的新体验?或者什么会成为主流?

Mike Krieger:我经常思考这个问题,让我提两个关键词。第一个是主动性,模型将如何变得更主动?一旦它了解了你,它会以一种恰当的方式(不会让人觉得毛骨悚然)监控你的邮件,因为你授权了它这样做。然后它可能会发现一些有趣的趋势,或者在你开始新的一天时,主动给你一个正在发生事件的摘要。“嘿,你下一个会议快开始了,这是你可能想要讨论的内容。我看到你要做这个演讲,我已经帮你准备了一个初稿。”这种主动性我觉得会非常强大。

另一个关键词是更加异步。我觉得 o1 在这方面做了很好的尝试,它会告诉你它打算做什么。你可以坐在那里等它,但你也可以说:“好的,它需要思考一会儿,我先去做点别的,待会儿再回来看看。”也许它还能在完成时通知你。在时间维度上的突破,既包括它主动告诉你一些你没有问的信息,我觉得这会很有意思,也包括在你确实问了问题后,它能说:“好的,我要好好思考一下,需要做些研究,可能还得问问其他人,然后我会给出初步答案,我会验证这个答案。大约一个小时后你就能收到我的回复。”

打破那些期待立即得到答案的限制,我觉得这会让我们能做一些更深入的事情。比如“我有个小项目计划,帮我把它完善一下”,或者不只是“我想改变屏幕上的这个东西”,而是“帮我修复这个 bug”,“拿着我的产品需求文档,根据这些新的市场条件调整一下”,“根据这三种不同的市场情况做相应的调整”。能够在这些维度上突破,这是我个人在产品层面最期待的发展。

Kevin Weil:我完全同意 Mike 的这些观点。我觉得模型将以指数级速度迭代升级,这也是所有这些功能得以实现的基础。另一个令人兴奋的方向是,模型将能够以我们人类互动的所有方式进行互动。现在你主要是通过打字和这些系统交流,就像我主要也是在 WhatsApp 上打字和朋友聊天,但我想通过语音和视频的方式和人交流。

我们最近发布了高级语音模式,我在韩国和日本出差时,经常会遇到完全没有共同语言的人。在此之前,我们一句话都说不了。但现在我可以说:“嘿,ChatGPT,我想让你当翻译。我说英语时,你用韩语说出来;当你听到韩语时,用英语告诉我。” 突然间,我就有了一个通用翻译器,可以进行商务对话了。这简直太神奇了。想想这能带来什么改变,不仅仅是在商务场合,想想如果你不用担心语言不通,人们去新地方旅行的意愿会有多大。你口袋里装着一个星际迷航式的通用翻译器,这感觉太棒了。我觉得这样的体验很快就会变得普遍,虽然现在看来还很神奇,但再加上 Mike 刚才说的那些功能,前景真的很令人兴奋。

主持人:说到这个,自从语音模式发布以来,我最喜欢的消遣之一就是看 TikTok 上的视频——这暴露了我的年龄——现在有一类视频专门记录年轻人和语音模式聊天,倾诉心事,用各种方式使用它,看得我直呼哇塞。以前我们经常说“数字原生”或“移动原生”,而现在虽然我很相信 AI 的前景,但我根本想不到要用这种方式和它互动。反观 14 岁的孩子们会觉得“AI当然应该能做到这个了”。我很喜欢看到这种现象。

Kevin Weil:你给你的孩子们用过吗?

主持人:还没有,我的孩子才 5 岁和 7 岁,Kevin 认识他们。所以这事儿还得慢慢来。

Kevin Weil:我的孩子 8 岁和 10 岁。在车上他们会问“我能和 ChatGPT 说话吗?”我说可以。然后他们会问一些特别天马行空的问题,跟它进行各种奇怪的对话。但他们完全不觉得和 AI 聊天有什么不自然。

主持人:说到这个,当年我父母给我读书时,能让我选书就已经很幸运了,不然就是我爸说“来,我们读读这篇我感兴趣的物理研究。” 但现在,我的孩子不知道是不是因为在硅谷长大的缘故,他们会说:“妈妈,让 AI 生成图片。我要讲一个关于这个场景中龙和独角兽的故事,我要告诉你具体要怎么发生,你要实时创造出来。” 我的反应是,这要求可真高啊。

总之,这确实是一种全新的创造娱乐的方式。说说看,你们在自己的产品中最近看到的最令人惊讶的使用行为是什么?

Mike Krieger:从产品角度来看,这不仅仅是一种使用行为模式,更是一种全新的人机交互范式。随着我们推出新一代模型,用户开始深入理解 Claude 的特性变化,这种互动逐渐超越了简单的工具使用,更像是在建立某种程度的情感连接。比如当模型表达“这个版本我在推理能力上提升了,你可能会感受到些许交互风格的改变”时,用户会像对待朋友一样去适应和理解这种变化。这让我意识到,我们不只是在开发一个产品,而是在打造一个具有认知能力的智能体。这个过程让我对用户心智模型的演变有了更深的洞察。

Kevin Weil:确实,模型的行为特征已经成为产品设计中的核心要素。这也引发了一系列深层次的问题:我们应该在多大程度上对模型进行个性化定制?是让 OpenAI 维持统一的交互风格,还是让每个模型保持其独特性?更有趣的是,用户可能会基于模型的“性格特征”来选择使用偏好,这其实很符合人类选择社交对象的自然倾向。

最近我们在 Twitter 上做了个有趣的实验:让用户询问模型“基于我们的历史互动,你如何描述我这个人?” 模型会通过分析交互记录生成个性化的用户画像。用户对这种深度个性化体验的反响,让我们看到了 AI 个性化发展的无限可能。

The End
好一二三网hao123.biz网站成立于2007年3月21日,网站关注最实时的文章,教育资讯,教育录取,高考分数线信息,企事业单位招聘资讯