文章来源:AI鲸选社
2023年的这时候,很多人都在讲,所有的产品都值得用AI再做一遍。
前阿里的CEO张勇说:“面向AI时代,所有产品都值得用大模型重新升级。”
百度的CEO李彦宏说:“百度还要做第一个把全部产品重新做一遍的公司,用 AI 原生的思维重构产品。”
不过,这些都是大佬们发表在去年的话。在国内大厂卷了一年后,大模型的概念炒作阶段已经过去,随着AI升级后的效果显现,人们对大模型技术逐渐祛魅,大佬们开始思考,AI的机会到底在哪。
尤其近期有媒体报道,被称为“AI六小虎”的6家中国大模型独角兽(智谱、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰)中,已经有两家逐步放弃预训练模型,业务重心转向AI应用,但产品端并没有见多大动作。
李彦宏也冷静了下来,他开始思考大模型的能力如何在业务和场景中应用。“简单机械地往产品中集成大模型的能力,意义不大,纯属过度焦虑。”回望去年他曾发表过的言论,今年的这句话似乎有些反转,但停下来思考技术如何服务于业务场景,确实是回到了正确的道路。
的确,这次AIGC的浪潮可以应用在非常广泛的领域,如果AI真的如我们想象的那样无所不能的话,那这些领域可能早就出现现象级的AI产品了。
但事实却是,在现有AI能力的支撑下,可能只有10%的产品值得用AI再做一遍,其他90%的产品加了AI后,90%的人尝鲜后就会忘记它,还有一部分人甚至会对AI产生反感,以及觉得AI很鸡肋。
如果我们把AI产品分为两类,一类是AI native的产品,像豆包、通义千问、文心一言这类纯AI的对话类产品,这类产品如今已有了千万级用户量级的产品诞生,但和移动互联网时代的微信QQ 10亿+的用户量级还差得很远,留存率也是一个非常大的问题。
这类产品很受关注,但另一类AI产品也同样值得关注,就是在原有的业务上如何利用AI做赋能,让移动互联网时代的 APP 能利用 AI 焕发新生。
最近新出的支小宝,就是这类产品的典型代表,它刚出现时让不少人眼前一亮,用AI提升服务的质量的想法也很好。但细究整个操作路径,改善有限。它本应该帮助人节省时间,提高效率,但支小宝有些能力反而拉长了原来支付宝的使用链路。
举例,如果一个用户想坐公交,需要刷公交码,那他可以用手机的NFC直接刷码上车,不需要打开任何App就完成了这个操作。即便是没有NFC,也可以把交通码直接放在桌面,一键点开,耗费时长不到2s。但如果我用支小宝坐公交,我需要把APP打开,点开对话,再输入指令“我要坐公交”,等待2-3s加载出来,这个过程至少需要5s以上。
其次,从支小宝的AI能力上来看,大部分功能并未发挥出 AI 的能力,只要跳出产品定义好的指令模板提问,支小宝很快就会出现难以识别用户意图,回答无意义或瞎答的情况。现在大部分的功能看起来是通过产品侧,定义某个问题的回答模板,然后调用之前支付宝已支持的接口。
拿【查下我的社保】来举例,其实就是把原来支付宝社保小程序那个接口调了过来,然后app自动读取了你支付宝的个人信息,通过你的个人信息决定调哪个城市的小程序,如果是北京就会调【京通】,然后你就能在支小宝里进入这个小程序了。这个和你在支付宝里搜【社保】显示的内容没有任何区别,这里到底哪里用到了AI能力,好像也没有用到。
不管怎么说,支小宝给AI服务生活开了个好头,并且造势造得很大,这点还是勇气可嘉的。不像其他的一些我们熟知的APP,大多都还在内测阶段,产品经理们把AI助手的入口埋得很深,生怕用户发现了它们的能力还很弱。
生活领域,头部电商APP也在努力寻找AI的落地场景。淘宝在去年九月就上线了智能助手【淘宝问问】,但目前我只在搜索栏找到了它的入口,目前主打的功能是辅助用户购物决策,这的确是一个很好的切入点,但目前给的建议很空泛,对用户几乎产生不了价值。
例如,我提了一个“推荐几款冲锋衣”的问题,小淘给我推荐了几个冲锋衣品牌的特点,想看具体的还得点击跳转。后面缀了一个千元以内的冲锋衣排行榜的卡片,但这并不是我想要的价位。说明AI还不能根据用户的消费习惯特征进行推荐,这一点不如直接在淘宝的页面搜索关键词再做筛选,还能更直观地看到详情图和价格。
同为电商领域扛把子的京东也在疯狂找AI购物助手的应用场景,和淘宝问问的定位很像,京东京言1.0同样也在帮用户做购物决策,它通过和用户对话的方式推荐商品,同时可以让AI划重点总结评论。
体验下来,发现京东京言的多轮对话理解能力较差,我上个问题在说推荐鼠标垫,中间插了一句无关紧要的话,再回去点我想要的鼠标垫款式,再推荐就变成了T裇。
同样让我觉得对用户产生不了价值的还有AI划重点功能,基本只能对好评进行总结,众所周知,电商的好评大多是被刷出来的,这种被滤镜过的内容生成AI评价,属于人为地让AI『报喜不报忧』,看了之后对用户没有任何意义。
无独有偶,用AI对评价进行总结的能力在饿了么也曾上线过,但是目前这个 APP 的AI入口都难以寻觅,据说之前上线过又很快下线了,原因可能是产品经理们也发现了,这一功能不仅碍眼,还对用户产生不了价值,并且还要浪费调用大模型的费用。
未来,或许这一功能可以迭代成让AI能识别真实的评价和刷单的评价,并对用户评价做出更加客观的总结和统计分析,差评好评都用更加多维和量化的方式展现出来,还能追溯到原评价的内容,做个完全公正的第三方AI,但这样一来,亮出差评又有可能会伤害商家的利益,这确实是一个很难权衡的问题。
再说说国内Top1的旅游类产品,在首页悬浮球上线了一个“携程问道”,它能帮助用户做旅行规划,也能推荐一些景点,但说实话,携程问道生成的干巴巴文字,并且你不知道它基于什么维度推荐。所以,我更爱看小红书的真实用户给出的图文并茂的内容,或者直接去看携程的口碑榜和社区版块UGC发布的内容,现在携程问道给我的感觉是,很像搜索,但又没有搜索好用。
吐槽了那么多,我并不是觉得现有的移动互联网app都不适合做AI,而是因为在已有的成熟移动互联网应用中嵌入AI能力,指望AI能为应用带来指数级的增长,这对目前的大模型能力来说,还有很长的路要走。
核心是很多产品是为了跟上AI的潮流而做AI,而不是真的在解决用户的痛点问题。
一个好的产品,首先应该解决用户的痛点,我们现在处在AI风口的时代,同时也是移动互联网的末期,这个时代有个特点,用户的痛点基本上都被挖掘完了,每当你发现一个用户可能存在的某个痛点时,你就会发现市面上早就有对应的产品在做这件事了,很难挖掘到某个用户没被解决的需求。所以,通过挖掘用户痛点,寄希望用AI来满足用户未被满足的需求,就成为一件非常困难的事情。
不可否认,的确有一些AI native产品找到了用户的痛点,并且完成了市场落地。这些产品大多集中在幻觉率容错程度高的场景。
例如AI占卜,像之前鲸哥在《高学历年轻人迷上AI占卜》这篇文章里提到的,月见塔罗这类小众的AI占卜应用现在都已经落地并且盈利了,其实本质上就是结合用户的提问和塔罗牌的牌面检索知识库,并生成答案的过程,真人塔罗占卜得到的答案本身就模棱两可,所以即便是AI说错了答案,用户的感知也会非常非常低。
例如虚拟女友,也是AI应用中最早落地的,这是因为在聊天的场景中,用户允许不完美的回应,在聊天的过程中往往更注重情感上的陪伴和互动,而不是追求绝对正确的答案,因此会对虚拟女友的一些小错误或不完美之处更加包容。
这些产品发现了用户的痛点——AI玄学产品,满足了用户对24h随时占卜、价格又便宜的需求;AI聊天类产品,满足了下沉市场里那些有情感陪伴需求的用户。但这些需求只是一小部分人群需要的,看起来并不是大众普遍存在的一些痛点,因此也很难落地成为现象级的应用。
幻觉率是大模型几乎永远无法避免的问题。因为训练AI的数据集不可能是完美的,存在着知识上的错误或某些内容的缺失,遇到未涵盖的情况时,AI就会编出一个答案,让你觉得煞有其事,但仔细考究就会漏洞百出。
生成式AI的本质是是对已有的数据和知识进行向量化的归纳,总结出下一个字符出现的概率。就连苹果也发文质疑——目前最先进的GPTo1根本不具备真正的逻辑推理能力,而是基于训练数据中的模式进行匹配,而非像人类一样进行符号和逻辑推导。
有人发现,此前测试回答正确的问题,只要改动一个小数据,答案大概率就会出现偏差。
论文链接:https://arxiv.org/abs/2410.05229
在一些严肃场景中,我们发现AI落地成功的产品寥寥无几。为什么?因为严肃的场景不允许出现错误。
比如在销售服务客户的场景,设想如果AI来替代销售服务客户的话,一是很难对客户的一些情绪做出回应,二是AI总是倾向于“讨好”用户,如果AI给出了一个错误的成交价,这个错误到底应该归结于谁?假使企业宣布AI说的不算话,那又会导致越来越多的用户不愿意相信AI,依然会直接转接人工客服。
被寄予厚望的AI客服,虽然能给业务带来销量的提升,但却使得客户的满意度降低了,有用户评论:“作为消费者每次遇到AI客服真的就是怒火中烧,人工客服永远排不上。”
再比如在出行的场景,AI在某天告诉用户的预计起飞时间错了,导致用户错误地决定退票,这将给业务带来多大的损失。
还有些场景AI可升级,是大家都明眼知道的,但是囿于其他因素,还不敢广泛应用,因为会影响核心蛋糕。
比如百度的AI搜索,李彦宏声称AI搜索的结果永远不放广告,用户对百度上线AI搜索功能后评价却褒贬不一,有人说搜索的效率显著提升,有人则认为AI生成的内容不仅慢还“驴头不对马嘴”。
从百度近期的财报上看,目前AI搜索不仅对业务营收贡献甚微,还影响了百度的广告变现率,对传统的搜索业务带来了冲击。
大厂难做AI,小公司更难。因为大模型需要的算力成本太高,小公司无法承担得起。
如果是一家小型的创业公司,想要让LLM实现在严肃场景下的准确回答,就需要提供大量的优质数据集来训练模型,大量的人工来进行数据标注,那就要面临着GPU算力、部署算法、大模型成本、人力成本相关的问题,这需要非常高昂的成本。
要不要免费开放给用户使用,又是一个让产品经理纠结的问题。如果免费,那就意味着用户量级一旦增加,会面临着高昂的成本,而目前AI产品又没有找到合适的商业化方式;如果收费,那就意味着产品的竞争力会变弱,一些本就需求不旺盛的用户依然会选择保持原有的习惯。
为什么AI从出现到现在,两年半的时间,还没有出现一个杀手级的应用?就连有强大算力、有密集人才、愿意投入资金做AI的大厂,诸如字节、阿里、京东这类公司也难以让AI成功赋能现有的业务?
一是因为AI的使用门槛太高,它对于提问者的要求很高,而大多数人不会提问。就像Perplexity AI 的CEO在访谈中说的“我们最大的障碍不是Google,而是人们天生不会提问。” 没有高质量的输入就不会有高质量的输出,这就是为什么需要有AI提示词工程,因为在不同水平的提示词下,大模型的水平差异确实会非常大。
就拿我公司做的智能助手来说,我们后台看到的用户提问大多是一些口语化的短句,有人甚至连问题都无法描述清楚,指望用几个模糊不清的词让模型去理解,说实话一个硕士毕业的文科生都很难理解他的意图,大模型在意图理解能力上更弱了,它经常识别错误用户的意图,路由错了,就会出现答非所问的情况。
为了让产品更好地落地,一方面需要提升大模型能力,通过不断地修复badcase提升大模型在垂直领域的生成能力。另一方面,需要引导用户学会提问,比如在文生图场景下,将一块只有提问的白板变成常用场景下关键词的选择,这样一来用户的使用门槛就会低很多。
二是目前AI还处在初期阶段,复杂问题的处理还难解决。虽然在Coze上的智能体百花齐放,但这可能需要时间落地产业,就像是互联网的初期个人建站曾掀起大浪,成为大厂却都需要10年以上的时间。
现在有一个阅读类的智能体,主要功能是用户提供书名,它提供书籍的核心内容和背景资料,使用人数达到了46万。
现在市场共识,智能体是提升AI能力的捷径,通过Agent实现复杂问题的拆解处理。很多大厂产品经理,确实在探索智能体解决目前的问题,当然,智能体的工作流如何发挥最大效果,还需要时间探索。
以上两种方案是以发展的眼光解决问题,目前AI已经落地的业务就两种:
第一种是AI+写作/图像,AI的确可以帮助创作者几秒生成一篇文章或者一个图像,一些创作者通过生成百次以上获得满意的作品,生成完之后还需要对一些细节问题进行二次加工。
不可否认的是,如果一个会提问的作者用上AI,在信息搜集、内容整理、文章润色上的效率会翻倍。这一点的确赋能了无数自媒体创作者,有人成功做出来了百万粉丝的账号,有人运用AI洗稿一个人批量运营了上百个账号。
图像领域借助AI,很多传统产品也取得了效果,美图付费订阅用户数超1081万,同比增长50.1%,付费渗透率约为4.2%。美图负责人吴欣鸿表示:“目前美图产品的AI含量已经达到87%以上。”虽然开创性AI技术少,但美图确实利用开源尝到了AI红利。
第二种就是AI+ChatBot,除了我们熟知的豆包、文心一言、通义千问这类产品,AI情感陪伴类产品也出现了大规模的增长,一些产品如星野、叨叨、Character AI 等一些含有擦边的虚拟女友类产品已完成了商业落地。
在一些严肃场景下,也有一些面向C端用户的AI产品,只是目前还不成熟。例如Chat Law 能提供基础的法律咨询,完成简单的法律专业文书写作,医联能给人们线上问诊,多邻国的教育大模型能提供语言陪练、学习内容规划等,蚂蚁的蚂小财,能提供最新的财报资讯解读,还能分析某个基金的走势。
严肃场景下的垂直大模型通过增量预训练,注入该领域的专业知识,并进行指令微调,再运用RAG(检索增强生成)来解决大模型在检索和生成能力上的不足,它能够让大模型从外部知识中快速找到与问题相关的信息,然后将这些信息重新整合到现有的答案中,使答案更加丰富具体、符合要求。
但这些场景下的垂直大模型能力尚且不够,距离能产品化还有很大的距离,还有很多的corner case没有解决,例如如何拒识领域外的问题,如何避免领域外的问题大模型出现“幻觉”的情况。
不过我相信,随着技术的迭代,未来大模型的能力会越来越强,成本也会越来越低,最终成为一个人人都用得起,真正走入人们生活,走入千家万户的生产力。
这就像是在蒸汽机开始的时代,瓦特1765年发明的蒸汽机,但过了近百年后,蒸汽机才真正被广泛使用,成为高效又廉价的动力来源。
蔡崇信说:“AI模型训练就像在教育孩子。”这句话告诉我们,要对AI有足够的耐心,像培养一个孩子一样不断地喂给他成长所需的营养,也许在目前这个阶段我们还不能明显地感知到AI对我们的生活带来的颠覆性改变,但是只要我们足够耐心地长期投入,我相信会有一天,AIGC时代的“奇点”就会来临。