链载Ai

标题: 谈为什么效率场景LLM应用没有爆发【2024Q1】 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 谈为什么效率场景LLM应用没有爆发【2024Q1】

TLDR


1、从与“陌生人”沟通说起

为了让读者更容易理解本文的视角,我们首先考虑与陌生人沟通的情况,这种情况与用户与Agent沟通是相似的。

当我们与陌生人沟通时,“获得了一个好的沟通体验,下次还愿意与他沟通”一般可以分类到下面几种情况:(下文中的【自己】指代第一人称【我】)

情绪价值目前不被视做效率场景的核心目标,提供信息可以纳入到智能搜索范围。那么剩下的两点从技术实现上来说,可以描述为:

简单来说也就是:

2、专家知识

从直接解决问题的角度上来说,提取专家知识/workflow是最直接的方案,特别是很多专家知识的解决方案执行未必需要很高的大模型推理成本。独立求解一个问题难,但抄答案,抄答案的思路容易。

很多人能认识到提取专家知识的重要性,但现实很骨感。到目前为止“专家知识的提取过程”本身的成本很高已经是共识。

究其原因,大致有:

目前“把领域专家的知识从他的大脑中提取出来,并固化为可执行的workflow”还是一个无法自动化的事情,很难低成本水平扩展。

不少人希望能够构建一个直接让领域专家可用的Agent平台来让他们自己调试和迭代,但这样的平台要能实现这种目标并不容易,具体讨论参见谈Agent构建平台的设计【2023H2】

3、堆砌足够的智力工作

第2节是老生常谈,而本节是很少有人提到的视角,即:在没有领域知识的时候,通过在单次使用中堆砌足够的智力工作来提升交付结果的价值。一个能给人直观感受的描述是:单次用户请求中,需要100次成功率96%+的等效LLM调用

为什么说“成功率96%+”而不是说“GPT4级别”的LLM模型?

这里的100次是个概数,现在的很多应用连10次都没有达到,在包含的领域知识不足时,用户的体验就会使:提供的智力价值有限,很鸡肋,不愿意付钱。也就是说好像自己不花钱,稍微想一下也能做,没到要花钱的买服务的程度。这方面海外的付费意愿高一点,能接受的最低智力价值更低一点,但面对的问题是类似的。

3.1、延迟问题

很多开发者不采用更多次LLM调用或者更复杂流程的一个原因是用户不能接受太高的响应延迟。这确实是人性特点之一。在实际人与人对话中,虽然人能对对面的人的反应时间有更多耐心,但也只有思维敏捷的人才能做到在不熟悉的领域快速提供足够的智力价值。这个问题就是很难,无论是对于现在的Agent还是人来说。

好在Agent并非只有一个大脑,如果workflow中有足够可以并行的部分,是可以并行启动大量LLM推理的,智能检索类场景就是最典型的例子,不同文档的检索之间的相互依赖较弱,比较容易发挥计算机系统可以并行计算的特点,特别是在有云化的LLM推理算力资源时。

但不少场景workflow就是很长,传统方式延迟较大,这会是难点,也是未来算法技术团队驾驭复杂workflow能力的主要领域之一。此处并非本文的主题,仅指出2点:

4、总结

上述两种思路并非互斥的,可以联合使用。

现在的LLM应用大多两边都不好,所以导致能够提供的智力价值较低,对于用户来说价值不够高。不像是文生图那样,大部分用户不会画图,即使专业画师也无法短时间内快速出图,所以文生图方向大模型产品的价值用户更容易感知和付费。

2023年文本模态这边没有出现大家期望的那种事先成本不是特别高、但受众很大的Super App的原因之一应该就是这点:提供的智力价值不够,无论是通过事先预置还是执行中探索提供的。

5、技术展望

除了延时之外,堆砌大量LLM调用的另一个问题是LLM推理成本/API费用。目前LLM速度还较慢,推理成本还较高,所以只能在少数高价值场景才能使用这种方式。

但目前来看,2024-2025年的LLM推理成本和延时都会显著降低。

所以虽然现在大部分workflow很难使用100次级别的LLM调用,但在我来看已经可以考虑为此方向进行设计和储备了

附录A、关于调用次数计数的一些细节讨论

各种XoT/MultiAgent方案中,其实调用次数都是比较明确的。但CoT除外,且CoT还有很多用法,不能一概而论。虽然目前只有投资人和刚入行文本模态的人才把CoT挂在嘴边,但它在本文的场景下有时候并不能当成1次调用,所以增加本节简单讨论。

它可以用于连续的执行串行的workflow,但一般会以牺牲准确率为代价。在追求准确率的场景下更建议把多个步骤以多次LLM调用来事先,方便中间插入错误检查逻辑。这种场景下使用的1次CoT可以对应到多次的LLM调用。

CoT也可以用于降低问题的难度,来让较低能力的LLM也能提升准确率。这时候它只是一种优化prompt的手段,仍然建议只算成1次LLM调用。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5