对于大规模知识库而言,若每次查询都全量加载上下文,token成本会呈线性增长。按照当前主流大模型的定价标准,月度token费用将成为企业落地的沉重负担;同时,全量加载带来的首次响应延迟,也会严重影响用户体验。相比成本问题,准确率不足更是致命缺陷。《Lost in the Middle》研究数据明确显示,当目标信息位于上下文中段时,模型的检索准确率会显著低于信息位于开头或结尾的情况。尽管长上下文扩大了模型的记忆空间,但注意力机制的计算瓶颈并未突破,随着token数量的增加,超长文档中的信息定位成功率会持续下降。