链载Ai

标题: 1688 生成式检索的探索与业务落地 [打印本页]

作者: 链载Ai    时间: 昨天 22:39
标题: 1688 生成式检索的探索与业务落地

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读本文整理自阿里巴巴高级算法工程师魏少玮的分享,旨在深入探讨 1688 平台在 AI 生成式检索领域的探索与业务落地实践。魏少玮老师在多模态、自然语言处理及表示学习领域拥有多年的深耕经验,是 1688 生成式检索项目的核心参与者。

在传统电商搜索模式下,用户寻找商品的过程往往繁琐、低效,并伴随着信息过载问题。为了革新这一体验,1688 团队探索了从“人找货”到“货找人”的范式转变,致力于通过 AI 技术为用户提供一站式的智能找货、挑货解决方案。本文将详细拆解 1688 在生成式检索领域的两大核心技术方案:首先是基于级联范式的“AI 深度搜索 1.0 与 2.0”框架,该方案通过 Query 理解、向量召回、语义排序和总结四大模块,实现了对复杂用户意图的精准捕捉,并支持多轮会话与多模态搜索;其次是更具前瞻性的“端到端生成式检索”方案,该方案希望构建“模型即搜索引擎”的新范式,通过商品码本化、大模型对齐训练以及端到端联合优化,突破传统检索效果的上限。
文章将重点围绕以下三个业界普遍关注的难题展开:
如何在 B2B 场景的海量长尾商品上取得理想的训练效果?
生成式召回与传统召回技术如何有效结合与协作?
生成式检索在实际业务中是否带来了显著的效率与转化提升?
通过本文,读者将全面了解 1688 如何从“拼装大脑”走向“超级大脑”,为企业从传统检索向生成式检索升级提供宝贵的实践借鉴。


主要内容包括以下几个部分:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1. AI 深度搜索背景:从“人找货”到“货找人”

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">2. AI 深度搜索 1.0:经典级联范式的探索与实践

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">3.AI 深度搜索 2.0:迈向多轮与多模态交互

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">4. 端到端生成式检索:构建“模型即搜索引擎”新范式

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">5. 端到端检索方案 2.0:突破 Embedding 质量的上限

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">分享嘉宾|魏少玮阿里巴巴1688 高级算法工程师

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">编辑整理|陈锡杜

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">内容校对|郭慧敏

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">出品社区|DataFun


01


AI深度搜索背景:从“人找货”到“货找人”


在当前主流的电商平台中,一个典型的用户搜索路径始于用户输入需求,经由传统搜索引擎返回结果,再由用户在结果页中反复挑选、对比,最终完成下单。这个链路存在三个核心痛点:


为了解决这些问题,我们构想了一种理想的搜索路径:用户表达需求后,由AI系统一步到位地完成“找”和“挑”的全过程,直接生成一个符合其需求的购物清单。这种模式的核心是实现从“人找货”到“货找人”的范式转变。AI深度搜索的根本动机,正是为了提升用户寻找和挑选商品的效率,并提供一站式的解决方案。通过智能找挑,我们期望能有效减少用户的操作步骤,降低购物过程中的流失率;同时,通过生成个性化的购物清单,打造一种“懒人式”的购物体验,实现体验的全面升级。


扫码入群参与讨论



✅ 对分享有疑问?群里问!

✅ 老师在线解除疑惑!

✅有心得体会想分享?群里聊!

扫码入群参与讨论

图片


02


AI深度搜索1.0:经典级联范式的探索与实践


我们首先构建了深度搜索的1.0版本,其整体算法框架分为离线和在线两部分。


离线部分:核心工作是对海量商品信息进行结构化清洗。我们深知,大量有价值的商品信息隐藏在非结构化的商品详情页中。为此,我们通过蒸馏的方式,训练了一个QwenVL模型,专门用于从商品详情页中提取关键的结构化信息。这些信息与商品标题、属性列表等其他数据源相结合,共同构成一份详尽的结构化商品文档。随后,我们对这份文档进行Embedding计算,并建立索引,为在线检索做好准备。


在线部分:我们采用了一套经典的Pipeline级联范式。用户的Query会依次经过Query理解、召回、排序和总结四个核心模块,最终生成结果。接下来,我将对这四个模块的技术细节进行详细介绍。


1. Query理解模块:精准捕捉用户真实意图


在Query理解模块,我们的核心目标是实现三种关键的映射转换,从而将用户的模糊、口语化的语言,转化为机器可理解的结构化需求点。


2.向量召回模块:基于双塔模型与迭代式挖掘


在向量召回模块,我们采用了经典的双塔(Siamese Embedding Network)结构。具体模型上,我们选用了阿里开源的GTE-base模型,主要考虑到其支持的最大Token数达到8K,能够很好地处理我们Token数较多的结构化商品文档。


众所周知,在对比学习中,困难负样本的质量直接影响着最终的检索效果。为了持续优化模型性能,我们采用了一种迭代式的困难负样本挖掘策略。该策略如同“左脚踩右脚”一般,通过自我迭代不断提升:


3.语义排序模块:多粒度蒸馏学习对齐


在排序模块,为了兼顾效果与性能,我们采用了一种多粒度蒸馏学习对齐的方案。


离线阶段:我们微调了一个效果强大但计算量也较大的bge-rerank-v2-gemma-9b模型作为教师模型(Teacher Model)。


在线阶段:为了支持线上高QPS的吞吐量需求,我们将教师模型的能力蒸馏到一个更轻量的gte-multilingual-rerank-base模型上作为学生模型(Student Model)。


在蒸馏过程中,我们设计了一个巧妙的机制:在学生模型的每一个Transformer Block后面都添加了一个蒸馏信号,以此构成一个多粒度的对齐目标。这样做有两个显著的好处:第一,可以有效提升整体的蒸馏学习效果,让学生模型更充分地学习教师模型的能力;第二,可以根据在线的流量压力,动态地对Rank模型的参数进行剪枝,实现性能与效果的灵活平衡。


4.总结模块:XML结构化输出与流式解析


最后一个模块是总结模块。在这一环节,系统需要根据召回和排序后的商品文档,针对用户的每一个需求点进行归纳总结。具体流程是:首先,提取出与用户需求点相关的商品信息;然后,判断该商品是否满足这个需求点;最后,给出信息的来源(如标题、详情页等)。


在整个过程中,为了提升前端的响应速度,减少用户的等待焦虑,我们采用了“XML结构化输出+流式解析”的方式。后端以流式(Streaming)方式逐步生成XML格式的结果,前端则同步进行解析和渲染,让用户几乎可以立刻看到部分结果,极大地优化了用户体验。


扫码入群参与讨论



✅ 对分享有疑问?群里问!

✅ 老师在线解除疑惑!

✅有心得体会想分享?群里聊!

扫码入群参与讨论

图片


03


AI深度搜索2.0:迈向多轮与多模态交互


在1.0版本的基础上,我们对系统进行了三大功能升级,推出了AI深度搜索2.0,使其更接近理想中的智能搜索形态。


1.多轮会话搜索与Query改写Agent


在多轮会话场景中,我们通过一个Query改写Agent来自动关联和改写用户的多轮输入。例如:


2.快速搜索与深度搜索的动态路由


为了平衡不同用户的需求,我们保留了传统的快速搜索,并提供了深度搜索选项。两者之间的切换由一个我们训练的Bert意图路由模型自动完成。当用户输入一个简单的、明确的商品词(如“男生卫衣”)时,系统会路由到快速搜索;而当用户输入一个带有复杂描述的Query(如“年龄25岁,要韩系风格”)时,系统则会自动切换到深度搜索模式,以更好地理解和满足其个性化需求。


3.多模态检索:精准实现“按图找相似款”


2.0版本最大的亮点之一是支持了多模态检索。例如,用户可以上传一张带有库洛米图案的T恤图片,同时输入文本“要胸口带奥特曼的相似款”。系统需要精准理解这个复合需求:保留参考图的款式、版型、颜色等特征,但将核心图案元素替换为“奥特曼”。


我们的实现方案如下:



扫码入群参与讨论



✅ 对分享有疑问?群里问!

✅ 老师在线解除疑惑!

✅有心得体会想分享?群里聊!

扫码入群参与讨论

图片


04


端到端生成式检索:构建“模型即搜索引擎”新范式


在深度搜索1.0和2.0的探索之后,我们开始思考一种更原生的方式来利用大模型的推理能力,希望打造一个“模型即搜索引擎”的全新检索范式。这就是我们的端到端检索方案。


其核心思想是,让大模型直接生成(decode)出符合用户需求的商品ID或其某种形式的编码。整个流程分为四步:


1.码本质量的挑战与优化


在上述方案中,最终的检索效果严重依赖于码本的质量。我们最初采用了业界比较典型的RQ-VAE方式来生成码本。但在实践中,我们发现RQ-VAE对于搜索任务并非特别友好。


其根本原因在于,RQ-VAE本质上是一个多层的VQ-VAE。在第一层,它等价于K-means聚类,效果尚可。但从第二层开始,它聚类的对象是每个样本与第一层类簇中心的“差异(Residual)”。我们发现,这个“差异”在所有商品上呈现出各项同性,分布非常均匀。这导致从第二层开始,每一层的码本都会均匀地覆盖到所有商品类目上,使得模型训练时的熵非常高,不利于大模型进行有效的因果建模。


为了解决这个问题,我们放弃了RQ-VAE,转而采用一种层次化K-means聚类的方式。通过这种方式,我们可以将同一类目的商品在码本的每一层都约束在少数几个空间内,形成一个具有清晰层次结构的前缀编码。这种结构化的码本极大地有利于大模型进行推理和生成。


2.效果展示与局限性分析


实验表明,端到端生成式检索在许多Query下表现相当出色。例如,搜索“女士小香风连衣裙”,模型能生成非常精准的结果。


然而,它也存在明显的问题。在一些特别细粒度的Query上,模型可能会出现“幻觉”。例如,当用户搜索“三岁宝宝连衣裙,红色,带米老鼠卡通图案的”,生成式检索返回的结果虽然满足了“三岁宝宝”、“连衣裙”、“红色”等要素,但在最关键的“米老鼠卡通图案”这个细粒度属性上却出现了错误,生成了其他卡通图案。相比之下,传统的向量召回方案虽然在风格上可能略有偏差,但能准确地保留所有核心要素。


这个结论表明,当前的端到端生成式检索方案(1.0版本)虽然在很多场景下可用,但还不能完全替代传统的检索方式。


3.场景化生成式推荐:扩展应用边界


基于上述发现——即生成式检索在类目、风格等宏观层面表现稳定,仅在细粒度属性上偶有偏差——我们将其应用扩展到了推荐场景。因为在推荐场景中,用户对相关性的要求不像搜索那样苛刻。


例如,对于一个场景化Query“冬天去哈尔滨游玩,我应该穿什么?”,模型能够像导购一样,进行思考并生成一个完整的购物清单,包括加厚羽绒服、保暖内衣、毛线帽等,并为每个品类推理出对应的商品码本。从解码出的商品来看,效果非常出色,证明了该技术在场景化推荐中的巨大潜力。


扫码入群参与讨论



✅ 对分享有疑问?群里问!

✅ 老师在线解除疑惑!

✅有心得体会想分享?群里聊!

扫码入群参与讨论

图片


05


端到端检索方案2.0:突破Embedding质量的上限


回顾我们的1.0方案,无论是深度搜索还是端到端检索,其效果的上限很大程度上都取决于商品Embedding的质量。因为从商品文档到Embedding,再到码本量化,最后到大模型训练,这几个步骤都是解耦、分开训练的,无法进行全局优化。


那么,有没有可能突破Embedding本身带来的效果天花板呢?为此,我们提出了端到端检索方案2.0。


在这个新方案中,我们将整个链路通过一个端到端的方式联合建模起来。商品文档经过Encoder后,其产出的向量会作为Key和Value输入到一个Q-Former模块中。Q-Former旨在学习一个变长的码本表示,这个表示再通过一个投影层对齐到大模型的语义空间。


整个模型的训练分为三个阶段:


通过这种端到端量化感知训练(End-to-End Quantization-Aware Training)的方式,我们可以让码本的质量突破原始Embedding向量的限制,从而真正打开生成式检索效果的想象空间。


生成式检索虽然已经取得了一定的阶段性成果,但我们仍有很长的路要走。感谢大家的聆听。

以上就是本次分享的内容,谢谢大家。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5