众所周知,通用大模型并不总是「靠谱的专家」。
在企业级智能客服、知识库管理等场景中,它们常常一本正经地胡说八道——资料库明明有答案,却编出一段貌似合理的幻觉内容。为降低风险,越来越多企业引入文本Embedding,先精准提取信息,再交给大模型生成回复。
但新的问题也随之而来:Embedding 模型容易陷入「负迁移」困境。「负迁移」是指模型在原本训练的领域(比如通用语料)表现不错,但换到新领域,因为语境和表达方式有差异,其性能可能会急剧下降。
举个例子,把通用 Embedding 模型用在法律合同里,用户问「这份协议的甲方有哪些权利?」模型可能找不准答案。因为它依赖「甲方」「权利」这类通用语料里的常见搭配,反而忽略了合同中真正关键的表述,比如「许可方享有下述独家授权」。结果就是,检索出一些看似相关、实则无关的内容,错过了最该提取的信息。
为破解这一难题,腾讯优图实验室正式开源Youtu-Embedding——
这是一款面向企业级应用打造的通用文本表示模型,可同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务,既避免了「负迁移」的性能牵制,又具备即插即用的通用性。
开源后,开发者可直接使用Youtu-Embedding构建语义检索系统,也可以基于其训练框架,结合自身业务数据继续训练,打造更贴合自身场景的语义基础能力。
