链载Ai

标题: 行业落地分享:作业帮问答检索系统实践 [打印本页]

作者: 链载Ai    时间: 3 小时前
标题: 行业落地分享:作业帮问答检索系统实践

在数字化浪潮的推动下,检索系统的性能与效率成为企业发展的关键。作业帮作为教育科技领域的领军者,始终致力于为用户提供更高效、更精准的学习资源检索体验。

Havenask 是阿里巴巴集团自研的高性能、分布式检索引擎,自 2022 年 7 月开源以来,凭借其强大的性能和灵活的定制能力,迅速在行业内崭露头角。

unsetunset业务需求问题unsetunset

通过自动化的图像处理和相似题目检索,系统能够提供快速、准确的解题辅助,从而提高用户的学习效率和体验。

智能检索系统不仅在成本和效率上表现出色,它还强化了AI业务的支持能力。通过快速支持基于RAG(Retrieval-Augmented Generation)及多模态大模型的AI业务落地,该系统能够帮助企业更快地将AI技术转化为实际的业务成果。这种快速的业务落地能力,使得企业能够迅速响应市场变化,抓住新的商业机会。

unsetunset业务核心问题unsetunset

数据预处理

尽管用户被指导如何拍摄和裁剪图片,但实际操作中,上传的图片可能存在多种问题,如角度不正、模糊、光线不均等,这些都可能影响后续的图像处理和识别效果。

检索排序

通过生成精确的检索query、并行查询和多级排序来快速返回最相关的搜索结果。

unsetunset业务复杂性unsetunset

智能批改

检索增强及多模态LLM能力

技术架构


unsetunset实践过程unsetunset

通过调整和优化检索系统的参数,使得新的检索策略与现有的检索策略在效果上达到相似的水平。这个过程需要反复进行AB实验分析case,耗时较多,但过程是可控的。

通过对性能指标的误判、QueryCache问题、数据扩增收益预期偏乐观等问题的分析,采取了一系列的解决方案,包括Query改写、粗排调整、精排策略及模型调整、系统架构调整等。

如何通过短周期和快速生效的方法来缓解系统压力。主要分为两个策略:索引按属性排序和提高CPU cache命中率。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5