返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

BM42横空出世!BM25统御搜索引擎40年,终于要落幕了?

[复制链接]
链载Ai 显示全部楼层 发表于 5 小时前 |阅读模式 打印 上一主题 下一主题

Qdrant 在前几天发起了一些重大声明,提到创造了一个新的算法,命名为BM42,用以取代古老的 BM25(甚至更现代的 SPLADE算法)。

对Qdrant不熟悉的小伙伴,提一点,Qdrant是目前OpenAI正在使用的向量库,所以说明各方面可信度都挺高的。

在他们的帖子中,提到:BM25已经统治了搜索引擎40年了,但是BM25在最新的RAG应用场景表现并不好,所以快来看我们的新算法BM42-一个结合语义和关键词的搜索算法。

通过将单词重要性评分(transformer注意力)与IDF等统计指标相结合来解决语义+关键字搜索的问题,声称在各个场景都有优势,如下图

很快,来自 Vespa(竞品公司)的 @Jo Bergum 指出 Quora作为数据集是非常奇怪的,因为这是一个检测句子相似重复的数据集,而不是问答检索数据集。具体点呢,就是 Quora 数据集每个query只有约 1.6 个相关的候选,因此评测种的 precision@10 结果显然是错误的,声称每 10 个query中有4个候选。

最新,Cohere 的 @Nils Reimers 使用 BM42, 在金融、生物医学和维基百科领域的更好数据集上重新运行,遗憾的是 BM42 在所有方面都表现不佳:

Qdrant最新的公关回复,对结果进行了修正,并推送了最新的修正后的代码。但是仍然被质疑评测的BM25分数太低,正常可能能达到0.91。

算是最新的大瓜了,早上刷到了很多帖子。天气太热,吃瓜消遣一下~


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ