链载Ai

标题: 清华开源LongCite,如何提高大模型的溯源能力? [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: 清华开源LongCite,如何提高大模型的溯源能力?

溯源/引用,工业界应用老板们最喜欢加的一个东西。总的来说,这个文章也没啥。做了一个评测基准,开源了一个用于溯源sft的45k数据集,开源了2个模型,介绍了他们的数据生成pipeline。

主要看看数据生成的pipeline把,如下图:3步+1步过滤 (为啥不一步到位了,说是这样更干净,先出答案,在生成引用)

数据比例,中文占比比较多。 可以比较好的利用私有场景~

整体就是效果更好







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5