清华开源LongCite，如何提高大模型的溯源能力？

显示全部楼层

溯源/引用，工业界应用老板们最喜欢加的一个东西。总的来说，这个文章也没啥。做了一个评测基准，开源了一个用于溯源sft的45k数据集，开源了2个模型，介绍了他们的数据生成pipeline。

主要看看数据生成的pipeline把，如下图：3步+1步过滤（为啥不一步到位了，说是这样更干净，先出答案，在生成引用）

数据比例，中文占比比较多。可以比较好的利用私有场景~

整体就是效果更好