Qwen，永远不会缺席！百万上下文模型开源

显示全部楼层

今天，Qwen2.5-1M模型开源。

2个尺寸，7B & 14B。开源并且，并结合vllm，集成了稀疏注意力机制，推理速度提升3到7倍。

技术报告地址：https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
hf: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba

14B模型的大海捞针获得了全绿的成绩，7B仅少量错误

长度提升的同时，短序列的成绩依然保持优异！

训练策略：逐步变长到256K。然后使用长度外推，外推用到了DCA的策略，

DCA通过将大的相对位置，按chunk分组，映射为较小的值

最后是硬件依赖：

对于处理 1M 长度的序列：

如果 GPU 显存不满足以上要求，仍然可以使用 Qwen2.5-1M 进行较短任务的处理。

最后，祝大家新年快乐！