链载Ai

标题: Qwen,永远不会缺席!百万上下文模型开源 [打印本页]

作者: 链载Ai    时间: 昨天 17:07
标题: Qwen,永远不会缺席!百万上下文模型开源

今天,Qwen2.5-1M模型开源。

2个尺寸,7B & 14B。开源并且,并结合vllm,集成了稀疏注意力机制,推理速度提升3到7倍。

14B模型的大海捞针获得了全绿的成绩,7B仅少量错误

长度提升的同时,短序列的成绩依然保持优异!

训练策略: 逐步变长到256K。 然后使用长度外推,外推用到了DCA的策略,

DCA通过将大的相对位置,按chunk分组,映射为较小的值

最后是硬件依赖:

对于处理 1M 长度的序列:

如果 GPU 显存不满足以上要求,仍然可以使用 Qwen2.5-1M 进行较短任务的处理。

最后,祝大家新年快乐!








欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5