返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

阿里开源首个千亿参数大模型-Qwen1.5-110B,可通过Ollama部署

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题

近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。今天,阿里开源了1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。

模型特性

Qwen1.5-110B与其他Qwen1.5模型相似,采用了相同的Transformer解码器架构。它包含了分组查询注意力(GQA),在模型推理时更加高效。该模型支持32K tokens的上下文长度,同时它仍然是多语言的,支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

模型效果

官方对基础语言模型进行了一系列评估,并与最近的SOTA语言模型Meta-Llama3-70B以及Mixtral-8x22B进行了比较。

上述结果显示,新的110B模型在基础能力方面至少与Llama-3-70B模型相媲美。在这个模型中,阿里没有对预训练的方法进行大幅改变,因此可以认为与72B相比的性能提升主要来自于增加模型规模。
官方还在MT-Bench和AlpacaEval 2.0上进行了Chat评估,结果如下:

与之前发布的72B模型相比,在两个Chat模型的基准评估中,110B表现显著更好。评估结果的持续改善表明,即使在没有大幅改变后训练方法的情况下,更强大、更大规模的基础语言模型也可以带来更好的Chat模型。

模型使用

模型已上传至HuggingFace平台:

https://huggingface.co/Qwen/Qwen1.5-110B-Chat
https://huggingface.co/Qwen/Qwen1.5-110B

110B模型同样支持llama.cpp、vLLM、Ollama等框架。目前Ollama仓库也已经上传了模型,资源充足的各位可以尝试一下:

ollamarunqwen:110b

最后

阿里官方也透露了Qwen2即将到来!


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ