返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

基础篇| 大模型部署框架

[复制链接]
链载Ai 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题


为什么要有大模型部署框架?
为什么有了推理框架,还要来一个什么部署框架?上节内容我们介绍了有12种大模型推理框架,虽然多,但是现在业界尚不存在各方面都远超其同类产品的推理框架,不同推理引擎在不同平台,硬件和模式下分别具有各自的优势,比如TensorRT有足够多的灵活性,在GPU执行时可以共享上下文,可以使用外部内存用于推理等,OpenVINO有高吞吐率模式,可以CPU与GPU异构设备同时推理。作为应用开发者,为了实现最优效率,如果针对不同环境都写一套代码去适配其最优推理框架,其耗费的学习成本和精力及代码量都将极其巨大。
这时候有大模型部署框架用武之地,大模型部署框架作为一种高效、灵活的部署方式,能够大大提高模型训练和部署的效率,降低模型在部署过程中的时间和成本。

02部署框架对比

模型部署框架XinferenceLocalAIOllamaFastChat
OpenAI API 接口对齐支持支持支持支持
加速推理引擎GPTQ, GGML, vLLM, TensorRT, mlxGPTQ, GGML, vLLM, TensorRTGGUF, GGMLvLLM
接入模型类型LLM, Embedding, Rerank, Text-to-Image, Vision, AudioLLM, Embedding, Rerank, Text-to-Image, Vision, AudioLLM, Text-to-Image, VisionLLM, Vision
Function Call支持支持支持/
更多平台支持(CPU, Metal)支持支持支持支持
异构支持支持//
集群支持支持//
操作文档链接https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.htmlhttps://localai.io/model-compatibility/https://github.com/ollama/ollama?tab=readme-ov-file#model-libraryhttps://github.com/lm-sys/FastChat#install
可用模型支持上百种大模型,https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.htmlhttps://localai.io/model-compatibility/#/https://ollama.com/library#/https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

03 总结

从支持模型数量,以及各种特性来看, xinference框架特性最全,支持模型最多, 从易用性来说, ollama绝对适用于一些初学者。
有了部署框架,对LLM一知半解的后端人员也能轻易部署LLM模型,不需要深入了解每个模型.。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ