链载Ai

标题: 「LLM企业实战03」三大引擎对决:Ollama、Xinference与VLLM服务框架实测 [打印本页]

作者: 链载Ai    时间: 昨天 18:43
标题: 「LLM企业实战03」三大引擎对决:Ollama、Xinference与VLLM服务框架实测

ingFang SC";font-size: 22px;font-weight: bold;margin: 0px auto 40px 0px;width: fit-content;text-align: left;color: rgb(63, 63, 63);">一、 硬件就位,模型如何高效“跑起来”?

ingFang SC";margin: 10px 0px;letter-spacing: 0.1em;white-space: pre-line;color: rgb(63, 63, 63);font-size: 17px;">上一篇我们详细讨论了 LLM 私有化部署的硬件选型,搞定了算力基础。但光有硬件还不够,我们需要一个“引擎”——也就是LLM 服务框架——来负责加载模型、管理资源、接收用户请求,并高效地把模型的计算能力转化成实际的服务。

ingFang SC";margin: 10px 0px;letter-spacing: 0.1em;white-space: pre-line;color: rgb(63, 63, 63);font-size: 17px;">市面上这类框架有不少,选择哪个直接关系到你的 LLM 应用的性能、成本和部署维护的复杂度。本篇将重点对比几个我们实践中接触较多或社区热门的框架:Ollama、Xinference 和 VLLM,分析它们的特点、适用场景以及运维中需要注意的地方,帮助你根据自己的实际情况做出判断。

ingFang SC";margin: 10px 0px;letter-spacing: 0.1em;white-space: pre-line;color: rgb(63, 63, 63);font-size: 17px;">注意:不存在哪个框架“最好”,只有哪个“最适合”你当前的具体需求(性能要求?易用性要求?模型种类要求?)和实际限制(硬件资源?运维能力?)。我们在项目中最终选择了VLLM 用于 RAGFlow 问答系统(追求高吞吐和长上下文处理能力),并选择了Ollama 用于代码审查(考虑到部署便捷性以及特定模型的支持),这正是基于具体场景权衡的结果。

ingFang SC";font-size: 22px;font-weight: bold;margin: 40px auto 40px 0px;width: fit-content;text-align: left;color: rgb(63, 63, 63);">二、 Ollama:快速上手,本地开发的友好伙伴

ingFang SC";margin: 10px 0px;letter-spacing: 0.1em;white-space: pre-line;color: rgb(63, 63, 63);font-size: 17px;">如果你刚开始接触本地 LLM,或者需要在开发环境快速验证想法,Ollama 是一个非常不错的起点。

  1. 安装 Ollama:打开终端,执行官方安装脚本:




    curl-fsSL<https://ollama.com/install.sh>|sh

    这个脚本会自动下载并安装 Ollama 服务。

  2. 验证安装与服务状态:




    ollama--version#查看版本systemctlstatusollama#检查服务是否正在运行#如果未运行,使用sudosystemctlstartollama启动
  3. 拉取模型:选择一个你想运行的模型,例如mistral或qwen:7b:




    ollamapullmistral

    Ollama 会自动从它的模型库下载模型文件。你可以在ollama list命令中看到可用的模型。

  4. 运行模型并交互:




    ollamarunmistral

    这会加载mistral模型,然后你就可以在终端里直接和它对话了。输入你的问题,按回车发送。输入/bye退出交互。

  5. 启动 API 服务:Ollama 服务默认会在本地11434端口监听 API 请求。你通常不需要额外启动 API 服务,安装完成后它就在后台运行了。你可以通过其他程序(如 Python 脚本、Curl)向http://localhost:11434/api/...发送请求。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5