返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

【AI工作流】【喂饭】Xinference后台大模型平台搭建

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 17:09 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-size: 16px;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">在之前,我们介绍了#Ollama#大模型后台,现在介绍一下#Xinference#大模型后台。说到#Xinference#,并不是一个全新的平台了,实际上#Xinference#平台已经出现很久了。先简单介绍一下:

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-size: 16px;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-size: 16px;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-size: 16px;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">Xorbits Inference(Xinference)由国内开发,是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。以下是一些横向对比:

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-size: 16px;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">
功能特点
Xinference
FastChat
OpenLLM
RayLLM
兼容 OpenAI 的 RESTful API
vLLM 集成
更多推理引擎(GGML、TensorRT)
更多平台支持(CPU、Metal)
分布式集群部署
图像模型(文生图)
文本嵌入模型
多模态模型
语音识别模型
更多 OpenAI 功能 (函数调用)

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-size: 16px;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">具体介绍见https://github.com/xorbitsai/inference

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-size: 16px;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">‍

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-size: 16px;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">和#Ollama#类似,#Xinference#也是一个提供大模型下载和使用的平台,但是有了#Ollama#平台为什么要上#Xinference#,两者之间到底有什么区别,还是分为几块进行讨论。

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-size: 16px;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">‍

ingFang SC", "Luxi Sans", "DejaVu Sans", "Hiragino Sans GB", "Source Han Sans SC", arial, "Microsoft Yahei", sans-serif, emojis;font-style: normal;font-variant-ligatures: no-common-ligatures;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: center;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;font-size: 22px;">1、为什么

首先是为什么要上#Xinference#平台。

原因一:Xinference平台提供了种类更多的模型。Ollama有很多模型,但是从种类上来说Ollama只包括文字处理类和视觉模型两类,而在文字处理上Ollama只包括了文字生成类(包括对话与补充等)和Embedding模型(字段处理)模型,但是Xinference的模型种类则远远高于Ollama,不仅包括了Ollama的模型,同时也包括了文字处理Rerank模型(如Jina、BGE等)、图像(如Stable Diffusion)、音频(如CosyVoice、ChatTTS等)、视频(如混元大模型等)和自定义一众模型,并且好用的模型种类高于Ollama,例如ChatGLM-4V等。

原因二:Dify对Ollama的定义为文字输出和Embedding,在文字处理上尚少一项Rerank模型。也就是对于RAG知识库而言,除非手搓Dify,否则对于知识库整理Ollama最高只能支持Embedding文字处理,无法做到在Embedding处理后的rerank处理,而rerank处理是RAG高效知识库的必备做法之一。

原因三:多条路总没错。毕竟Ollama是国外的舶来之物,万一哪天出了什么事Ollama不幸躺枪直接没了就没辙了。

以上是使用Xinference的原因,那么还是需要对比一下Ollama和Xinference的优点和缺点。以下是Xinference针对Ollama的优势和劣势:

优点:支持的模型种类较多,可用性很好。下载有国内源,速度很快。有自己单独的UI,基本模型操作无需代码和cmd命令。能力范围比Ollama更广。国内公司开发,“针对中国宝宝而定制”。

缺点:上手难度较大,模型体量较大,模型优化不如Ollama,并且下载无进度条,需要单纯靠后台下载数据流量观察下载情况。开发难度较大,对代码能力要求较高。模型挂在后台,对硬件资源占用较大。必须依赖Docker,而不是像Ollama一样有自己单独的后台。Docker资源占用较多。对于模型使用平台需要自己手动选择,对于不清楚调用原理和框架结构的用户而言上手很难。部分服务框架和技术框架需要手动安装,例如Pytorch等。


2、怎么做

2.1 Xinference的安装

2.1.1 首先需要安装Docker,安装方法见【AI工作流】【喂饭】基于Ollama后台的Dify平台搭建(一)安装篇

2.1.2 找一个空间较大的盘位,例如D盘或者E盘等,在下面建立文件夹,起名无所谓,但是文件夹名称中不要带有空格,并且需要是英文。例如:

D:\Xinference

然后在这个目录下建立一个model文件夹

D:\Xinference\model

2.1.3 docker拉取镜像。安装完毕Docker并重启后,在命令提示符或者powershell中直接输入以下命令:

dockerrun-d--namexinference--gpusall-vD:/Xinference/model:/root/models-vD:/Xinference/.xinference:/root/xinference-vD:/Xinference/.cache/huggingface:/root/.cache/huggingface-eXINFERENCE_HOME=/root/models-p9997:9997registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latestxinference-local-H0.0.0.0

这个命令的大概意思是将D:\Xinference下的一些文件夹为一些基本文件夹,并且从阿里云上直接拉取镜像,规定9997为Xinference的端口。

输入整个命令后Docker即开始拉取镜像下载。

2.2 Xinference运行

在Docker镜像拉取完毕后,打开浏览器,输入Localhost:9997或者127.0.0.1:9997即可开启Xinference的UI界面。

如果没有打开UI界面,需要注意几个问题:

1、是否有其他应用或者服务占用了9997端口;

2、打开Docker观察是否Xinference的服务已经正常运行;

2.3 模型下载

打开Xinference的界面后,先改成中文界面。。。在界面左下角有一个切换按钮,点击之后选择中文即可

点击启动模型,选择需要的模型种类,然后选择具体的模型

模型支持搜索,以音频模型中的CosyVoice-300M-SFT为例:

点击CosyVoice-300M-SFT的卡片,即可打开模型窗口,最重要的是设置下载中心,下载中心国内用户建议选择modelscope国内下载源,速度较快。点击下方的小火箭按钮即可开始下载模型:

下载速度一般在5~15Mb左右,速度很快,如果带宽足够会更高:

对于消费级显卡和个人电脑,下载的模型一般大小在4~15g左右,以CosyVoice-300M-SFT为例,大小在5.35GB:

下载完毕后,在运行模型中即可看到已经运行:

在其他平台调用Xinference端口时,一般而言采用9997的端口即可。

3、结论

#Xinference#是一个非常强大的大模型后台平台,虽然在性能优化上比Ollama略差,例如自动释放硬件性能等,但是其模型支持范围更广,能力也更广泛,并且对接fastgpt、dify等平台也十分流畅,是一个不可多得的强大后台。Xinference更为适配国内用户,例如模型下载并不限制于huggingface,而是同时支持从诸如modelscope这类国内大模型网站下载,下载的模型也是全量下载,而不是像Ollama一样进行加密整合,这样做有好处也有坏处,好处是更加方便开发者,坏处则是对应性能要求的硬件更高。

针对目前各类后台,如果不想做高度开发,而是采用后台平台的形式进行一些模型的应用,那么类似于Ollama、Xinference这类平台无疑是最佳选择;对于一般开发者而言,其实Ollama、Xinference可以有效加速开发过程,但是限制也很多;对于高度开发而言,其实平台是个可有可无的存在,但是在配置端口和接口上能节省不少时间。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ