DeepSeek满血版云端私有化部署，支持知识库，仅2.5万/月！

显示全部楼层

智星云提供一站式大模型服务方案，支持Deepseek全系模型（R1满血版/V3、70B/32B）及量化/非量化部署。

提供模型调优、RAG知识库构建与实时联网搜索能力。

集成Agent智能体框架实现多任务处理，配备多级鉴权体系保障数据安全，满足企业级场景需求，适配不同规模用户提供精准智能服务。

DeepSeek云端私有化方案：

DeepSeek云端私有化方案测试报告：

本报告针对两台4090服务器型号deepseek-R1的大语言模型在不同并发场景下（5 到 55 并发）的性能表现进行了系统测试。

测试指标涵盖整体耗时、吞吐量、每秒请求数（QPS）、平均响应延时、首 token 响应时间（TTFT）、每个输出 token 生成耗时（TPOT）、以及输入/输出 token 数量等。

所有数据均来自标准openqa数据集。

综合各并发级别的测试数据，deepseek-R1 模型在低并发（5、15）下响应较快，但随着并发数提高（25至55），系统吞吐量虽不断提升，但平均延时及每token生成时间也随之增加，特别是在高并发下尾部延时明显上升，模型在高并发环境下能够稳定处理请求。

并发与吞吐量以及输出token的关系图表：

吞吐量与并行

一、测试环境与配置

模型信息：deepseek-R1

超时设置：连接与读取超时均为120s

测试数据集：openqa

请求参数：

最大输出 token：2048

输入 token 数：约 22～28

输出 token 数：大致在 650～1200 范围内

并发测试：共测试了 5、15、25、35、45、55 并发，无一例失败请求

二、各并发级别数据概览

下表为各并发场景下的核心指标（平均吞吐量单位：tokens/s；QPS：每秒请求数）：

说明：从5、25、35、45、55并发测试中可见，随着并发数提高，系统整体吞吐量呈上升趋势，而平均延时及每个输出token的生成耗时也逐步增加；但15并发测试中TTFT明显偏高（平均3.025s），可能受测试样本较少或调度偶发延时影响。

三、关键性能指标

四、详细数据

5请求5并发

15请求15并发

25请求25并发

35请求35并发

45请求45并发

55请求55并发