返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

DeepSeek满血版云端私有化部署,支持知识库,仅2.5万/月!

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

智星云提供一站式大模型服务方案,支持Deepseek全系模型(R1满血版/V3、70B/32B)及量化/非量化部署。

提供模型调优、RAG知识库构建与实时联网搜索能力。

集成Agent智能体框架实现多任务处理,配备多级鉴权体系保障数据安全,满足企业级场景需求,适配不同规模用户提供精准智能服务。

DeepSeek云端私有化方案:

DeepSeek云端私有化方案测试报告:
本报告针对两台4090服务器型号deepseek-R1的大语言模型在不同并发场景下(5 到 55 并发)的性能表现进行了系统测试。
测试指标涵盖整体耗时、吞吐量、每秒请求数(QPS)、平均响应延时、首 token 响应时间(TTFT)、每个输出 token 生成耗时(TPOT)、以及输入/输出 token 数量等。
所有数据均来自标准openqa数据集。
综合各并发级别的测试数据,deepseek-R1 模型在低并发(5、15)下响应较快,但随着并发数提高(25至55),系统吞吐量虽不断提升,但平均延时及每token生成时间也随之增加,特别是在高并发下尾部延时明显上升,模型在高并发环境下能够稳定处理请求。
并发与吞吐量以及输出token的关系图表:
吞吐量与并行
一、测试环境与配置
模型信息:deepseek-R1
超时设置:连接与读取超时均为120s
测试数据集:openqa
请求参数:
最大输出 token:2048
输入 token 数:约 22~28
输出 token 数:大致在 650~1200 范围内
并发测试:共测试了 5、15、25、35、45、55 并发,无一例失败请求
二、各并发级别数据概览
下表为各并发场景下的核心指标(平均吞吐量单位:tokens/s;QPS:每秒请求数):
说明:从5、25、35、45、55并发测试中可见,随着并发数提高,系统整体吞吐量呈上升趋势,而平均延时及每个输出token的生成耗时也逐步增加;但15并发测试中TTFT明显偏高(平均3.025s),可能受测试样本较少或调度偶发延时影响。
三、关键性能指标
四、详细数据
5请求5并发
15请求15并发
25请求25并发

35请求35并发


45请求45并发
55请求55并发

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ