链载Ai

标题: 不增加 GPU,首 Token 延迟下降 50%|LLM 服务负载均衡的新实践 [打印本页]

作者: 链载Ai    时间: 昨天 14:23
标题: 不增加 GPU,首 Token 延迟下降 50%|LLM 服务负载均衡的新实践


简介




Cloud Native


技术选型

Cloud Native


负载均衡算法介绍

Cloud Native

前缀匹配负载均衡

GPU 感知负载均衡

lb_policy:prefix_cachelb_config:serviceFQDN:redis.dnsservicePort:6379username:defaultpassword:xxxxxxxxxxxxredisKeyTTL:60






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5