在同等资源条件下,可支撑更大的用户规模和更好的用户体验
通过AICP的模型量化、异步批推理机制、联合CPU和GPU通信优化、注意力稀疏化、以及KV缓存等特性,能够显著提升用户请求的并发量和推理服务的吞吐量、降低推理时延、提升序列长度。这样,可接入的用户将会更多,用户能够感受到的等待时间就更短,整体将获得更好的体验。