vLLM：大模型高性能推理引擎

项目简介

vLLM 是业界领先的开源大语言模型推理引擎，由加州大学伯克利分校的研究团队开发。它通过创新的 PagedAttention 内存管理技术，将 LLM 推理的吞吐量提升了数倍，同时显著降低了显存占用，使得大模型的部署成本大幅下降。

项目	数据
GitHub	https://github.com/vllm-project/vllm
Star 数	82,612
编程语言	Python
分类	推理引擎
作者	vllm-project
创建时间	2023-02-09
最近更新	2026-06-12

数据来源： GitHub - https://github.com/vllm-project/vllm 发布时间： 2026-06-12 作者： vllm-project 原文链接： https://github.com/vllm-project/vllm