vLLM:大模型高性能推理引擎

项目简介

vLLM 是业界领先的开源大语言模型推理引擎,由加州大学伯克利分校的研究团队开发。它通过创新的 PagedAttention 内存管理技术,将 LLM 推理的吞吐量提升了数倍,同时显著降低了显存占用,使得大模型的部署成本大幅下降。

基本信息

项目 数据
GitHub https://github.com/vllm-project/vllm
Star 数 82,612
编程语言 Python
分类 推理引擎
作者 vllm-project
创建时间 2023-02-09
最近更新 2026-06-12

功能介绍

核心功能

应用场景

优势特点

  1. 极致吞吐性能:相比常规推理方案,吞吐量提升 2-4 倍
  2. 广泛模型支持:支持 LLaMA、Qwen、Mistral、DeepSeek 等主流开源模型
  3. 丰富功能集成:支持 OpenAI 兼容 API、流式输出、函数调用等

数据来源: GitHub - https://github.com/vllm-project/vllm 发布时间: 2026-06-12 作者: vllm-project 原文链接: https://github.com/vllm-project/vllm

← 返回 ← 首页

🔅 微信分享

截图二维码,在微信中打开分享

QR Code

扫描二维码查看当前页面