Vllm Distributed GPU multi-GPU Block Table

About 50 results

Open links in new tab

Past year

zhihu.com
https://www.zhihu.com › tardis › bd › art
多机多卡docker部署vllm - 知乎
2. 启动容器 build镜像后，分别在2台机器上启动容器，docker run的时候，带上entrypoint.sh文件中所需的2个参数（NODE_TYPE、HEAD_NODE_ADDRESS）。其中，我们指定一个节点为head节点， …
zhihu.com
https://www.zhihu.com › question
大模型推理框架，SGLang和vLLM有哪些区别？ - 知乎
这问题很多人都会有。诸如：“现在部署Llama 3.3用vLLM还是SGLang？”。每次听到这问题，我都差点把咖啡喷到屏幕上。这问题就像问"买车选特斯拉还是比亚迪"一样，没有标准答案，但坑我都踩过…
zhihu.com
https://www.zhihu.com › question
有人使用vLLM加速过自己的大语言模型吗？效果怎么样？ - 知乎
vllm 目前还是一个非常不稳定的框架，API 设计得一塌糊涂，参数跟 hugging face 的 transformer 很多不兼容，最大的bug ，同样的参数，在hugging face 的transformer 结果有很大的区别，vllm 出来的结 …
zhihu.com
https://www.zhihu.com › question
如何看待vllm-project/vllm-ascend, "vLLM原生支持华为昇腾"？
vLLM Ascend即将在昇腾平台支持vLLM多个高阶特性，如请求调度算法chunked prefill，大模型分布式并行策略 TensorParallelism (TP)、Pipeline Parallelism (PP)，投机解码speculativedecoding等，开源 …
zhihu.com
https://www.zhihu.com › topic › hot
vLLM - 知乎
知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区 …
zhihu.com
https://www.zhihu.com › question
vllm内部怎么根据max_model_len自动计算max_num_batched_tokens？
VLLM内部根据 max_model_len 计算 max_num_batched_tokens 的过程是通过定义模型的最大序列长度和批处理大小，然后计算每个批次的总Token数。这一过程确保了模型在硬件资源限制内高效运行。 …
zhihu.com
https://www.zhihu.com › question
如何在 Kubernetes 集群中部署大模型开源推理框架 VLLM？
如何在 Kubernetes 环境中优化大规模语言模型的部署流程，以及如何通过 GPU 加速提高模型的运行效率。
zhihu.com
https://www.zhihu.com › tardis › zm › art
实操用Langchain,vLLM,FastAPI构建一个自托管的Qwen-7B-Chat
Jan 9, 2025 · 自从2022年底chatgpt横空出世，ai的应用层出不穷。你是否希望可以通过一些流行的框架构建一个自己的llm (Large Language Model)系统，并将LLM投入生产？那么本文或许将符合你的要 …
zhihu.com
https://www.zhihu.com › question
有没有 vLLM / SGLang 多机多卡部署详细教程？ - 知乎
其中SGLang暂时不支持PP，支持多机跑TP，vLLM和TRT-LLM支持PP。鉴于vLLM使用难度小，社区活跃，有问题基本能在issue捞到，本文选取vLLM框架来作为 R1 671B 多机部署案例，从源码编译开 …
zhihu.com
https://www.zhihu.com › question
为什么vllm进行推理时的batchsize开得很大会导致乱码，也不爆显存？
vllm存在一些临时改动在vLLM中，Scheduler在面对请求资源不足时会触发Swap操作，即KV cache的CPUOffload。当batchsize增大，使得vLLM处理的请求变多，部分请求因资源不足被抢占，其KV …

Pagination
- 1
- 2
- 3
- Next