对比评测 2026-04-09 推理平台横评:Ollama vs vLLM vs llama.cpp vs TGI 跑 Hermes 谁更快 模型选好了,下一个问题就是:用什么框架来跑? 同一个 Hermes 模型,在不同的推理框架上跑出来的速度、资源占用、并发能力可能差好几倍。选错框架等于白白浪费硬件投入。 今天拿四个最主流的本地推理框架——Ollama、vLLM、llama....