这篇文章解决什么问题
你想在自己的电脑上跑一个 Hermes 模型。打开 Hugging Face 一看——8B、70B、405B,这些数字和你的显卡有什么关系?你的 RTX 4060 能跑 70B 吗?量化是怎么回事?选错了模型会不会把显卡烧了?
别慌。硬件和模型的关系没有那么复杂,但确实有一些基本的换算逻辑你需要知道。搞清楚了,以后看到任何模型你都能快速判断自己能不能跑。
参数量的基本概念
先快速复习一下。大语言模型里的「参数」就是神经网络中的可调节数字。每个参数存储了模型从训练数据中学到的一小片「知识」。
- 7B = 70亿个参数
- 13B = 130亿个参数
- 70B = 700亿个参数
- 405B = 4050亿个参数
这些参数需要被存储在某个地方才能运行模型。在推理(使用模型生成回答)时,这些参数需要被加载到**显存(VRAM)**或内存(RAM)中。
关键来了:参数量直接决定了需要多少显存。
参数量和显存的换算
FP16:基本换算公式
在默认精度(FP16,即每个参数用16位浮点数存储)下,换算非常简单:
所需显存(GB)≈ 参数量(B)× 2
因为每个参数占 2 字节(16位 = 2字节),所以:
| 参数量 | FP16 显存需求 |
|---|---|
| 1B | ~2 GB |
| 7B | ~14 GB |
| 8B | ~16 GB |
| 13B | ~26 GB |
| 34B | ~68 GB |
| 70B | ~140 GB |
| 405B | ~810 GB |
这里说的只是存储模型参数本身需要的显存。实际运行时还需要额外的显存来存储中间计算结果(KV Cache 等),所以实际需求会比这个公式算出来的多 10%-30%。
这意味着什么
拿几款常见显卡来对照:
| 显卡 | 显存 | FP16 能跑的最大模型 |
|---|---|---|
| RTX 3060 | 12 GB | ~5B(勉强6B) |
| RTX 4060 Ti | 16 GB | ~7B |
| RTX 4070 Ti Super | 16 GB | ~7B |
| RTX 4080 | 16 GB | ~7B |
| RTX 4090 | 24 GB | ~11B |
| RTX 3090 | 24 GB | ~11B |
| A100 (80GB) | 80 GB | ~35B |
| 2× A100 | 160 GB | ~70B |
看到问题了吧?如果不做任何优化,一张消费级显卡连 8B 模型都装不下。 14-16 GB 的显存需求已经卡在 RTX 4060 Ti / 4080 的上限了。
那人们是怎么在消费级硬件上跑模型的?答案是——量化。
量化:用更少的显存跑模型
什么是量化
量化(Quantization)是把模型参数从高精度数字降低到低精度数字的过程。
原理很直觉:FP16 用16位存储一个参数,精度很高但占空间。如果我们把精度降低到 8 位、4 位甚至 2 位,每个参数占用的空间就大幅减少了。
| 量化级别 | 每参数字节数 | 相对FP16的空间 |
|---|---|---|
| FP16 | 2 字节 | 100% |
| INT8 (8-bit) | 1 字节 | 50% |
| INT4 (4-bit) | 0.5 字节 | 25% |
| 2-bit | 0.25 字节 | 12.5% |
不同量化级别下的显存需求
以 Hermes 3 8B 为例:
| 量化级别 | 显存需求 | 可以跑在 |
|---|---|---|
| FP16 | ~16 GB | RTX 4080/4090 |
| INT8 | ~8 GB | RTX 3070/4060 Ti |
| Q6_K | ~6.5 GB | RTX 3060 (12GB) |
| Q4_K_M | ~5 GB | RTX 3060/4060 |
| Q4_K_S | ~4.5 GB | RTX 3060/4060 |
| Q3_K | ~3.5 GB | 几乎任何独显 |
| Q2_K | ~3 GB | 入门级显卡 |
没看错,一个 8B 模型经过 4-bit 量化后只需要约 5 GB 显存。一张 RTX 3060(12GB)甚至一张 RTX 4060(8GB)就能轻松运行。
量化会损失多少质量?
这是大家最关心的问题。好消息是:合理的量化对模型质量的影响远比你想象的小。
根据社区的大量对比测试和 cocoloop 论坛上开发者的反馈:
- 8-bit 量化(INT8/Q8_0):几乎无损。绝大多数用户分辨不出和 FP16 的区别。
- 6-bit 量化(Q6_K):极微小的质量损失,日常使用完全感知不到。
- 4-bit 量化(Q4_K_M):轻微质量损失。对于日常对话、代码生成等任务,影响可以忽略。对于需要精确推理的复杂任务,偶尔能感觉到差异。
- 3-bit 量化(Q3_K):开始有可感知的质量下降,但仍然可用。
- 2-bit 量化(Q2_K):质量损失明显。只建议在显存实在不够的极端情况下使用。
对大多数人来说,4-bit 量化是性价比最高的选择。 显存需求降低了 75%,质量损失极其有限。
GGUF 格式
你在下载量化模型时会经常看到 GGUF 格式的文件。这是 llama.cpp 项目定义的一种模型文件格式,支持各种量化级别,被 Ollama、llama.cpp 等主流推理工具广泛支持。
在 Hugging Face 上搜索 Hermes 模型时,带有 GGUF 标签的版本通常是社区(比如 TheBloke)提供的各种量化版本。
MoE 模型的显存计算
Hermes 模型版本怎么看 里面提到,Hermes 4 和 4.3 使用了 MoE(Mixture of Experts)架构。MoE 模型的显存计算有点不同。
MoE 的基本原理
MoE 模型有很多「专家」子网络,但每次推理只激活其中一部分。比如 Hermes 4.3 基于 Seed 1.5,总参数 200B,但每次推理只激活约 20B 的参数。
显存需求
关键点:你仍然需要把所有参数加载到显存中,不只是激活的那部分。
所以 200B 总参数的 MoE 模型在 FP16 下需要约 400 GB 显存。虽然推理时只用到 20B 参数的计算量(所以速度比 200B 密集模型快得多),但存储空间是按总参数来算的。
当然,量化同样适用于 MoE 模型。200B 总参数用 4-bit 量化后,显存需求降到约 100 GB,用 2-3 张高端消费卡或者一台配备大显存的工作站就能跑。
推理速度:另一个重要维度
显存决定了你能不能跑某个模型,推理速度决定了用起来舒不舒服。
影响推理速度的因素
1. 模型参数量
参数越多,每生成一个 token 需要的计算量越大,速度越慢。
2. 量化级别
量化不只省显存,还能加速。因为更小的数据类型意味着更少的内存带宽消耗和更快的计算。4-bit 模型通常比 FP16 快 2-3 倍。
3. GPU 算力
更强的 GPU 自然推理更快。RTX 4090 的推理速度通常是 RTX 4060 的 3-4 倍。
4. 上下文长度
上下文越长,推理越慢。这是因为 Transformer 架构中的注意力机制的计算量和上下文长度的平方成正比。
5. 内存带宽
对于大模型推理来说,瓶颈往往不是 GPU 的计算能力,而是显存的带宽(从显存读取参数的速度)。这就是为什么苹果的 M 系列芯片在推理大模型时表现不错——它们的统一内存架构有很高的带宽。
常见硬件的推理速度参考
以 Hermes 3 8B(4-bit 量化,GGUF 格式)为例,使用 llama.cpp 推理:
| 硬件 | 大致推理速度 |
|---|---|
| RTX 3060 (12GB) | ~25-35 tokens/秒 |
| RTX 4060 (8GB) | ~30-40 tokens/秒 |
| RTX 4070 Ti | ~45-55 tokens/秒 |
| RTX 4090 | ~70-90 tokens/秒 |
| M2 Pro (19核GPU) | ~15-25 tokens/秒 |
| M3 Max | ~30-45 tokens/秒 |
人类阅读中文的速度大约是每秒 5-8 个字(约 5-10 个 token),所以 30 tokens/秒以上的推理速度在体感上已经非常流畅了——模型输出文字的速度比你阅读的速度还快。
CPU 推理:没有独显也能跑
如果你没有独立显卡或者显存不够,也不是完全没办法。
纯 CPU 推理
llama.cpp 支持纯 CPU 推理。所有计算在 CPU 上完成,模型参数存储在系统内存(RAM)中。
优点:不需要任何 GPU,只要有足够的内存就行。
缺点:慢很多。纯 CPU 推理的速度通常只有 GPU 推理的 1/5 到 1/10。
以 Hermes 3 8B Q4_K_M 为例:
- GPU(RTX 4060):~35 tokens/秒
- CPU(i7-13700K):~5-8 tokens/秒
- CPU(M2 Pro):~12-18 tokens/秒
5 tokens/秒的速度虽然慢,但对于非实时场景(比如批量处理文本、离线生成内容)来说也不是不能接受。
GPU + CPU 混合推理
很多推理工具支持把模型的一部分层放在 GPU 上,剩下的放在 CPU 上。这样可以跑比你显存容量更大的模型,速度介于纯 GPU 和纯 CPU 之间。
比如你有一张 8 GB 显存的显卡,想跑需要 16 GB 的 FP16 8B 模型。你可以把一半的层放 GPU、一半放 CPU,这样虽然比全部在 GPU 上慢,但比纯 CPU 快得多。
消费级显卡 + Hermes 的推荐方案
根据不同预算和需求,给你几个实际方案:
方案1:极致省钱
硬件:任何有 6GB+ 显存的显卡(或纯 CPU,16GB+ 内存)
模型:Hermes 3 8B,Q3_K 或 Q4_K_S 量化
体验:能用,速度可能偏慢,质量有轻微损失
预算:利用现有硬件,不需要额外投入
方案2:性价比之选
硬件:RTX 4060 Ti 16GB 或 RTX 3060 12GB
模型:Hermes 3 8B,Q4_K_M 或 Q6_K 量化
体验:流畅,质量接近无损
预算:显卡 2000-3000 元
这是 cocoloop 社区里最多人使用的方案。性能够用,价格合理。
方案3:追求体验
硬件:RTX 4090 24GB
模型:Hermes 3 8B FP16,或 Hermes 3 8B Q8 + 长上下文
体验:极速,满血质量
预算:显卡约 12000-14000 元
方案4:玩大模型
硬件:2× RTX 3090 24GB(共48GB)或类似配置
模型:Hermes 3 70B Q4 量化
体验:70B 模型的质量明显优于 8B,但需要更多投入
预算:显卡约 15000-20000 元
方案5:Mac 用户
硬件:Mac M2 Pro/Max 或 M3 Pro/Max(32GB+ 统一内存)
模型:Hermes 3 8B Q4_K_M(用 Ollama 或 llama.cpp)
体验:流畅,Mac 的统一内存架构对推理友好
预算:取决于你已有的 Mac 型号
苹果芯片的一个优势是统一内存架构——CPU 和 GPU 共享同一块内存,没有 PCIe 带宽瓶颈。64GB 内存的 Mac 甚至可以跑 70B 的 4-bit 量化模型。
服务器 / 云端选项
如果你不想在本地折腾硬件,也可以用云端 GPU:
按需租用 GPU
Vast.ai、RunPod 等平台提供按小时计费的 GPU 租用服务。一张 A100 80GB 的价格大约每小时 1-2 美元,足够跑 Hermes 3 34B 级别的模型。
直接用 API
最省心的方式。通过 OpenRouter 等平台直接调用 Hermes 的 API,不用管硬件的事。按 token 计费,适合用量不大或者不想维护基础设施的人。
关于本地部署和 API 调用的更详细对比,可以看 本地部署 vs 云端 API 这篇。
写在最后
硬件选择这件事,核心就三条:
- 参数量 × 每参数字节数 = 需要的显存。这是基本的换算公式。
- 量化是你的好朋友。4-bit 量化把显存需求降低到 1/4,质量损失很小。
- 先跑起来再优化。别花太长时间纠结硬件方案,用手头现有的设备先试试,不够好再升级。
在 cocoloop 社区里经常有人问「我的显卡能不能跑 Hermes」这类问题。如果你也有这个疑问,对照上面的表格估算一下就行。大概率的结论是:你的显卡可以跑 Hermes 8B 的量化版本。 从这里开始,就够了。