参数量、显存和推理速度：选模型之前你需要知道的硬件常识

这篇文章解决什么问题

你想在自己的电脑上跑一个 Hermes 模型。打开 Hugging Face 一看——8B、70B、405B，这些数字和你的显卡有什么关系？你的 RTX 4060 能跑 70B 吗？量化是怎么回事？选错了模型会不会把显卡烧了？

别慌。硬件和模型的关系没有那么复杂，但确实有一些基本的换算逻辑你需要知道。搞清楚了，以后看到任何模型你都能快速判断自己能不能跑。

参数量的基本概念

先快速复习一下。大语言模型里的「参数」就是神经网络中的可调节数字。每个参数存储了模型从训练数据中学到的一小片「知识」。

7B = 70亿个参数
13B = 130亿个参数
70B = 700亿个参数
405B = 4050亿个参数

这些参数需要被存储在某个地方才能运行模型。在推理（使用模型生成回答）时，这些参数需要被加载到**显存（VRAM）**或内存（RAM）中。

关键来了：参数量直接决定了需要多少显存。

参数量和显存的换算

FP16：基本换算公式

在默认精度（FP16，即每个参数用16位浮点数存储）下，换算非常简单：

所需显存（GB）≈ 参数量（B）× 2

因为每个参数占 2 字节（16位 = 2字节），所以：

参数量	FP16 显存需求
1B	~2 GB
7B	~14 GB
8B	~16 GB
13B	~26 GB
34B	~68 GB
70B	~140 GB
405B	~810 GB

这里说的只是存储模型参数本身需要的显存。实际运行时还需要额外的显存来存储中间计算结果（KV Cache 等），所以实际需求会比这个公式算出来的多 10%-30%。

这意味着什么

拿几款常见显卡来对照：

显卡	显存	FP16 能跑的最大模型
RTX 3060	12 GB	~5B（勉强6B）
RTX 4060 Ti	16 GB	~7B
RTX 4070 Ti Super	16 GB	~7B
RTX 4080	16 GB	~7B
RTX 4090	24 GB	~11B
RTX 3090	24 GB	~11B
A100 (80GB)	80 GB	~35B
2× A100	160 GB	~70B

看到问题了吧？如果不做任何优化，一张消费级显卡连 8B 模型都装不下。 14-16 GB 的显存需求已经卡在 RTX 4060 Ti / 4080 的上限了。

那人们是怎么在消费级硬件上跑模型的？答案是——量化。

量化：用更少的显存跑模型

什么是量化

量化（Quantization）是把模型参数从高精度数字降低到低精度数字的过程。

原理很直觉：FP16 用16位存储一个参数，精度很高但占空间。如果我们把精度降低到 8 位、4 位甚至 2 位，每个参数占用的空间就大幅减少了。

量化级别	每参数字节数	相对FP16的空间
FP16	2 字节	100%
INT8 (8-bit)	1 字节	50%
INT4 (4-bit)	0.5 字节	25%
2-bit	0.25 字节	12.5%

不同量化级别下的显存需求

以 Hermes 3 8B 为例：

量化级别	显存需求	可以跑在
FP16	~16 GB	RTX 4080/4090
INT8	~8 GB	RTX 3070/4060 Ti
Q6_K	~6.5 GB	RTX 3060 (12GB)
Q4_K_M	~5 GB	RTX 3060/4060
Q4_K_S	~4.5 GB	RTX 3060/4060
Q3_K	~3.5 GB	几乎任何独显
Q2_K	~3 GB	入门级显卡

没看错，一个 8B 模型经过 4-bit 量化后只需要约 5 GB 显存。一张 RTX 3060（12GB）甚至一张 RTX 4060（8GB）就能轻松运行。

量化会损失多少质量？

这是大家最关心的问题。好消息是：合理的量化对模型质量的影响远比你想象的小。

根据社区的大量对比测试和 cocoloop 论坛上开发者的反馈：

8-bit 量化（INT8/Q8_0）：几乎无损。绝大多数用户分辨不出和 FP16 的区别。
6-bit 量化（Q6_K）：极微小的质量损失，日常使用完全感知不到。
4-bit 量化（Q4_K_M）：轻微质量损失。对于日常对话、代码生成等任务，影响可以忽略。对于需要精确推理的复杂任务，偶尔能感觉到差异。
3-bit 量化（Q3_K）：开始有可感知的质量下降，但仍然可用。
2-bit 量化（Q2_K）：质量损失明显。只建议在显存实在不够的极端情况下使用。

对大多数人来说，4-bit 量化是性价比最高的选择。 显存需求降低了 75%，质量损失极其有限。

GGUF 格式

你在下载量化模型时会经常看到 GGUF 格式的文件。这是 llama.cpp 项目定义的一种模型文件格式，支持各种量化级别，被 Ollama、llama.cpp 等主流推理工具广泛支持。

在 Hugging Face 上搜索 Hermes 模型时，带有 GGUF 标签的版本通常是社区（比如 TheBloke）提供的各种量化版本。

MoE 模型的显存计算

Hermes 模型版本怎么看里面提到，Hermes 4 和 4.3 使用了 MoE（Mixture of Experts）架构。MoE 模型的显存计算有点不同。

MoE 的基本原理

MoE 模型有很多「专家」子网络，但每次推理只激活其中一部分。比如 Hermes 4.3 基于 Seed 1.5，总参数 200B，但每次推理只激活约 20B 的参数。

显存需求

关键点：你仍然需要把所有参数加载到显存中，不只是激活的那部分。

所以 200B 总参数的 MoE 模型在 FP16 下需要约 400 GB 显存。虽然推理时只用到 20B 参数的计算量（所以速度比 200B 密集模型快得多），但存储空间是按总参数来算的。

当然，量化同样适用于 MoE 模型。200B 总参数用 4-bit 量化后，显存需求降到约 100 GB，用 2-3 张高端消费卡或者一台配备大显存的工作站就能跑。

推理速度：另一个重要维度

显存决定了你能不能跑某个模型，推理速度决定了用起来舒不舒服。

影响推理速度的因素

1. 模型参数量
参数越多，每生成一个 token 需要的计算量越大，速度越慢。

2. 量化级别
量化不只省显存，还能加速。因为更小的数据类型意味着更少的内存带宽消耗和更快的计算。4-bit 模型通常比 FP16 快 2-3 倍。

3. GPU 算力
更强的 GPU 自然推理更快。RTX 4090 的推理速度通常是 RTX 4060 的 3-4 倍。

4. 上下文长度
上下文越长，推理越慢。这是因为 Transformer 架构中的注意力机制的计算量和上下文长度的平方成正比。

5. 内存带宽
对于大模型推理来说，瓶颈往往不是 GPU 的计算能力，而是显存的带宽（从显存读取参数的速度）。这就是为什么苹果的 M 系列芯片在推理大模型时表现不错——它们的统一内存架构有很高的带宽。

常见硬件的推理速度参考

以 Hermes 3 8B（4-bit 量化，GGUF 格式）为例，使用 llama.cpp 推理：

硬件	大致推理速度
RTX 3060 (12GB)	~25-35 tokens/秒
RTX 4060 (8GB)	~30-40 tokens/秒
RTX 4070 Ti	~45-55 tokens/秒
RTX 4090	~70-90 tokens/秒
M2 Pro (19核GPU)	~15-25 tokens/秒
M3 Max	~30-45 tokens/秒

人类阅读中文的速度大约是每秒 5-8 个字（约 5-10 个 token），所以 30 tokens/秒以上的推理速度在体感上已经非常流畅了——模型输出文字的速度比你阅读的速度还快。

CPU 推理：没有独显也能跑

如果你没有独立显卡或者显存不够，也不是完全没办法。

纯 CPU 推理

llama.cpp 支持纯 CPU 推理。所有计算在 CPU 上完成，模型参数存储在系统内存（RAM）中。

优点：不需要任何 GPU，只要有足够的内存就行。
缺点：慢很多。纯 CPU 推理的速度通常只有 GPU 推理的 1/5 到 1/10。

以 Hermes 3 8B Q4_K_M 为例：

GPU（RTX 4060）：~35 tokens/秒
CPU（i7-13700K）：~5-8 tokens/秒
CPU（M2 Pro）：~12-18 tokens/秒

5 tokens/秒的速度虽然慢，但对于非实时场景（比如批量处理文本、离线生成内容）来说也不是不能接受。

GPU + CPU 混合推理

很多推理工具支持把模型的一部分层放在 GPU 上，剩下的放在 CPU 上。这样可以跑比你显存容量更大的模型，速度介于纯 GPU 和纯 CPU 之间。

比如你有一张 8 GB 显存的显卡，想跑需要 16 GB 的 FP16 8B 模型。你可以把一半的层放 GPU、一半放 CPU，这样虽然比全部在 GPU 上慢，但比纯 CPU 快得多。

消费级显卡 + Hermes 的推荐方案

根据不同预算和需求，给你几个实际方案：

方案1：极致省钱

硬件：任何有 6GB+ 显存的显卡（或纯 CPU，16GB+ 内存）
模型：Hermes 3 8B，Q3_K 或 Q4_K_S 量化
体验：能用，速度可能偏慢，质量有轻微损失
预算：利用现有硬件，不需要额外投入

方案2：性价比之选

硬件：RTX 4060 Ti 16GB 或 RTX 3060 12GB
模型：Hermes 3 8B，Q4_K_M 或 Q6_K 量化
体验：流畅，质量接近无损
预算：显卡 2000-3000 元

这是 cocoloop 社区里最多人使用的方案。性能够用，价格合理。

方案3：追求体验

硬件：RTX 4090 24GB
模型：Hermes 3 8B FP16，或 Hermes 3 8B Q8 + 长上下文
体验：极速，满血质量
预算：显卡约 12000-14000 元

方案4：玩大模型

硬件：2× RTX 3090 24GB（共48GB）或类似配置
模型：Hermes 3 70B Q4 量化
体验：70B 模型的质量明显优于 8B，但需要更多投入
预算：显卡约 15000-20000 元

方案5：Mac 用户

硬件：Mac M2 Pro/Max 或 M3 Pro/Max（32GB+ 统一内存）
模型：Hermes 3 8B Q4_K_M（用 Ollama 或 llama.cpp）
体验：流畅，Mac 的统一内存架构对推理友好
预算：取决于你已有的 Mac 型号

苹果芯片的一个优势是统一内存架构——CPU 和 GPU 共享同一块内存，没有 PCIe 带宽瓶颈。64GB 内存的 Mac 甚至可以跑 70B 的 4-bit 量化模型。

服务器 / 云端选项

如果你不想在本地折腾硬件，也可以用云端 GPU：

按需租用 GPU

Vast.ai、RunPod 等平台提供按小时计费的 GPU 租用服务。一张 A100 80GB 的价格大约每小时 1-2 美元，足够跑 Hermes 3 34B 级别的模型。

直接用 API

最省心的方式。通过 OpenRouter 等平台直接调用 Hermes 的 API，不用管硬件的事。按 token 计费，适合用量不大或者不想维护基础设施的人。

关于本地部署和 API 调用的更详细对比，可以看本地部署 vs 云端 API 这篇。

写在最后

硬件选择这件事，核心就三条：

参数量 × 每参数字节数 = 需要的显存。这是基本的换算公式。
量化是你的好朋友。4-bit 量化把显存需求降低到 1/4，质量损失很小。
先跑起来再优化。别花太长时间纠结硬件方案，用手头现有的设备先试试，不够好再升级。

在 cocoloop 社区里经常有人问「我的显卡能不能跑 Hermes」这类问题。如果你也有这个疑问，对照上面的表格估算一下就行。大概率的结论是：你的显卡可以跑 Hermes 8B 的量化版本。 从这里开始，就够了。