参数量、显存和推理速度:选模型之前你需要知道的硬件常识

参数量和显存是什么关系?7B 模型需要多少显存?量化能省多少?消费级显卡能跑什么规模的 Hermes 模型?一篇讲明白硬件选择的底层逻辑。

目录

  1. 这篇文章解决什么问题
  2. 参数量的基本概念
  3. 参数量和显存的换算
    1. FP16:基本换算公式
    2. 这意味着什么
  4. 量化:用更少的显存跑模型
    1. 什么是量化
    2. 不同量化级别下的显存需求
    3. 量化会损失多少质量?
    4. GGUF 格式
  5. MoE 模型的显存计算
    1. MoE 的基本原理
    2. 显存需求
  6. 推理速度:另一个重要维度
    1. 影响推理速度的因素
    2. 常见硬件的推理速度参考
  7. CPU 推理:没有独显也能跑
    1. 纯 CPU 推理
    2. GPU + CPU 混合推理
  8. 消费级显卡 + Hermes 的推荐方案
    1. 方案1:极致省钱
    2. 方案2:性价比之选
    3. 方案3:追求体验
    4. 方案4:玩大模型
    5. 方案5:Mac 用户
  9. 服务器 / 云端选项
    1. 按需租用 GPU
    2. 直接用 API
  10. 写在最后

这篇文章解决什么问题

你想在自己的电脑上跑一个 Hermes 模型。打开 Hugging Face 一看——8B、70B、405B,这些数字和你的显卡有什么关系?你的 RTX 4060 能跑 70B 吗?量化是怎么回事?选错了模型会不会把显卡烧了?

别慌。硬件和模型的关系没有那么复杂,但确实有一些基本的换算逻辑你需要知道。搞清楚了,以后看到任何模型你都能快速判断自己能不能跑。

参数量的基本概念

先快速复习一下。大语言模型里的「参数」就是神经网络中的可调节数字。每个参数存储了模型从训练数据中学到的一小片「知识」。

  • 7B = 70亿个参数
  • 13B = 130亿个参数
  • 70B = 700亿个参数
  • 405B = 4050亿个参数

这些参数需要被存储在某个地方才能运行模型。在推理(使用模型生成回答)时,这些参数需要被加载到**显存(VRAM)**或内存(RAM)中。

关键来了:参数量直接决定了需要多少显存。

参数量和显存的换算

FP16:基本换算公式

在默认精度(FP16,即每个参数用16位浮点数存储)下,换算非常简单:

所需显存(GB)≈ 参数量(B)× 2

因为每个参数占 2 字节(16位 = 2字节),所以:

参数量 FP16 显存需求
1B ~2 GB
7B ~14 GB
8B ~16 GB
13B ~26 GB
34B ~68 GB
70B ~140 GB
405B ~810 GB

这里说的只是存储模型参数本身需要的显存。实际运行时还需要额外的显存来存储中间计算结果(KV Cache 等),所以实际需求会比这个公式算出来的多 10%-30%。

这意味着什么

拿几款常见显卡来对照:

显卡 显存 FP16 能跑的最大模型
RTX 3060 12 GB ~5B(勉强6B)
RTX 4060 Ti 16 GB ~7B
RTX 4070 Ti Super 16 GB ~7B
RTX 4080 16 GB ~7B
RTX 4090 24 GB ~11B
RTX 3090 24 GB ~11B
A100 (80GB) 80 GB ~35B
2× A100 160 GB ~70B

看到问题了吧?如果不做任何优化,一张消费级显卡连 8B 模型都装不下。 14-16 GB 的显存需求已经卡在 RTX 4060 Ti / 4080 的上限了。

那人们是怎么在消费级硬件上跑模型的?答案是——量化

量化:用更少的显存跑模型

什么是量化

量化(Quantization)是把模型参数从高精度数字降低到低精度数字的过程。

原理很直觉:FP16 用16位存储一个参数,精度很高但占空间。如果我们把精度降低到 8 位、4 位甚至 2 位,每个参数占用的空间就大幅减少了。

量化级别 每参数字节数 相对FP16的空间
FP16 2 字节 100%
INT8 (8-bit) 1 字节 50%
INT4 (4-bit) 0.5 字节 25%
2-bit 0.25 字节 12.5%

不同量化级别下的显存需求

以 Hermes 3 8B 为例:

量化级别 显存需求 可以跑在
FP16 ~16 GB RTX 4080/4090
INT8 ~8 GB RTX 3070/4060 Ti
Q6_K ~6.5 GB RTX 3060 (12GB)
Q4_K_M ~5 GB RTX 3060/4060
Q4_K_S ~4.5 GB RTX 3060/4060
Q3_K ~3.5 GB 几乎任何独显
Q2_K ~3 GB 入门级显卡

没看错,一个 8B 模型经过 4-bit 量化后只需要约 5 GB 显存。一张 RTX 3060(12GB)甚至一张 RTX 4060(8GB)就能轻松运行。

量化会损失多少质量?

这是大家最关心的问题。好消息是:合理的量化对模型质量的影响远比你想象的小。

根据社区的大量对比测试和 cocoloop 论坛上开发者的反馈:

  • 8-bit 量化(INT8/Q8_0):几乎无损。绝大多数用户分辨不出和 FP16 的区别。
  • 6-bit 量化(Q6_K):极微小的质量损失,日常使用完全感知不到。
  • 4-bit 量化(Q4_K_M):轻微质量损失。对于日常对话、代码生成等任务,影响可以忽略。对于需要精确推理的复杂任务,偶尔能感觉到差异。
  • 3-bit 量化(Q3_K):开始有可感知的质量下降,但仍然可用。
  • 2-bit 量化(Q2_K):质量损失明显。只建议在显存实在不够的极端情况下使用。

对大多数人来说,4-bit 量化是性价比最高的选择。 显存需求降低了 75%,质量损失极其有限。

GGUF 格式

你在下载量化模型时会经常看到 GGUF 格式的文件。这是 llama.cpp 项目定义的一种模型文件格式,支持各种量化级别,被 Ollama、llama.cpp 等主流推理工具广泛支持。

在 Hugging Face 上搜索 Hermes 模型时,带有 GGUF 标签的版本通常是社区(比如 TheBloke)提供的各种量化版本。

MoE 模型的显存计算

Hermes 模型版本怎么看 里面提到,Hermes 4 和 4.3 使用了 MoE(Mixture of Experts)架构。MoE 模型的显存计算有点不同。

MoE 的基本原理

MoE 模型有很多「专家」子网络,但每次推理只激活其中一部分。比如 Hermes 4.3 基于 Seed 1.5,总参数 200B,但每次推理只激活约 20B 的参数。

显存需求

关键点:你仍然需要把所有参数加载到显存中,不只是激活的那部分。

所以 200B 总参数的 MoE 模型在 FP16 下需要约 400 GB 显存。虽然推理时只用到 20B 参数的计算量(所以速度比 200B 密集模型快得多),但存储空间是按总参数来算的。

当然,量化同样适用于 MoE 模型。200B 总参数用 4-bit 量化后,显存需求降到约 100 GB,用 2-3 张高端消费卡或者一台配备大显存的工作站就能跑。

推理速度:另一个重要维度

显存决定了你能不能跑某个模型,推理速度决定了用起来舒不舒服。

影响推理速度的因素

1. 模型参数量
参数越多,每生成一个 token 需要的计算量越大,速度越慢。

2. 量化级别
量化不只省显存,还能加速。因为更小的数据类型意味着更少的内存带宽消耗和更快的计算。4-bit 模型通常比 FP16 快 2-3 倍。

3. GPU 算力
更强的 GPU 自然推理更快。RTX 4090 的推理速度通常是 RTX 4060 的 3-4 倍。

4. 上下文长度
上下文越长,推理越慢。这是因为 Transformer 架构中的注意力机制的计算量和上下文长度的平方成正比。

5. 内存带宽
对于大模型推理来说,瓶颈往往不是 GPU 的计算能力,而是显存的带宽(从显存读取参数的速度)。这就是为什么苹果的 M 系列芯片在推理大模型时表现不错——它们的统一内存架构有很高的带宽。

常见硬件的推理速度参考

以 Hermes 3 8B(4-bit 量化,GGUF 格式)为例,使用 llama.cpp 推理:

硬件 大致推理速度
RTX 3060 (12GB) ~25-35 tokens/秒
RTX 4060 (8GB) ~30-40 tokens/秒
RTX 4070 Ti ~45-55 tokens/秒
RTX 4090 ~70-90 tokens/秒
M2 Pro (19核GPU) ~15-25 tokens/秒
M3 Max ~30-45 tokens/秒

人类阅读中文的速度大约是每秒 5-8 个字(约 5-10 个 token),所以 30 tokens/秒以上的推理速度在体感上已经非常流畅了——模型输出文字的速度比你阅读的速度还快。

CPU 推理:没有独显也能跑

如果你没有独立显卡或者显存不够,也不是完全没办法。

纯 CPU 推理

llama.cpp 支持纯 CPU 推理。所有计算在 CPU 上完成,模型参数存储在系统内存(RAM)中。

优点:不需要任何 GPU,只要有足够的内存就行。
缺点:慢很多。纯 CPU 推理的速度通常只有 GPU 推理的 1/5 到 1/10。

以 Hermes 3 8B Q4_K_M 为例:

  • GPU(RTX 4060):~35 tokens/秒
  • CPU(i7-13700K):~5-8 tokens/秒
  • CPU(M2 Pro):~12-18 tokens/秒

5 tokens/秒的速度虽然慢,但对于非实时场景(比如批量处理文本、离线生成内容)来说也不是不能接受。

GPU + CPU 混合推理

很多推理工具支持把模型的一部分层放在 GPU 上,剩下的放在 CPU 上。这样可以跑比你显存容量更大的模型,速度介于纯 GPU 和纯 CPU 之间。

比如你有一张 8 GB 显存的显卡,想跑需要 16 GB 的 FP16 8B 模型。你可以把一半的层放 GPU、一半放 CPU,这样虽然比全部在 GPU 上慢,但比纯 CPU 快得多。

消费级显卡 + Hermes 的推荐方案

根据不同预算和需求,给你几个实际方案:

方案1:极致省钱

硬件:任何有 6GB+ 显存的显卡(或纯 CPU,16GB+ 内存)
模型:Hermes 3 8B,Q3_K 或 Q4_K_S 量化
体验:能用,速度可能偏慢,质量有轻微损失
预算:利用现有硬件,不需要额外投入

方案2:性价比之选

硬件:RTX 4060 Ti 16GB 或 RTX 3060 12GB
模型:Hermes 3 8B,Q4_K_M 或 Q6_K 量化
体验:流畅,质量接近无损
预算:显卡 2000-3000 元

这是 cocoloop 社区里最多人使用的方案。性能够用,价格合理。

方案3:追求体验

硬件:RTX 4090 24GB
模型:Hermes 3 8B FP16,或 Hermes 3 8B Q8 + 长上下文
体验:极速,满血质量
预算:显卡约 12000-14000 元

方案4:玩大模型

硬件:2× RTX 3090 24GB(共48GB)或类似配置
模型:Hermes 3 70B Q4 量化
体验:70B 模型的质量明显优于 8B,但需要更多投入
预算:显卡约 15000-20000 元

方案5:Mac 用户

硬件:Mac M2 Pro/Max 或 M3 Pro/Max(32GB+ 统一内存)
模型:Hermes 3 8B Q4_K_M(用 Ollama 或 llama.cpp)
体验:流畅,Mac 的统一内存架构对推理友好
预算:取决于你已有的 Mac 型号

苹果芯片的一个优势是统一内存架构——CPU 和 GPU 共享同一块内存,没有 PCIe 带宽瓶颈。64GB 内存的 Mac 甚至可以跑 70B 的 4-bit 量化模型。

服务器 / 云端选项

如果你不想在本地折腾硬件,也可以用云端 GPU:

按需租用 GPU

Vast.aiRunPod 等平台提供按小时计费的 GPU 租用服务。一张 A100 80GB 的价格大约每小时 1-2 美元,足够跑 Hermes 3 34B 级别的模型。

直接用 API

最省心的方式。通过 OpenRouter 等平台直接调用 Hermes 的 API,不用管硬件的事。按 token 计费,适合用量不大或者不想维护基础设施的人。

关于本地部署和 API 调用的更详细对比,可以看 本地部署 vs 云端 API 这篇。

写在最后

硬件选择这件事,核心就三条:

  1. 参数量 × 每参数字节数 = 需要的显存。这是基本的换算公式。
  2. 量化是你的好朋友。4-bit 量化把显存需求降低到 1/4,质量损失很小。
  3. 先跑起来再优化。别花太长时间纠结硬件方案,用手头现有的设备先试试,不够好再升级。

在 cocoloop 社区里经常有人问「我的显卡能不能跑 Hermes」这类问题。如果你也有这个疑问,对照上面的表格估算一下就行。大概率的结论是:你的显卡可以跑 Hermes 8B 的量化版本。 从这里开始,就够了。

参与讨论

对这篇文章有疑问或想法?cocoloop 社区有不少开发者在讨论 Hermes 相关话题,欢迎加入交流。

前往 cocoloop 社区 →