技术深潜 2026-04-10 Hermes 模型量化全攻略:GGUF、AWQ、GPTQ、FP8 怎么选 量化是什么,为什么需要它Hermes 3 系列有多个参数规模:8B、70B、405B。以 70B 为例,原始的 FP16(半精度浮点)权重文件大约 140GB——光是把模型载入显存就需要两三张 A100 80GB。这对绝大多数个人用户和中小...