两条路摆在你面前
你决定开始认真用大语言模型了。不管是写代码、搞内容创作、做数据分析,还是纯粹玩玩。
这时候你面临一个选择:
路线A:本地部署。 把模型下载到自己的电脑上,用自己的硬件跑。代表方案:Ollama + Hermes。
路线B:云端 API。 不下载任何东西,通过网络调用远端的模型服务。代表方案:OpenRouter / OpenAI API。
这两条路各有优劣,适合的人群也不一样。这篇文章就帮你做这个选择。
先说结论
如果你不想看长文,直接给你一个决策框架:
选本地部署,如果你:
- 对数据隐私有严格要求(敏感数据不能传到外部服务器)
- 使用频率高(每天大量使用,API 费用会很贵)
- 喜欢折腾、愿意学习技术细节
- 有一张还不错的显卡(至少 8GB 显存)
- 需要低延迟的交互体验
选云端 API,如果你:
- 不想折腾任何技术配置
- 使用频率不高(偶尔用用)
- 需要顶级模型的能力(405B 级别)
- 硬件条件一般
- 需要快速接入,马上能用
好了,结论说完了。下面是详细分析。
本地部署:把 AI 搬到你的电脑上
怎么操作
最简单的本地部署方式:
- 安装 Ollama(支持 Mac、Linux、Windows)
- 打开终端,输入
ollama run hermes3 - 等模型下载完成(8B 模型大约 4-5GB)
- 开始对话
就这么简单。三步搞定。
如果你想要一个好看的聊天界面,可以再装一个 Open WebUI,它提供了类似 ChatGPT 的网页聊天界面,底层可以连接 Ollama。
优势
1. 完全免费(硬件成本除外)
模型是开源的,Ollama 是免费的,推理用的是你自己的硬件。用多少次都不花钱。
对比一下:如果你每天通过 API 处理 10 万个 token(大约一两个小时的高强度使用),一个月下来光 API 费就要好几十美元。而本地跑的话,除了电费,没有任何额外成本。
2. 数据隐私完全可控
这是很多人选择本地部署的首要原因。
当你通过 API 调用模型时,你的输入数据需要发送到服务提供商的服务器上。虽然大多数服务商承诺不会用你的数据训练模型,但你的数据确实「经过」了别人的服务器。
对于处理公司内部文档、客户数据、医疗记录、法律文件等敏感信息的场景,这可能是不可接受的。
本地部署意味着:你的数据始终在你自己的机器上,不出你的电脑一步。
3. 无网络也能用
飞机上、火车隧道里、WiFi 挂了——只要电脑还能开机,本地模型就能用。这对经常出差或网络环境不稳定的人来说很有价值。
4. 延迟极低
API 调用有网络延迟。从你发送请求到收到第一个 token 的回复,通常需要 0.5-2 秒。如果网络不好,可能更慢。
本地推理的延迟通常在 0.1 秒以内。这种即时响应感在频繁交互时体验差异很明显。
5. 没有速率限制
API 服务通常有各种限制——每分钟请求次数、每秒 token 数、并发连接数等。如果你要批量处理大量文本,可能会撞到这些限制。
本地部署没有这些限制。你的硬件能跑多快就跑多快。
6. 高度可定制
本地部署给了你完全的控制权:
- 自由切换不同模型和量化版本
- 调整推理参数(temperature、top_p 等)
- 修改系统提示词
- 在模型基础上做微调
- 集成到自己的工具链中
劣势
1. 需要一定的硬件条件
前面在 参数量、显存和推理速度 那篇里详细讲过了。最低要求是有一张 6-8 GB 显存的独立显卡(或者 16GB+ 内存的 Mac)。如果你的电脑是集显轻薄本,体验会比较差。
2. 模型能力有上限
消费级硬件能跑的最大模型通常是 8B 或经过量化的 13B。这和 API 可以调用的 405B、700B 级别的模型差距不小。
8B 模型在日常任务中表现不错,但遇到复杂推理、长篇写作、高难度代码生成等场景时,确实不如大参数量模型。
3. 初始配置有门槛
虽然 Ollama 把门槛降得很低了,但对于完全不熟悉命令行的人来说还是有一点学习成本。驱动安装、环境配置、模型下载等步骤偶尔也会遇到问题。
4. 占用本机资源
推理时 GPU 满载运行,风扇可能会比较吵,电脑做其他事情(比如打游戏、视频剪辑)会受影响。如果你需要同时做其他 GPU 密集型任务,本地推理可能互相干扰。
云端 API:拿来就用
怎么操作
方式一:直接用在线聊天界面
很多平台提供了类似 ChatGPT 的在线聊天界面,比如:
注册账号,选择 Hermes 模型,直接开聊。
方式二:通过 API 集成到代码/应用中
1 | import openai |
OpenRouter 兼容 OpenAI 的 API 格式,所以很多现有的工具和代码库可以直接对接。
优势
1. 零硬件要求
只要能上网就行。你用一台五年前的轻薄本都能调用 405B 级别的模型,因为计算都在云端完成。
2. 可以用最强的模型
API 可以调用的模型规模远超消费级硬件能跑的范围。Hermes 3 405B、Claude 3、GPT-4 这些顶级模型,只有通过 API 才能用到。
3. 零配置
注册账号、充值、获取 API Key,五分钟搞定。不需要安装任何东西,不需要了解任何硬件知识。
4. 始终是最新版本
API 服务商会及时更新模型版本。你不需要自己下载新模型、管理版本,始终用的是最新的。
5. 弹性扩展
如果你的使用量突然增大(比如产品上线了),API 可以自动扩展。本地部署的话你得买更多的硬件。
劣势
1. 按用量付费,可能很贵
API 按 token 计费。如果你是重度用户,费用会快速累积。
粗略算一笔账:
- 假设你每天使用 Hermes 3 8B API 处理 50 万 token(中等强度使用)
- OpenRouter 上 Hermes 3 8B 的价格大约每百万 token $0.06-0.10
- 每月成本:约 $1-1.5
这个价格看起来不高对吧?但如果你换成更大的模型(70B 或 405B),或者使用量更大,费用就会显著增加:
- Hermes 3 70B:每百万 token $0.4-0.8,每月中等使用约 $10-15
- 更大模型或商业 API:每月可能几十到几百美元
而本地部署 8B 模型的成本就是电费——每月大概几块钱。
2. 数据离开了你的设备
前面说过了,数据隐私是 API 调用的硬伤。你的所有输入都会发送到远端服务器。
3. 需要稳定网络
没网就用不了。网络延迟也会直接影响体验。
4. 受服务商政策约束
API 服务可能会有:
- 速率限制
- 内容过滤(某些话题可能被拒绝)
- 服务条款变更
- 价格调整
- 甚至停服
你的应用依赖外部服务,就意味着你受制于服务商的决策。本地部署则完全自主。
5. 延迟
网络往返 + 服务端排队 + 处理时间,第一个 token 的延迟通常在 0.5-3 秒。对于需要快速交互的场景,这个延迟会影响体验。
成本对比:到底哪个更省钱
这个问题需要具体场景具体分析。
场景1:轻度使用者
每天用几次,每次几百 token。
- API 月费:不到 $1
- 本地部署:显卡成本 2000+ 元,电费可忽略
结论:轻度使用选 API,经济得多。
场景2:中度使用者
每天使用1-2小时,日均 20 万 token。
- API 月费(8B):约 $0.5-1
- API 月费(70B):约 $5-10
- 本地部署(已有合适显卡):电费约 10-20 元/月
结论:如果你已经有合适的显卡,本地更省。如果需要专门买卡,需要半年到一年才能回本。
场景3:重度使用者 / 开发者
每天大量使用,日均 100 万+ token,可能还需要批量处理。
- API 月费(8B):约 $3-5
- API 月费(70B):约 $20-50
- 本地部署:显卡一次性投入后,长期成本极低
结论:重度用户本地部署的长期成本优势非常明显。特别是如果你 8B 模型能满足需求的话,一张 2000 元的显卡就是全部投入。
场景4:企业团队
多人使用,可能需要高可用性和大模型能力。
这种场景通常会考虑混合方案——租用云端 GPU 部署模型(而不是用公共 API),或者自建小型 GPU 服务器。成本分析更复杂,需要根据具体的使用量和需求来计算。
cocoloop 社区里有不少团队分享过自己的部署方案和成本分析。从反馈来看,月处理量在几千万 token 以上的团队,自建部署(无论是自购硬件还是租用 GPU 服务器)通常比纯 API 调用划算。
隐私考量的深入分析
这个话题值得单独展开说说。
你的数据会被拿去训练吗?
OpenAI 的政策:API 调用的数据默认不用于训练(但 ChatGPT 免费版的数据可能会被使用)。
OpenRouter:声明不使用用户数据训练模型。
其他平台:各有各的政策,需要仔细看。
即使服务商承诺不用你的数据训练模型,你的数据仍然在传输过程中和服务商的服务器上存在过。对于以下场景,这可能是不可接受的:
- 处理包含个人隐私信息的文本
- 分析公司内部机密文档
- 涉及受监管数据(如医疗数据、金融数据)的应用
- 所在行业有严格的数据本地化要求
本地部署的隐私优势
本地部署的隐私保证是物理层面的——数据从头到尾都没有离开你的设备。不需要信任任何第三方的承诺,因为根本没有第三方参与。
这也是很多开发者选择 Hermes 做本地部署的重要原因。Hermes 作为开源模型,你可以完全审计它的行为,确保没有任何数据外传的风险。这是闭源 API 永远给不了你的保证。
混合方案:鱼和熊掌兼得
其实你不必二选一。很多人采用的是混合策略:
方案1:本地 + API 互补
- 日常使用:本地跑 Hermes 3 8B(免费、快速、私密)
- 复杂任务:偶尔调用 70B 或 405B 的 API(更强的能力)
这样既省钱又不牺牲能力。大部分时候本地模型就够用了,遇到真正需要大模型的场景再花钱用 API。
方案2:开发时用 API,生产用本地
- 开发和测试阶段:用 API,快速迭代,不用操心部署
- 产品上线后:部署本地/私有化模型,降低长期成本,保证隐私
方案3:不同任务不同路线
- 处理敏感数据 → 本地
- 不敏感的通用任务 → API
- 需要极强推理能力的 → 大模型 API
Hermes 在两种路线下的表现
本地部署
Hermes 在本地部署方面有天然优势:
- 8B 版本非常适合本地:量化后 5-6 GB 显存就能跑
- Ollama 支持完善:
ollama run hermes3一行命令搞定 - ChatML 格式兼容性好:所有主流推理工具都支持
- 社区资源丰富:遇到问题很容易找到解决方案
在 cocoloop 社区里,Hermes + Ollama 是最受欢迎的本地部署组合。很多用户分享过自己的配置方案和使用心得,新手遇到问题基本都能找到参考。
API 调用
Hermes 通过 OpenRouter 等平台也可以 API 方式使用:
- 支持 8B、70B、405B 等多种规模
- OpenRouter 兼容 OpenAI API 格式
- 价格比闭源商业模型便宜
关于 Hermes 各版本之间能力的差异,可以参考 Hermes 是什么 和 Hermes 模型版本怎么看 这两篇。
新手该怎么开始
如果你到现在还没决定,这里给一个非常具体的建议:
Step 1:先试试本地部署
装一个 Ollama,跑一下 Hermes 3 8B。这个过程不到10分钟,完全免费。感受一下本地模型的速度和能力。
如果你的硬件跑不动(比如没有独显),跳到 Step 2。
Step 2:用在线服务补充
如果本地 8B 模型不够用(复杂任务搞不定),去 OpenRouter 注册一个账号,试用更大的模型。OpenRouter 有免费额度可以试用。
Step 3:根据实际体验决定
用了一两周后,你自然就知道自己的需求了:
- 如果 8B 本地模型大部分时间够用 → 以本地为主
- 如果经常需要更强的模型 → 以 API 为主,或者升级硬件
- 如果两边都需要 → 混合方案
不要在还没开始用之前就纠结方案。 跑起来,用起来,过程中自然会知道自己需要什么。
写在最后
本地部署和云端 API 不是对立的选择,而是互补的工具。关键是搞清楚你的核心需求:
- 隐私优先 → 本地
- 能力优先 → API(大模型)
- 成本优先(高频使用) → 本地
- 便利优先 → API
大多数人最终会找到一个属于自己的平衡点。别想着一开始就找到最优解,先动手,边用边调整就行。
在 cocoloop 论坛上也有很多关于部署方案选择的讨论帖,遇到具体问题可以去翻翻,总有人踩过你正在踩的坑。