Hermes 中文指南

为什么要搞工具调用大语言模型再聪明，也有搞不定的事——算术不精确、没法查实时数据、不能操作外部系统。解决方案就是给模型配上”工具”，让它在需要的时候调用外部函数来补齐能力。这就是 Function Calling（函数调用），或者更通用的...

模型输出 JSON 到底难在哪你让 Hermes 回答一个问题，它能给你写一篇通顺的文章。但你让它把答案按照一个固定的 JSON 格式输出，事情就变得微妙了。难点不在于模型”不会”输出 JSON——几乎所有主流大模型都见过海量的 JSON...

量化是什么，为什么需要它Hermes 3 系列有多个参数规模：8B、70B、405B。以 70B 为例，原始的 FP16（半精度浮点）权重文件大约 140GB——光是把模型载入显存就需要两三张 A100 80GB。这对绝大多数个人用户和中小...

RAG 是什么，为什么需要它大语言模型有一个根本性的局限：它只知道训练数据里的东西。你问它公司内部的产品文档、最新的技术规范、昨天刚更新的 API 文档，它一概不知道。传统的解决思路是微调——把你的数据喂给模型重新训练。但微调成本高、周期...

什么时候该微调先泼一盆冷水：大部分场景不需要微调。如果你的需求是让模型掌握特定领域的知识（比如公司产品资料），用 RAG 方案就够了。如果你的需求是让模型按特定格式输出，好好写 System Prompt 通常能解决。微调真正有价值的...

上下文窗口决定了什么上下文窗口（Context Window）就是模型一次能”看到”的文本长度上限。Hermes 3 基于 Llama 3.1 架构，原生支持 128K token 的上下文窗口——大约相当于 10 万字中文或一本中等篇幅的...

System Prompt 到底干了什么System Prompt 是你和模型之间的”契约”——它定义了模型在接下来的对话中应该扮演什么角色、遵守什么规则、用什么方式回答问题。在 Hermes 使用的 ChatML 格式里，system ...

为什么要把模型包成 API本地跑 Hermes 做实验很方便，但一旦要给多个应用或多个用户使用，你就需要一个 API 服务了。把 Hermes 包成 API 有几个好处：统一接口 — 前端、后端、移动端都通过同一个 API 调用模型 ...

关键词搜索的局限传统的关键词搜索（比如 Elasticsearch 的 BM25）有一个根本性的问题：它只匹配字面文字，不理解语义。用户搜”怎么解决内存溢出”，关键词搜索只能匹配包含”内存溢出”这几个字的文档。但”OOM 错误处理方法””...

一个模型打天下？不现实如果你只是自己用 Hermes 聊聊天、写写代码，选一个模型就够了。但在实际的产品或服务里，不同类型的请求对模型能力的要求天差地别：用户问”今天星期几” — 8B 绰绰有余用户说”帮我把这段代码从 Python ...