Hermes Function Calling 实战:从原理到 XML 工具调用全流程
为什么要搞工具调用大语言模型再聪明,也有搞不定的事——算术不精确、没法查实时数据、不能操作外部系统。解决方案就是给模型配上”工具”,让它在需要的时候调用外部函数来补齐能力。 这就是 Function Calling(函数调用),或者更通用的...
共 10 篇文章
为什么要搞工具调用大语言模型再聪明,也有搞不定的事——算术不精确、没法查实时数据、不能操作外部系统。解决方案就是给模型配上”工具”,让它在需要的时候调用外部函数来补齐能力。 这就是 Function Calling(函数调用),或者更通用的...
模型输出 JSON 到底难在哪你让 Hermes 回答一个问题,它能给你写一篇通顺的文章。但你让它把答案按照一个固定的 JSON 格式输出,事情就变得微妙了。 难点不在于模型”不会”输出 JSON——几乎所有主流大模型都见过海量的 JSON...
量化是什么,为什么需要它Hermes 3 系列有多个参数规模:8B、70B、405B。以 70B 为例,原始的 FP16(半精度浮点)权重文件大约 140GB——光是把模型载入显存就需要两三张 A100 80GB。这对绝大多数个人用户和中小...
RAG 是什么,为什么需要它大语言模型有一个根本性的局限:它只知道训练数据里的东西。你问它公司内部的产品文档、最新的技术规范、昨天刚更新的 API 文档,它一概不知道。 传统的解决思路是微调——把你的数据喂给模型重新训练。但微调成本高、周期...
什么时候该微调先泼一盆冷水:大部分场景不需要微调。 如果你的需求是让模型掌握特定领域的知识(比如公司产品资料),用 RAG 方案 就够了。如果你的需求是让模型按特定格式输出,好好写 System Prompt 通常能解决。 微调真正有价值的...
上下文窗口决定了什么上下文窗口(Context Window)就是模型一次能”看到”的文本长度上限。Hermes 3 基于 Llama 3.1 架构,原生支持 128K token 的上下文窗口——大约相当于 10 万字中文或一本中等篇幅的...
System Prompt 到底干了什么System Prompt 是你和模型之间的”契约”——它定义了模型在接下来的对话中应该扮演什么角色、遵守什么规则、用什么方式回答问题。 在 Hermes 使用的 ChatML 格式里,system ...
为什么要把模型包成 API本地跑 Hermes 做实验很方便,但一旦要给多个应用或多个用户使用,你就需要一个 API 服务了。 把 Hermes 包成 API 有几个好处: 统一接口 — 前端、后端、移动端都通过同一个 API 调用模型 ...
关键词搜索的局限传统的关键词搜索(比如 Elasticsearch 的 BM25)有一个根本性的问题:它只匹配字面文字,不理解语义。 用户搜”怎么解决内存溢出”,关键词搜索只能匹配包含”内存溢出”这几个字的文档。但”OOM 错误处理方法””...
一个模型打天下?不现实如果你只是自己用 Hermes 聊聊天、写写代码,选一个模型就够了。但在实际的产品或服务里,不同类型的请求对模型能力的要求天差地别: 用户问”今天星期几” — 8B 绰绰有余 用户说”帮我把这段代码从 Python ...