Hermes 中文指南

我记得第一次想在自己电脑上跑大模型的时候，光是看那些 CUDA 版本、PyTorch 编译、模型格式转换的教程就头大了。折腾了大半天，最后还是报错退出。后来发现了 Ollama 这个工具，说实话有点后悔没早点用——整个流程简单到离谱，三条...

如果你只是自己一个人用，Ollama 跑 Hermes 完全够用。但如果你要做的是一个服务——比如给团队十几个人用，或者给你的应用提供 API 后端——Ollama 的单请求处理模式就有点扛不住了。这时候你需要的是 vLLM。 vLLM ...

做过 AI 应用的人都知道，大模型本身是无状态的——每次请求都是独立的，它不记得你上一轮说了什么。要让它”记住”对话历史，你得自己管理上下文。手动管理当然可以，但写着写着你就会发现自己在重复造轮子：消息列表的维护、token 数的控制、系...

你有没有遇到过这种场景：公司内部文档堆积如山，想找一个信息得翻半天。或者你手上有几十份 PDF 研究报告，想快速找到某个数据点但又记不清在哪份报告里。这种需求用传统搜索引擎解决不了——它只能做关键词匹配，理解不了你真正想问什么。但大模型可...

命令行聊天虽然能用，但体验确实差点意思。特别是当你想给团队里的非技术同事用本地模型的时候，总不能让人家也去敲命令行吧。 Open WebUI（原名 Ollama WebUI）就是解决这个问题的。它提供了一个类似 ChatGPT 的网页界面，...

如果你手上不止一个模型——本地跑着 Hermes，同时可能还用着 GPT-4、Claude 或者其他开源模型——每次切换不同的界面或 API 是挺烦的。 LobeChat 解决的就是这个问题。它是一个支持多模型聚合的聊天平台，你可以把所有模...

写代码搭 AI 应用是一种方式，但不是每个场景都值得从头写。特别是一些标准化的需求——客服问答、文档总结、数据提取——用可视化工具拖拖拽拽可能更高效。 Dify 就是这样一个平台。它提供了可视化的工作流编辑器，让你不写一行代码就能搭建 AI...

一个模型再聪明，能力也有上限。让一个模型又当程序员又当产品经理又当测试工程师，结果往往是哪个角色都演不好。但如果你让多个 Agent 各自扮演一个角色，互相讨论、互相检查呢？这就是多 Agent 协作的思路。微软的 AutoGen 框架就...

上一篇聊了 AutoGen 的多 Agent 协作，今天换一个框架——CrewAI。如果说 AutoGen 像是给你一堆零件让你自己组装，CrewAI 更像是一个开箱即用的团队管理工具。它用三个核心概念把多 Agent 协作简化了：Age...

本地部署 Hermes 当然好，但不是所有时候都方便——出门在外用手机、换了一台没 GPU 的电脑、或者团队里有人不想折腾环境配置。这时候你需要一个云端的方案。 OpenRouter 就很适合这个场景。它是一个模型 API 聚合平台，背后对...