Hermes + Ollama:三步在自己电脑上跑起大模型
我记得第一次想在自己电脑上跑大模型的时候,光是看那些 CUDA 版本、PyTorch 编译、模型格式转换的教程就头大了。折腾了大半天,最后还是报错退出。 后来发现了 Ollama 这个工具,说实话有点后悔没早点用——整个流程简单到离谱,三条...
共 10 篇文章
我记得第一次想在自己电脑上跑大模型的时候,光是看那些 CUDA 版本、PyTorch 编译、模型格式转换的教程就头大了。折腾了大半天,最后还是报错退出。 后来发现了 Ollama 这个工具,说实话有点后悔没早点用——整个流程简单到离谱,三条...
如果你只是自己一个人用,Ollama 跑 Hermes 完全够用。但如果你要做的是一个服务——比如给团队十几个人用,或者给你的应用提供 API 后端——Ollama 的单请求处理模式就有点扛不住了。 这时候你需要的是 vLLM。 vLLM ...
做过 AI 应用的人都知道,大模型本身是无状态的——每次请求都是独立的,它不记得你上一轮说了什么。要让它”记住”对话历史,你得自己管理上下文。 手动管理当然可以,但写着写着你就会发现自己在重复造轮子:消息列表的维护、token 数的控制、系...
你有没有遇到过这种场景:公司内部文档堆积如山,想找一个信息得翻半天。或者你手上有几十份 PDF 研究报告,想快速找到某个数据点但又记不清在哪份报告里。 这种需求用传统搜索引擎解决不了——它只能做关键词匹配,理解不了你真正想问什么。但大模型可...
命令行聊天虽然能用,但体验确实差点意思。特别是当你想给团队里的非技术同事用本地模型的时候,总不能让人家也去敲命令行吧。 Open WebUI(原名 Ollama WebUI)就是解决这个问题的。它提供了一个类似 ChatGPT 的网页界面,...
如果你手上不止一个模型——本地跑着 Hermes,同时可能还用着 GPT-4、Claude 或者其他开源模型——每次切换不同的界面或 API 是挺烦的。 LobeChat 解决的就是这个问题。它是一个支持多模型聚合的聊天平台,你可以把所有模...
写代码搭 AI 应用是一种方式,但不是每个场景都值得从头写。特别是一些标准化的需求——客服问答、文档总结、数据提取——用可视化工具拖拖拽拽可能更高效。 Dify 就是这样一个平台。它提供了可视化的工作流编辑器,让你不写一行代码就能搭建 AI...
一个模型再聪明,能力也有上限。让一个模型又当程序员又当产品经理又当测试工程师,结果往往是哪个角色都演不好。 但如果你让多个 Agent 各自扮演一个角色,互相讨论、互相检查呢?这就是多 Agent 协作的思路。微软的 AutoGen 框架就...
上一篇聊了 AutoGen 的多 Agent 协作,今天换一个框架——CrewAI。 如果说 AutoGen 像是给你一堆零件让你自己组装,CrewAI 更像是一个开箱即用的团队管理工具。它用三个核心概念把多 Agent 协作简化了:Age...
本地部署 Hermes 当然好,但不是所有时候都方便——出门在外用手机、换了一台没 GPU 的电脑、或者团队里有人不想折腾环境配置。这时候你需要一个云端的方案。 OpenRouter 就很适合这个场景。它是一个模型 API 聚合平台,背后对...