用 Hermes 打造你的私人 AI 学习助手

为什么你需要一个「自己的」学习助手

市面上的 AI 助手多到数不过来，ChatGPT、Claude、Gemini……随便挑一个都能用。那为什么还要费劲自己搭一个？

原因很现实：

第一，数据隐私。你的学习笔记、研究资料、项目文档，传到别人的服务器上，你心里多少有点不踏实。尤其是做学术研究或者公司内部培训的场景，数据外泄的风险不是闹着玩的。

第二，定制化需求。通用 AI 助手什么都懂一点，但什么都不够深。你是学医的，它给你的回答跟给程序员的回答差不多通用。你需要一个真正理解你领域知识的助手。

第三，成本控制。API 调用按 token 计费，用多了账单吓人。自己本地跑模型，前期投入一次硬件成本，后面用多少都不再花钱。

第四，不受限制。商业模型有各种内容过滤和使用限制，做研究的时候动不动触发安全策略。开源模型在这方面自由度大得多。

基于这些需求，用 Hermes 来搭建私人学习助手是个非常合适的选择。关于 Hermes 模型的背景知识，可以先看看 Hermes 是什么这篇基础介绍。

需求分析：你的学习助手需要做什么

在动手之前，先想清楚你到底想让这个助手帮你干什么。别上来就装环境跑模型，搞半天发现方向不对。

一般来说，个人学习助手的核心需求可以分为几类：

知识问答：针对特定领域的知识进行问答。比如你在学机器学习，你希望它能回答各种概念性问题，而且回答的质量要比百度搜索好得多。

文档理解：给它喂一篇论文或者一份技术文档，让它帮你做摘要、提取要点、解释难懂的段落。

学习规划：根据你的目标和现有水平，帮你制定学习路径和计划。

记忆能力：能记住之前的对话内容，知道你学到哪里了，不用每次都重新解释背景。

练习生成：根据学习内容自动生成练习题、flashcard 或者思维导图框架。

不同的需求对模型的能力和系统架构有不同的要求。知识问答和文档理解需要较好的理解能力和较长的上下文窗口；记忆能力需要外部存储和检索机制；练习生成需要比较好的指令遵循能力。

把这些需求列出来以后，你就能更有针对性地选择技术方案了。

方案选型：为什么选 Hermes

市场上的开源模型一抓一大把，为什么偏偏选 Hermes？

指令遵循能力突出。Hermes 系列模型在微调的时候特别注重指令遵循，也就是说你让它按照特定格式回答、扮演特定角色、遵守特定规则，它的执行率比很多同体量的模型要高。对于学习助手这个场景，你经常需要让它「用简单语言解释」「列出三个要点」「不要使用术语」，这种指令执行能力非常关键。

支持 Function Calling 和工具调用。Hermes 3 版本天然支持工具调用，这意味着你可以让模型去查数据库、调 API、读文件，不用自己写一堆解析逻辑。想深入了解 Hermes 3 的技术细节，推荐阅读 Hermes 3 技术报告解读这篇分析。

模型尺寸选择多。从 8B 到 70B 到 405B，你可以根据自己的硬件条件选择合适的版本。笔记本跑 8B 版本就能获得不错的效果，有 GPU 服务器的可以上更大的版本。

社区资源丰富。Hermes 在 Hugging Face 上长期占据热门下载前列，社区里的教程、量化版本、微调经验都很丰富，遇到问题容易找到解决方案。

具体选择哪个版本，参考下面这个建议：

硬件条件	推荐版本	运行方式
笔记本 / 台式机（16GB 内存）	Hermes 3 8B Q4 量化	llama.cpp / Ollama
有独显（24GB 显存）	Hermes 3 8B 全精度或 70B Q4	vLLM / Ollama
云服务器（多卡 A100）	Hermes 3 70B 或 405B	vLLM / TGI

基础架构设计

一个完整的学习助手系统，光跑一个模型是不够的。你需要围绕模型搭建一套支撑系统：

用户界面 (Web / Terminal)
        │
        ▼
对话管理层 (会话历史 + 上下文构建)
        │
        ▼
RAG 检索层 (向量数据库 + 文档索引)
        │
        ▼
推理层 (Hermes 模型)
        │
        ▼
工具层 (文件读取 / 网络搜索 / 笔记保存)

每一层的作用：

用户界面：可以用 Open WebUI、text-generation-webui 或者自己写一个简单的前端。如果你不想折腾前端，直接用终端对话也行。

对话管理层：负责维护对话历史，构建发给模型的 prompt。这里要处理上下文长度限制的问题——你不可能把所有历史对话都塞进去，需要做智能截断或者摘要压缩。

RAG 检索层：这是让助手「懂你的领域」的关键。你把学习资料（PDF、笔记、网页）扔进向量数据库，每次提问的时候先检索相关内容，再把检索到的内容跟你的问题一起发给模型。

推理层：就是 Hermes 模型本身，负责生成回答。

工具层：让模型能做一些超出纯文本生成的事情，比如保存笔记、搜索网络、读取本地文件。

动手部署：一步步来

下面进入实操环节。我们用最常见的配置来演示：一台普通的台式机或笔记本，16GB 以上内存，用 Ollama 跑 Hermes 模型，用 Open WebUI 做界面，用 ChromaDB 做 RAG。

第一步：安装 Ollama 并拉取模型

# 安装 Ollama（Linux/macOS）
curl -fsSL https://ollama.com/install.sh | sh

# 拉取 Hermes 3 8B 模型
ollama pull hermes3:8b

# 验证模型是否正常运行
ollama run hermes3:8b "你好，请用一句话介绍你自己"

如果你的硬件允许，可以拉取更大的版本：

1	ollama pull hermes3:70b

第二步：搭建 RAG 检索系统

RAG（Retrieval-Augmented Generation）是让学习助手真正「懂行」的关键技术。原理很简单：先把你的学习资料切成小块存入向量数据库，提问的时候先在数据库里找到最相关的几段资料，把这些资料作为上下文塞给模型。

安装依赖：

1	pip install chromadb langchain sentence-transformers PyPDF2

核心代码：

# rag_engine.py
import chromadb
from langchain.text_splitter import RecursiveCharacterTextSplitter
from sentence_transformers import SentenceTransformer
import PyPDF2
import os

class StudyRAG:
    def __init__(self, db_path="./study_db"):
        self.client = chromadb.PersistentClient(path=db_path)
        self.collection = self.client.get_or_create_collection(
            name="study_materials",
            metadata={"hnsw:space": "cosine"}
        )
        self.embedder = SentenceTransformer(
            "shibing624/text2vec-base-chinese"
        )
        self.splitter = RecursiveCharacterTextSplitter(
            chunk_size=500,
            chunk_overlap=50,
            separators=["\n\n", "\n", "。", "！", "？"]
        )

    def add_pdf(self, pdf_path):
        """导入 PDF 学习资料"""
        reader = PyPDF2.PdfReader(pdf_path)
        full_text = ""
        for page in reader.pages:
            full_text += page.extract_text()

        chunks = self.splitter.split_text(full_text)
        embeddings = self.embedder.encode(chunks).tolist()
        ids = [
            f"{os.path.basename(pdf_path)}_{i}"
            for i in range(len(chunks))
        ]

        self.collection.add(
            documents=chunks,
            embeddings=embeddings,
            ids=ids,
            metadatas=[{"source": pdf_path}] * len(chunks)
        )
        print(f"已导入 {len(chunks)} 个文本块")

    def search(self, query, top_k=3):
        """检索相关内容"""
        query_embedding = self.embedder.encode([query]).tolist()
        results = self.collection.query(
            query_embeddings=query_embedding,
            n_results=top_k
        )
        return results["documents"][0]

这里有几个关键参数要注意：

chunk_size=500：每个文本块 500 字左右。太大的话检索精度下降，太小的话丢失上下文。500 是个比较均衡的值。
chunk_overlap=50：相邻块之间有 50 字的重叠，防止重要信息被切断。
Embedding 模型用 text2vec-base-chinese，这是中文场景下效果比较好的轻量级模型。

第三步：对话管理和 Prompt 构建

这一步是整个系统的粘合剂。把用户输入、RAG 检索到的内容、对话历史组装成一条完整的 prompt 发给模型。

# assistant.py
import requests
import json

class StudyAssistant:
    def __init__(self, rag_engine, model="hermes3:8b"):
        self.rag = rag_engine
        self.model = model
        self.history = []
        self.system_prompt = """你是一个专业的学习助手。
你的任务是帮助用户理解和掌握学习内容。
回答要求：
1. 用通俗易懂的语言解释复杂概念
2. 适当使用类比来帮助理解
3. 如果提供了参考资料，优先基于资料内容回答
4. 对于不确定的内容，坦诚告知
5. 回答结构清晰，善用列表和分段"""

    def chat(self, user_input):
        # 检索相关内容
        relevant_docs = self.rag.search(user_input)
        context = "\n---\n".join(relevant_docs)

        # 构建消息列表
        messages = [
            {"role": "system", "content": self.system_prompt}
        ]

        # 加入最近 10 轮对话历史
        for msg in self.history[-20:]:
            messages.append(msg)

        # 构建带上下文的用户消息
        augmented_input = (
            f"参考资料：\n{context}\n\n用户问题：{user_input}"
        )
        messages.append({"role": "user", "content": augmented_input})

        # 调用 Ollama API
        resp = requests.post(
            "http://localhost:11434/api/chat",
            json={
                "model": self.model,
                "messages": messages,
                "stream": False,
                "options": {"temperature": 0.7}
            }
        )

        reply = resp.json()["message"]["content"]

        # 保存对话历史
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": reply})

        return reply

第四步：用 Open WebUI 搭建前端界面

如果你不想用命令行交互，Open WebUI 提供了一个漂亮的网页界面：

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

启动后访问 http://localhost:3000，它会自动检测到本地运行的 Ollama 服务和 Hermes 模型。

进阶玩法：让助手更聪明

基础版本搭好之后，有很多可以优化的方向。

长期记忆系统

让助手记住你之前学过的内容，不用每次都重新介绍背景。实现方式是在每次对话结束后，提取关键信息保存到一个「记忆文件」里：

def extract_memory(self, conversation_text):
    """让模型自己提取值得记住的信息"""
    prompt = f"""从以下对话中提取值得长期记住的关键信息，
格式为简短的要点列表：

{conversation_text}

只提取事实性信息和用户的学习偏好，
忽略闲聊内容。"""

    response = self._call_model(prompt)
    self._append_to_memory_file(response)

自动生成练习题

学完一个章节后，让助手自动出题检验掌握程度：

def generate_quiz(self, topic, difficulty="medium"):
    prompt = f"""基于我们之前讨论的 {topic} 相关内容，
生成 5 道选择题，难度为{difficulty}。

格式要求：
- 每题 4 个选项
- 标注正确答案
- 附上简短解析

不要出纯记忆题，侧重理解和应用。"""

    return self.chat(prompt)

学习进度追踪

用一个简单的 JSON 文件记录学习进度：

import json
from datetime import datetime

class ProgressTracker:
    def __init__(self, path="./progress.json"):
        self.path = path
        self.data = self._load()

    def _load(self):
        try:
            with open(self.path, "r") as f:
                return json.load(f)
        except FileNotFoundError:
            return {"topics": {}, "sessions": []}

    def log_session(self, topic, duration_min, notes=""):
        session = {
            "date": datetime.now().isoformat(),
            "topic": topic,
            "duration": duration_min,
            "notes": notes
        }
        self.data["sessions"].append(session)

        if topic not in self.data["topics"]:
            self.data["topics"][topic] = {
                "total_time": 0,
                "session_count": 0
            }
        self.data["topics"][topic]["total_time"] += duration_min
        self.data["topics"][topic]["session_count"] += 1

        with open(self.path, "w") as f:
            json.dump(self.data, f, ensure_ascii=False, indent=2)

使用经验和调优建议

用了差不多两个月来学深度学习相关的内容，总结一些实操经验：

模型选择的影响比想象中大。同样是 Hermes，8B 和 70B 在解释复杂概念时差距非常明显。8B 够用于日常问答和简单概念解释，但涉及到多步推理或者需要综合多个知识点的问题，70B 明显更靠谱。

RAG 的文档质量决定回答质量。垃圾进垃圾出这个道理在这里体现得淋漓尽致。花时间整理好学习资料，比调参数重要得多。

System Prompt 要反复打磨。别指望一个 prompt 就能完美覆盖所有场景。根据使用情况不断修改、分场景设计不同的 prompt，效果会好很多。

温度参数根据场景调整。做知识问答的时候把 temperature 调低（0.3 左右），需要头脑风暴或创意输出的时候调高（0.8 左右）。

上下文长度是个硬约束。8B 模型的有效上下文大概在 4K-8K token，超过这个长度回答质量会明显下降。对话太长的时候要做好历史消息的裁剪。

与商业方案的对比

有人可能会问：费这么大劲自己搭，跟直接用 ChatGPT Plus 比有什么优势？

坦白说，如果你只是偶尔用用，对隐私也不敏感，直接订阅商业服务更省事。但如果满足以下条件中的任意两条，自建方案就值得考虑：

你每天都在高频使用，API 费用已经超过硬件分摊成本
你需要处理敏感数据，不能上传到第三方服务器
你有特定领域的知识库需要深度集成
你希望完全控制模型的行为，不受内容过滤限制
你本身是技术人员，搭建和维护的时间成本可以接受

从长期来看，自建方案的边际成本趋近于零，而商业订阅是持续性支出。对于重度用户来说，自建方案一般在三到六个月内就能回本。

总结

用 Hermes 搭建私人学习助手并不是什么高门槛的事情。核心就是三件事：跑一个模型、建一个知识库、写一个对话管理器。每个部分都有成熟的开源工具可以直接拿来用，不需要你从零发明轮子。

真正费功夫的是后期的打磨和调优：prompt 怎么写更好、RAG 怎么配效果更佳、哪些场景用什么温度参数。这些经验只能靠实际使用慢慢积累。

如果你对 Hermes 的 Agent 能力感兴趣，可以看看 Hermes Agent 完全指南，了解一下它还能做哪些更高级的事情。也欢迎到 cocoloop 社区来交流你的使用经验和踩过的坑。