个人知识助手:跨会话记忆的威力
12 个人知识助手:跨会话记忆的威力
Personal Knowledge Assistant: The Power of Cross-Session Memory
一个真正有记忆的AI助手,和你每天都得重新自我介绍的AI,体验差距有多大?用一个持续三周的项目来感
受。
三周调研,从头讲起
假设你在调研一个新领域。比如你是个独立开发者,想搞清楚2026年AI Agent的部署方案:本地、云端、Serverless,各
有什么坑。
第一周,你问了三四个问题,聊了Docker部署的内存占用、VPS的价格对比、Daytona的免费额度限制。这些信息散落在
不同对话里。
第二周你想继续深挖Serverless方案。打开ChatGPT或者Claude,第一件事是什么?重新解释你在干什么。
「我在调研AI Agent部署方案,上周看了Docker和VPS,现在想了解Serverless,之前发现Daytona有免费额度但有限
制……」
每次开新对话都得花3到5分钟铺垫背景。这不是AI的能力问题,是架构问题:传统AI没有跨会话记忆,每次都是一张白
纸。
Hermes记住了什么
同样的场景,用Hermes来做。
第一周的对话结束后,Hermes的三层记忆分别记下了不同的东西:
记忆层 记录内容 用途
会话记忆(SQLite + FTS5) 你问了什么、它查了什么、对话原文 需要细节时精确检索
持久记忆 「用户在调研AI Agent部署,已排除方案X,偏好低成本」 下次对话自动加载上下文
Skill记忆 「调研类任务:先列维度→逐个深挖→每轮汇总」 方法论复用
第二周你打开Hermes,直接说「继续看Serverless方案」。不需要重新解释背景,持久记忆已经知道你在做什么。它甚至
会主动提醒你:上周你提到Daytona有免费额度限制,要不要先确认最新政策?
这不是魔法,是FTS5全文搜索在工作。Hermes不会把上周的对话全部塞进上下文,那样太浪费token。它根据你当前的
问题,检索最相关的历史片段。
检索 vs 全量加载
这个设计选择值得展开说。
很多人以为「记忆」就是把所有历史对话塞进prompt。Claude Code的auto-memory确实这么做:把关键信息写进
MEMORY.md,每次启动全部读取。编码场景够用了。
但知识助手场景不一样。三周的调研对话可能有几万字,全部加载会出两个问题:token成本爆炸,以及信息过载反而降
低回答质量。大模型在超长上下文中的注意力分布不均匀,关键信息容易被淹没。
Hermes的做法是:持久记忆存摘要(几百字),需要细节时用FTS5搜索原始对话,只取最相关的片段注入上下文。相当
于随身带一页纸笔记,需要时再去翻档案柜。
推荐 不推荐
Hermes方式:持久记忆(摘要)+ 按需检索(FTS5)。 全量加载方式:历史全塞进prompt。短期有效,三周后
token消耗可控,信息精准。 prompt爆满,成本翻倍。
Honcho:它比你更了解你
如果启用了Honcho用户建模,记忆的深度还会再上一个台阶。
Honcho不只是记录你说了什么,它会推导你没说的东西。比如你连续三次调研都选了成本最低的方案,Honcho会推导
出「这个用户对成本敏感」。下次推荐方案时,价格信息自动前置。
这种辩证建模覆盖多个身份维度,从技术水平、偏好风格到沟通习惯。用得越久,它对你的理解越精准。
花叔的体验:我用了两周后,Hermes开始自动用短句回复我,因为它发现我倾向于直接要结论而不是长篇分析。这种适
应是渐进的,不需要你显式配置任何东西。
和传统AI对话的体验差距
用一个类比来总结:传统AI像旅馆前台,每天换人,你每次都得重新自我介绍。Hermes像你的私人助理,认识你三个月
了,知道你喜欢喝美式、讨厌写周报、最近在调研什么项目。
具体到知识助手场景,差距体现在三个方面:
1 启动成本为零
不用每次铺垫背景。说「继续」就是继续。
调研有连续性
2
上周排除的方案不会被重新推荐。已确认的信息不会被重新查证。整个调研像一条线而不是一堆散点。
3 方法论会成长
Hermes帮你做第一个调研项目时总结出的方法(先列维度、逐个深挖、每轮汇总),会被存为Skill。第二个调研项
目自动复用,不用你再教一遍。
核心建议
跨会话记忆不是万能药。如果任务是一次性的,比如「帮我翻译这段话」,Hermes的记忆系统没有任何优势。记忆的价
值和任务的持续时间成正比。任务越长、上下文越复杂,记忆带来的效率增益越大。
Personal Knowledge Assistant: The Power of Cross-Session Memory
一个真正有记忆的AI助手,和你每天都得重新自我介绍的AI,体验差距有多大?用一个持续三周的项目来感
受。
三周调研,从头讲起
假设你在调研一个新领域。比如你是个独立开发者,想搞清楚2026年AI Agent的部署方案:本地、云端、Serverless,各
有什么坑。
第一周,你问了三四个问题,聊了Docker部署的内存占用、VPS的价格对比、Daytona的免费额度限制。这些信息散落在
不同对话里。
第二周你想继续深挖Serverless方案。打开ChatGPT或者Claude,第一件事是什么?重新解释你在干什么。
「我在调研AI Agent部署方案,上周看了Docker和VPS,现在想了解Serverless,之前发现Daytona有免费额度但有限
制……」
每次开新对话都得花3到5分钟铺垫背景。这不是AI的能力问题,是架构问题:传统AI没有跨会话记忆,每次都是一张白
纸。
Hermes记住了什么
同样的场景,用Hermes来做。
第一周的对话结束后,Hermes的三层记忆分别记下了不同的东西:
记忆层 记录内容 用途
会话记忆(SQLite + FTS5) 你问了什么、它查了什么、对话原文 需要细节时精确检索
持久记忆 「用户在调研AI Agent部署,已排除方案X,偏好低成本」 下次对话自动加载上下文
Skill记忆 「调研类任务:先列维度→逐个深挖→每轮汇总」 方法论复用
第二周你打开Hermes,直接说「继续看Serverless方案」。不需要重新解释背景,持久记忆已经知道你在做什么。它甚至
会主动提醒你:上周你提到Daytona有免费额度限制,要不要先确认最新政策?
这不是魔法,是FTS5全文搜索在工作。Hermes不会把上周的对话全部塞进上下文,那样太浪费token。它根据你当前的
问题,检索最相关的历史片段。
检索 vs 全量加载
这个设计选择值得展开说。
很多人以为「记忆」就是把所有历史对话塞进prompt。Claude Code的auto-memory确实这么做:把关键信息写进
MEMORY.md,每次启动全部读取。编码场景够用了。
但知识助手场景不一样。三周的调研对话可能有几万字,全部加载会出两个问题:token成本爆炸,以及信息过载反而降
低回答质量。大模型在超长上下文中的注意力分布不均匀,关键信息容易被淹没。
Hermes的做法是:持久记忆存摘要(几百字),需要细节时用FTS5搜索原始对话,只取最相关的片段注入上下文。相当
于随身带一页纸笔记,需要时再去翻档案柜。
推荐 不推荐
Hermes方式:持久记忆(摘要)+ 按需检索(FTS5)。 全量加载方式:历史全塞进prompt。短期有效,三周后
token消耗可控,信息精准。 prompt爆满,成本翻倍。
Honcho:它比你更了解你
如果启用了Honcho用户建模,记忆的深度还会再上一个台阶。
Honcho不只是记录你说了什么,它会推导你没说的东西。比如你连续三次调研都选了成本最低的方案,Honcho会推导
出「这个用户对成本敏感」。下次推荐方案时,价格信息自动前置。
这种辩证建模覆盖多个身份维度,从技术水平、偏好风格到沟通习惯。用得越久,它对你的理解越精准。
花叔的体验:我用了两周后,Hermes开始自动用短句回复我,因为它发现我倾向于直接要结论而不是长篇分析。这种适
应是渐进的,不需要你显式配置任何东西。
和传统AI对话的体验差距
用一个类比来总结:传统AI像旅馆前台,每天换人,你每次都得重新自我介绍。Hermes像你的私人助理,认识你三个月
了,知道你喜欢喝美式、讨厌写周报、最近在调研什么项目。
具体到知识助手场景,差距体现在三个方面:
1 启动成本为零
不用每次铺垫背景。说「继续」就是继续。
调研有连续性
2
上周排除的方案不会被重新推荐。已确认的信息不会被重新查证。整个调研像一条线而不是一堆散点。
3 方法论会成长
Hermes帮你做第一个调研项目时总结出的方法(先列维度、逐个深挖、每轮汇总),会被存为Skill。第二个调研项
目自动复用,不用你再教一遍。
核心建议
跨会话记忆不是万能药。如果任务是一次性的,比如「帮我翻译这段话」,Hermes的记忆系统没有任何优势。记忆的价
值和任务的持续时间成正比。任务越长、上下文越复杂,记忆带来的效率增益越大。