LLM常见的记忆模式

1. 缓冲记忆

将Human和Ai生成的消息全部存储起来，每次使用时保存所有的消息列表到Prompt中

优点
- 无损记忆
- 实现简单，兼容性好
缺点
- 由于传递消息量大，会消耗更多token，导致响应变慢和成本增加
- 达到LLM的token上限时，太长的对话无法被记住
- 记忆内容不是无限的。对于上下文较小的模型，记忆内容会变短

只保留最近几次Human和Ai生成的消息，它基于缓存记忆的思想，并添加了窗口大小限制，窗口值k，只保留一定数量的消息

只保留限定次数Human和Ai生成的消息，它基于缓存记忆的思想，并添加令牌数max_tokens，当聊天记录超过token时，才会遗忘记忆

除了会传递消息，还会对消息进行总结，每次只传递总结，而不是完整的消息

优点
- 适合长期记忆和短期记忆(模糊记忆)
- 减少长对话中使用token的数量，能记忆更多轮对话
- 长对话时效果明显。随着对话进行，摘要方法增长速度减慢，与常规缓存内存模型相比具有优势
缺点
- 会丢失细节部分
- 对于较短的对话，可能会增加token消耗
- 总结摘要部分完全依赖于中间摘要LLM的能力，需要为摘要LLM分配token，增加成本且未限制对话长度

结合了摘要总结记忆和缓冲窗口记忆，旨在对对话进行摘要总结，同时保留最近的对话，并使用长度标记何时清除记忆

将记忆存储在向量数据库中，并在每次调用前查询前K个最匹配的文档