Skip to content

Latest commit

 

History

History
56 lines (45 loc) · 4.63 KB

File metadata and controls

56 lines (45 loc) · 4.63 KB

STS2 player 设计总览

这套定制的目标不是做一个“会回答 STS2 问题的助手”,而是做一个能接管当前对局、会复盘、会积累经验、会在下一次决策里用回这些经验的长期玩家代理。

当前结构

作用 主要文件
always-on 指令 规定仓库约束、运行假设、战斗安全规则 .github/copilot-instructions.md
player agent 总调度器;决定什么时候 piloting / review / research .github/agents/player.agent.md
sts2-prepare-runtime 负责 MCP 准备、连接检查、会话就绪性确认 .github/skills/sts2-prepare-runtime/SKILL.md
sts2-pilot-run 负责当前 run 的实战接管 .github/skills/sts2-pilot-run/SKILL.md
sts2-review-run 负责 checkpoint review / 死亡复盘 / lesson 状态更新 .github/skills/sts2-review-run/SKILL.md
sts2-research-strategy 负责外部攻略检索与落地 .github/skills/sts2-research-strategy/SKILL.md
detailed review archive 保存完整复盘、牌组尸检、跨局对照 .github/sts2-memory/reviews/README.md
current-run memory 记录这一把当前最重要的战术真相 .github/sts2-memory/current-playbook.md
run timeline memory 记录最近几把的时间线、牌组快照、遗物、打到哪里 .github/sts2-memory/run-history.md, .github/sts2-memory/runs/
cross-run memory 记录跨局可复用经验及其状态 .github/sts2-memory/lesson-ledger.md

当前核心循环

  1. 接手或续局:先确认 MCP 可读状态;如果当前停在受支持菜单且有 menu_select,允许直接代为进入或恢复 run。
  2. 重大节点前:读取 playbook + lesson ledger。必要时再定向回查详细复盘。
  3. 战斗中:严格执行 读状态 -> 单步动作 -> 再读状态
  4. 分支明显塌线时:优先把 SL 当成正式恢复分支,而不是先把败局打完;但同一场战斗最多只做 3 次 deterministic SL,且每次都要有明确 try-point。
  5. 关键转折后:更新当前 run 的 playbook
  6. 输赢或大 swing 后:先写详细复盘,再压缩出 lesson ledgerplaybook

当前特性一览

  • player agent 编排:把 piloting / review / research 分开,不再靠一个万能 skill。
  • 四层 memory:详细复盘存档、当前 run playbook、近期 run timeline、跨局 lesson ledger。
  • 牌组尸检:正式复盘必须分析真实赢点、伤害密度、防御承压、抽牌一致性、牌组稀释。
  • 随机性门槛:单局现象默认 candidate;只有跨局重复或机制上很硬才升格。
  • review gate:死亡、boss loss、best branch 仍无赢线时,先复盘再开下一把。
  • 战斗安全协议:严格 one-read -> one-action -> fresh read,避免索引漂移误操作。
  • SL 提升到高层入口player agent 和 sts2-pilot-run 都把 save-and-quit 视为正式恢复工具,不再只埋在 skill 中段说明里。
  • SL 预算更明确:同一场战斗最多 3 次 SL;没有 named try-point 的重开和超过预算的 rehearsal 都视为低价值噪音。
  • 定向复盘召回:战斗时默认只读压缩层,只有少见卡牌 / 遗物 / Boss / 结构病时才回查 archive。
  • 支持牌边界更清楚结构胶水牌 不再按名字自动成立;若还缺 premium target、递归/消耗支撑、或额外能量,它仍可能只是条件性稀释。
  • runtime 分层更清楚:当前会话若已临时挂上 MCP,就直接开打;只有要跨新 session / agent 复用时,才把持久化配置当成硬要求。
  • 菜单代开边界更清楚:只要当前菜单在 MCP 支持范围内,就用 menu_select 代开;只有菜单控制缺失或该选项被标成手动处理时,才上抛给用户。

memory 是怎么用的

  • reviews/:保存完整复盘,包括牌组尸检、best branch、跨局比较、反例条件。
  • current-playbook.md:保存当前 run 真要用的少量提醒
  • run-history.mdruns/:保存近期 run 的检索层,包括 run 身份、时间点、楼层进度、牌组与遗物快照、以及关键 checkpoint 时间线。
  • lesson-ledger.md:保存跨局可复用规则,并给 heuristic 标 candidate / validated / situational / retired
  • 战斗里不会每打一张牌都读 archive;memory 是节点级校准器,不是逐手脚本。

从哪里继续看

  • 细节设计:system-details.md
  • 变更记录入口:../changelog/README.md
  • 早期设计草案:../../prepare_task/learning-loop-design.md