生产落地指南¶
目标¶
把“能跑”升级为“可观测、可回归、可维护”。
P0 稳定性清单¶
- 配置预算(steps/runtime/tokens)。
- 监控 stop reason 分布。
- 持久化关键运行 trace。
- 保留 failure report 用于定位。
建议上线流程¶
- 固定模型与 parser 版本。
- 准备回归任务集。
- 每次变更跑回归并设阈值。
- 以 trace 汇总结果驱动发布决策。
事故排查路径¶
- 定位
run_id - 看
manifest.summary.stop_reason - 在
events.jsonl找首个ok=false事件 - 在
steps.jsonl查看对应 step - 分类根因:parser / tool / env / model 漂移