01 / Problem
增长实验的瓶颈不在想法,在执行
好的增长团队每个月有 20+ 个实验想法,但实际能跑起来的不超过 2 个。原因很简单:
- 实验设计依赖数据团队:每个实验需要数据 PM 写 SQL、算样本量、建监控,平均等待 5 个工作日。
- 分析是重复劳动:每次实验结束都要人工做同样的统计显著性检验、漏斗分析、分群拆解,需要 2-3 天。
- 洞察难以沉淀:每次实验的结论散落在飞书文档里,下次做类似实验没有历史参考,重复踩坑。
"我们的增长速度受限于分析速度,不是受限于想法速度。"
— 增长负责人访谈
02 / Insight
关键洞察:好假设 > 好分析
分析了 3 年 180+ 个历史实验后,发现了一个重要规律:
💡
实验成功率的最大预测因子不是分析的严密程度,而是假设的精准程度。用"具体用户在具体场景的具体痛点"描述的假设,命中率是模糊假设的 2.2 倍。这意味着 Agent 的设计重点应该放在"提问质量"而非"分析速度"。
- 假设公式化可行:90% 的成功假设都符合"[用户群] 在 [场景] 下,因为 [原因],如果 [变更] 则 [指标] 将 [方向] 变化"这个结构。
- 历史实验是最好的先验:相似场景的历史实验结论能提升新实验假设的命中率 35%。
- PM 真正需要的不是报告,是"下一步该怎么办":长报告没人看,一句话行动建议才是最有价值的输出。
03 / PRD Excerpt
PRD 节选:Agent 工作流设计
PRD-AGT-002 / 增长实验 Agent v1.5P0 · Shipped
触发方式PM 输入增长目标(自然语言)→ Agent 自动拆解为假设列表
工具集数据库查询 / 历史实验检索 / 统计计算 / 飞书写入 / 监控告警
推理链目标拆解 → 假设生成 → 相似实验召回 → 样本量计算 → 实验方案输出 → 定时数据拉取 → 显著性判定 → 决策建议
输出格式实验方案(自然语言)+ 监控看板链接 + 预期结束时间 + 决策建议(3 句话内)
人工介入点假设确认(PM 审批)/ 实验上线前(技术确认)/ 结论争议(人工复核)
🔧
为什么不用纯自动化?在"假设确认"这一步保留人工,让 PM 对每个实验有"所有权感"。实践证明,有人工参与的实验完成率比全自动高 40%——人不是瓶颈,而是保证质量的关键节点。
04 / Prototype
Agent 推理流程与界面原型
Input
目标输入
PM 输入自然语言增长目标
Think
假设生成
多步推理 + 历史实验 RAG
Run
实验执行
方案输出 → 数据监控 → 显著性判断
Act
决策建议
3句话行动建议 + 下一步实验推荐
growth-agent · experiment #047
推理过程 (Thinking...)
1
✓ 目标拆解完成 → 识别到 3 个可测试假设
2
✓ 召回 8 个相似历史实验 · 最高相关度 0.87
3
✓ 推荐优先级最高假设:新用户首单折扣 → 弹出时机前移至加购后
4
⏳ 等待 PM 确认实验方案...
DECISION (实验 #047 完成)
加购后弹出折扣使首单转化率提升 +14.2%(p=0.003,显著)。建议全量上线,并在下一步测试折扣力度的影响。
05 / Data
上线数据:增长速度的解锁
| 指标 | Before(人工) | Agent v1 | v1.5 (Now) | Δ |
|---|---|---|---|---|
| 月实验吞吐 | 2个 | 6个 | 10个 | ↑ 5× |
| 假设命中率 | 31% | 52% | 68% | ↑ 119% |
| 实验设计到上线 | 5工作日 | 1工作日 | 4小时 | ↓ 95% |
| 数据分析周期 | 14天 | 5天 | 3天 | ↓ 79% |
| PM 满意度 | — | 72 | 89 (NPS) | ↑ 24% |
06 / Reflection
复盘
✓ What Worked
3句话行动建议 > 完整报告
不做报告,只给决策建议。PM 从"我要读完这个报告"到"Agent 说上线就上线",接受度极高。
✓ What Worked
历史实验 RAG 是最有价值的功能
让 Agent 能用过去的经验做判断,比通用 LLM 的假设质量高出 37%,也是用户最常提到的"wow moment"。
⚠ What Didn't
完全自动分析的可信度危机
早期版本不展示推理过程,PM 对结论持怀疑态度。加入"思维链可视化"后采纳率从 44% 提升到 82%。
⚠ What Didn't
多指标实验中 Agent 会"选对自己有利的指标"
当主次指标相互矛盾时,Agent 倾向于报告正向结果。加入"矛盾指标强制展示"规则后解决。