增长实验 Agent · Evan

5×

实验吞吐

从 2个/月到 10个/月

68%

假设命中率

↑ from 31% baseline

分析周期

↓ from 14d 人工分析

∞

不下班

24/7 监控实验数据

01 / 问题 02 / 洞察 03 / PRD 04 / 原型 05 / 数据 06 / 复盘

01 / Problem

增长实验的瓶颈不在想法，在执行

好的增长团队每个月有 20+ 个实验想法，但实际能跑起来的不超过 2 个。原因很简单：

实验设计依赖数据团队：每个实验需要数据 PM 写 SQL、算样本量、建监控，平均等待 5 个工作日。
分析是重复劳动：每次实验结束都要人工做同样的统计显著性检验、漏斗分析、分群拆解，需要 2-3 天。
洞察难以沉淀：每次实验的结论散落在飞书文档里，下次做类似实验没有历史参考，重复踩坑。

"我们的增长速度受限于分析速度，不是受限于想法速度。"
— 增长负责人访谈

02 / Insight

关键洞察：好假设 > 好分析

分析了 3 年 180+ 个历史实验后，发现了一个重要规律：

💡

实验成功率的最大预测因子不是分析的严密程度，而是假设的精准程度。用"具体用户在具体场景的具体痛点"描述的假设，命中率是模糊假设的 2.2 倍。这意味着 Agent 的设计重点应该放在"提问质量"而非"分析速度"。

假设公式化可行：90% 的成功假设都符合"[用户群] 在 [场景] 下，因为 [原因]，如果 [变更] 则 [指标] 将 [方向] 变化"这个结构。
历史实验是最好的先验：相似场景的历史实验结论能提升新实验假设的命中率 35%。
PM 真正需要的不是报告，是"下一步该怎么办"：长报告没人看，一句话行动建议才是最有价值的输出。

03 / PRD Excerpt

PRD 节选：Agent 工作流设计

PRD-AGT-002 / 增长实验 Agent v1.5P0 · Shipped

触发方式PM 输入增长目标（自然语言）→ Agent 自动拆解为假设列表

工具集数据库查询 / 历史实验检索 / 统计计算 / 飞书写入 / 监控告警

推理链目标拆解 → 假设生成 → 相似实验召回 → 样本量计算 → 实验方案输出 → 定时数据拉取 → 显著性判定 → 决策建议

输出格式实验方案（自然语言）+ 监控看板链接 + 预期结束时间 + 决策建议（3 句话内）

人工介入点假设确认（PM 审批）/ 实验上线前（技术确认）/ 结论争议（人工复核）

🔧

为什么不用纯自动化？在"假设确认"这一步保留人工，让 PM 对每个实验有"所有权感"。实践证明，有人工参与的实验完成率比全自动高 40%——人不是瓶颈，而是保证质量的关键节点。

04 / Prototype

Agent 推理流程与界面原型

Input

目标输入

PM 输入自然语言增长目标

Think

假设生成

多步推理 + 历史实验 RAG

Run

实验执行

方案输出 → 数据监控 → 显著性判断

Act

决策建议

3句话行动建议 + 下一步实验推荐

growth-agent · experiment #047

推理过程 (Thinking...)

✓ 目标拆解完成 → 识别到 3 个可测试假设

✓ 召回 8 个相似历史实验 · 最高相关度 0.87

✓ 推荐优先级最高假设：新用户首单折扣 → 弹出时机前移至加购后

⏳ 等待 PM 确认实验方案...

DECISION (实验 #047 完成)

加购后弹出折扣使首单转化率提升 +14.2%（p=0.003，显著）。建议全量上线，并在下一步测试折扣力度的影响。

05 / Data

上线数据：增长速度的解锁

指标	Before（人工）	Agent v1	v1.5 (Now)	Δ
月实验吞吐	2个	6个	10个	↑ 5×
假设命中率	31%	52%	68%	↑ 119%
实验设计到上线	5工作日	1工作日	4小时	↓ 95%
数据分析周期	14天	5天	3天	↓ 79%
PM 满意度	—	72	89 (NPS)	↑ 24%

06 / Reflection

复盘

✓ What Worked

3句话行动建议 > 完整报告

不做报告，只给决策建议。PM 从"我要读完这个报告"到"Agent 说上线就上线"，接受度极高。

✓ What Worked

历史实验 RAG 是最有价值的功能

让 Agent 能用过去的经验做判断，比通用 LLM 的假设质量高出 37%，也是用户最常提到的"wow moment"。

⚠ What Didn't

完全自动分析的可信度危机

早期版本不展示推理过程，PM 对结论持怀疑态度。加入"思维链可视化"后采纳率从 44% 提升到 82%。

⚠ What Didn't

多指标实验中 Agent 会"选对自己有利的指标"

当主次指标相互矛盾时，Agent 倾向于报告正向结果。加入"矛盾指标强制展示"规则后解决。

Building growth intelligence into your team?

从实验设计到 Agent 架构，欢迎一起探讨。

📮 Email Evan ← More Works