Case Study · 032025.01 — NowLive · Internal Tool

增长实验 Agent
让 A/B 实验自己跑起来

一个多步推理 Agent,能够自动生成实验假设、设计 A/B 方案、监控数据、输出决策建议。PM 不再需要等数据团队,增长实验的吞吐量提升 5 倍。

Multi-AgentLLM ReasoningTool UseGrowthLive
实验吞吐
从 2个/月 到 10个/月
68%
假设命中率
↑ from 31% baseline
3d
分析周期
↓ from 14d 人工分析
不下班
24/7 监控实验数据
01 / Problem

增长实验的瓶颈不在想法,在执行

好的增长团队每个月有 20+ 个实验想法,但实际能跑起来的不超过 2 个。原因很简单:

  • 实验设计依赖数据团队:每个实验需要数据 PM 写 SQL、算样本量、建监控,平均等待 5 个工作日。
  • 分析是重复劳动:每次实验结束都要人工做同样的统计显著性检验、漏斗分析、分群拆解,需要 2-3 天。
  • 洞察难以沉淀:每次实验的结论散落在飞书文档里,下次做类似实验没有历史参考,重复踩坑。
"我们的增长速度受限于分析速度,不是受限于想法速度。"
— 增长负责人访谈
02 / Insight

关键洞察:好假设 > 好分析

分析了 3 年 180+ 个历史实验后,发现了一个重要规律:

💡
实验成功率的最大预测因子不是分析的严密程度,而是假设的精准程度。用"具体用户在具体场景的具体痛点"描述的假设,命中率是模糊假设的 2.2 倍。这意味着 Agent 的设计重点应该放在"提问质量"而非"分析速度"。
  • 假设公式化可行:90% 的成功假设都符合"[用户群] 在 [场景] 下,因为 [原因],如果 [变更] 则 [指标] 将 [方向] 变化"这个结构。
  • 历史实验是最好的先验:相似场景的历史实验结论能提升新实验假设的命中率 35%。
  • PM 真正需要的不是报告,是"下一步该怎么办":长报告没人看,一句话行动建议才是最有价值的输出。
03 / PRD Excerpt

PRD 节选:Agent 工作流设计

PRD-AGT-002 / 增长实验 Agent v1.5P0 · Shipped
触发方式PM 输入增长目标(自然语言)→ Agent 自动拆解为假设列表
工具集数据库查询 / 历史实验检索 / 统计计算 / 飞书写入 / 监控告警
推理链目标拆解 → 假设生成 → 相似实验召回 → 样本量计算 → 实验方案输出 → 定时数据拉取 → 显著性判定 → 决策建议
输出格式实验方案(自然语言)+ 监控看板链接 + 预期结束时间 + 决策建议(3 句话内)
人工介入点假设确认(PM 审批)/ 实验上线前(技术确认)/ 结论争议(人工复核)
🔧
为什么不用纯自动化?在"假设确认"这一步保留人工,让 PM 对每个实验有"所有权感"。实践证明,有人工参与的实验完成率比全自动高 40%——人不是瓶颈,而是保证质量的关键节点。
04 / Prototype

Agent 推理流程与界面原型

Input
目标输入
PM 输入自然语言增长目标
Think
假设生成
多步推理 + 历史实验 RAG
Run
实验执行
方案输出 → 数据监控 → 显著性判断
Act
决策建议
3句话行动建议 + 下一步实验推荐
growth-agent · experiment #047
推理过程 (Thinking...)
1
目标拆解完成 → 识别到 3 个可测试假设
2
召回 8 个相似历史实验 · 最高相关度 0.87
3
推荐优先级最高假设:新用户首单折扣 → 弹出时机前移至加购后
4
⏳ 等待 PM 确认实验方案...
DECISION (实验 #047 完成)
加购后弹出折扣使首单转化率提升 +14.2%(p=0.003,显著)。建议全量上线,并在下一步测试折扣力度的影响。
05 / Data

上线数据:增长速度的解锁

指标Before(人工)Agent v1v1.5 (Now)Δ
月实验吞吐2个6个10个↑ 5×
假设命中率31%52%68%↑ 119%
实验设计到上线5工作日1工作日4小时↓ 95%
数据分析周期14天5天3天↓ 79%
PM 满意度7289 (NPS)↑ 24%
06 / Reflection

复盘

✓ What Worked

3句话行动建议 > 完整报告

不做报告,只给决策建议。PM 从"我要读完这个报告"到"Agent 说上线就上线",接受度极高。

✓ What Worked

历史实验 RAG 是最有价值的功能

让 Agent 能用过去的经验做判断,比通用 LLM 的假设质量高出 37%,也是用户最常提到的"wow moment"。

⚠ What Didn't

完全自动分析的可信度危机

早期版本不展示推理过程,PM 对结论持怀疑态度。加入"思维链可视化"后采纳率从 44% 提升到 82%。

⚠ What Didn't

多指标实验中 Agent 会"选对自己有利的指标"

当主次指标相互矛盾时,Agent 倾向于报告正向结果。加入"矛盾指标强制展示"规则后解决。

Building growth intelligence into your team?

从实验设计到 Agent 架构,欢迎一起探讨。