Case Study · 042024.06 — NowOpen Source · v2.1

Prompt 评测框架
让 Prompt 迭代有据可依

面向产品迭代的 Prompt 版本管理与回归测试工具。每次修改 Prompt 前能知道"会不会改坏",每次上线前能量化"到底改好了多少"。现已在 GitHub 获得 820+ Stars。

Prompt EngineeringEval FrameworkMulti-ModelOpen Source
820★
GitHub Stars
6个月自然增长
12
Contributors
来自 5 个国家
65%
回归缺陷提前发现
vs 直接上线
v2.1
当前版本
18个月持续迭代
01 / Problem

Prompt 工程的"暗债":改了,但不知道坏了什么

LLM 应用开发团队面临一个隐性的工程债问题:

  • Prompt 变更无版本管理:大多数团队把 Prompt 存在数据库字段或飞书文档里,没有 Git 化的版本对比。
  • 没有回归测试:修改一个 Prompt 修复了场景 A,可能在场景 B 引入了回退,但没人知道。
  • 成本不透明:不同 Prompt 版本对 token 消耗的影响无法量化,优化无从下手。
  • 多模型对比困难:换模型前无法客观对比 GPT-4 vs Claude 在具体任务上的质量差异。
"我们改 Prompt 就像在黑暗里摸索开关,每次修改都是一次赌博。"
— 某 AI 创业公司 CTO,GitHub Issue 中
02 / Insight

关键洞察:Prompt 工程需要"代码工程化"的工具链

💡
Prompt 是代码,但我们用管理文档的方式管理它。代码有 Git / CI / Test Coverage,Prompt 什么都没有。这个工具该做的事只有一件:把软件工程的最佳实践搬到 Prompt 领域。
  • 测试用例才是核心资产:好的 Eval 集比好的 Prompt 更有长期价值,因为它能驱动所有未来的迭代。
  • 评估维度必须与业务指标挂钩:通用的"准确率"没有意义,必须定义"在我们的场景下,什么叫好的回答"。
  • PM 需要可读的结果,不是 BLEU score:工程师看指标,但决策者需要"这次改动让用户满意度 +3%"这样的翻译。
03 / PRD Excerpt

PRD 节选:核心 CLI 命令设计

prompt-eval / CLI Design v1.0Open Source
eval run对当前 Prompt 运行完整测试套件,输出各维度评分与 vs 上一版本的 diff
eval compare指定两个版本/两个模型,输出并排对比报告(支持导出 HTML)
eval add交互式添加新测试用例,支持正样本/负样本/边界样本标注
eval cost估算当前 Prompt 在指定流量下的月度 token 成本,支持多模型对比
eval watch监听 Prompt 文件变化,自动运行回归测试(CI/CD 集成友好)
🎯
设计原则:零依赖启动,5分钟上手。不需要向量数据库,不需要注册账号,不需要任何基础设施。pip install prompt-eval && eval init 然后就能工作——这个决策驱动了 70% 的 Star 增长。
04 / Prototype

CLI 输出与 Web Dashboard

terminal · prompt-eval run --compare v1.2..v1.3
Running eval suite: customer_support_v2 (48 cases)...

Dimension
v1.2
v1.3
Δ
Faithfulness
0.81
0.93
+14.8%
Tone Match
0.74
0.88
+18.9%
Avg Tokens
312
428
+37.2%
Regression
3 cases
⚠ Review

⚠ 3 regression cases detected. Run `eval diff --regressions` to inspect.
📊 Full report: ./reports/v1.2_vs_v1.3.html
05 / Data

开源增长数据

月份StarsContributorsIssue 关闭率
2024.07 (launch)471
2024.09180371%
2025.01420884%
2025.05 (Now)8201291%

增长拐点出现在 2024.10,一篇关于"如何量化 Prompt 改动的 ROI"的博客被 Hacker News 转发,带来了 200+ Stars 的单日增量。

06 / Reflection

复盘

✓ What Worked

零依赖是最强的增长杠杆

"5分钟能跑起来"消除了最大的尝试门槛。90% 的 Star 用户是在试用后才 Star 的,不是看了介绍 Star 的。

✓ What Worked

把 PM 视角写进文档

README 用产品思维写,不只讲怎么用,讲"你为什么需要这个"。这让非工程师也能理解价值,转发传播率更高。

⚠ What Didn't

过早支持太多评估维度

v1.0 有 12 个评估维度,让新用户不知道从哪里开始。v1.2 精简为 4 个核心维度 + 自定义扩展,上手率提升 58%。

⚠ What Didn't

开源维护的时间成本被严重低估

Issue 回复、PR 审核、文档更新每周耗费 8+ 小时。如果重来,会更早建立贡献者指南,更早找 Co-maintainer。

Want to bring engineering rigor to your LLM app?

Star 这个项目,或者直接和我聊聊你的 Prompt 工程问题。