Prompt 评测框架 · Evan

820★

GitHub Stars

6个月自然增长

Contributors

来自 5 个国家

65%

回归缺陷提前发现

vs 直接上线

v2.1

当前版本

18个月持续迭代

01 / 问题 02 / 洞察 03 / PRD 04 / 原型 05 / 数据 06 / 复盘

01 / Problem

Prompt 工程的"暗债"：改了，但不知道坏了什么

LLM 应用开发团队面临一个隐性的工程债问题：

Prompt 变更无版本管理：大多数团队把 Prompt 存在数据库字段或飞书文档里，没有 Git 化的版本对比。
没有回归测试：修改一个 Prompt 修复了场景 A，可能在场景 B 引入了回退，但没人知道。
成本不透明：不同 Prompt 版本对 token 消耗的影响无法量化，优化无从下手。
多模型对比困难：换模型前无法客观对比 GPT-4 vs Claude 在具体任务上的质量差异。

"我们改 Prompt 就像在黑暗里摸索开关，每次修改都是一次赌博。"
— 某 AI 创业公司 CTO，GitHub Issue 中

02 / Insight

关键洞察：Prompt 工程需要"代码工程化"的工具链

💡

Prompt 是代码，但我们用管理文档的方式管理它。代码有 Git / CI / Test Coverage，Prompt 什么都没有。这个工具该做的事只有一件：把软件工程的最佳实践搬到 Prompt 领域。

测试用例才是核心资产：好的 Eval 集比好的 Prompt 更有长期价值，因为它能驱动所有未来的迭代。
评估维度必须与业务指标挂钩：通用的"准确率"没有意义，必须定义"在我们的场景下，什么叫好的回答"。
PM 需要可读的结果，不是 BLEU score：工程师看指标，但决策者需要"这次改动让用户满意度 +3%"这样的翻译。

03 / PRD Excerpt

PRD 节选：核心 CLI 命令设计

prompt-eval / CLI Design v1.0Open Source

eval run对当前 Prompt 运行完整测试套件，输出各维度评分与 vs 上一版本的 diff

eval compare指定两个版本/两个模型，输出并排对比报告（支持导出 HTML）

eval add交互式添加新测试用例，支持正样本/负样本/边界样本标注

eval cost估算当前 Prompt 在指定流量下的月度 token 成本，支持多模型对比

eval watch监听 Prompt 文件变化，自动运行回归测试（CI/CD 集成友好）

🎯

设计原则：零依赖启动，5分钟上手。不需要向量数据库，不需要注册账号，不需要任何基础设施。pip install prompt-eval && eval init 然后就能工作——这个决策驱动了 70% 的 Star 增长。

04 / Prototype

CLI 输出与 Web Dashboard

terminal · prompt-eval run --compare v1.2..v1.3

Running eval suite: customer_support_v2 (48 cases)...

Dimension

v1.2

v1.3

Faithfulness

0.81

0.93

+14.8%

Tone Match

0.74

0.88

+18.9%

Avg Tokens

312

428

+37.2%

Regression

—

3 cases

⚠ Review

⚠ 3 regression cases detected. Run `eval diff --regressions` to inspect.

📊 Full report: ./reports/v1.2_vs_v1.3.html

05 / Data

开源增长数据

月份	Stars	Contributors	Issue 关闭率
2024.07 (launch)	47	1	—
2024.09	180	3	71%
2025.01	420	8	84%
2025.05 (Now)	820	12	91%

增长拐点出现在 2024.10，一篇关于"如何量化 Prompt 改动的 ROI"的博客被 Hacker News 转发，带来了 200+ Stars 的单日增量。

06 / Reflection

复盘

✓ What Worked

零依赖是最强的增长杠杆

"5分钟能跑起来"消除了最大的尝试门槛。90% 的 Star 用户是在试用后才 Star 的，不是看了介绍 Star 的。

✓ What Worked

把 PM 视角写进文档

README 用产品思维写，不只讲怎么用，讲"你为什么需要这个"。这让非工程师也能理解价值，转发传播率更高。

⚠ What Didn't

过早支持太多评估维度

v1.0 有 12 个评估维度，让新用户不知道从哪里开始。v1.2 精简为 4 个核心维度 + 自定义扩展，上手率提升 58%。

⚠ What Didn't

开源维护的时间成本被严重低估

Issue 回复、PR 审核、文档更新每周耗费 8+ 小时。如果重来，会更早建立贡献者指南，更早找 Co-maintainer。

Want to bring engineering rigor to your LLM app?

Star 这个项目，或者直接和我聊聊你的 Prompt 工程问题。

★ Star on GitHub ← More Works