为什么要把自己做成一个 AI 产品
大多数个人网站的 "Contact" 页面是一个冷冰冰的邮箱地址。访客有问题,我在睡觉。这个信息不对称让 80% 的潜在连接就此消失。
设计原则
- 基于证据,不自吹:所有回答都必须能溯源到我真实写过、说过、做过的内容。
- 有观点,不中立:我有鲜明的产品观,助手应该传达这种风格,不是标准 ChatGPT 腔。
- 知道边界:问到我没有覆盖的问题,清楚地说"Evan 没有写过这方面的内容,但你可以直接问他"。
- 让人想联系我:助手的终极目标是让访客产生"这个人值得认识"的感觉,而不是让助手替我解决所有问题。
知识库设计:让 AI 真正了解我
知识库是这个产品最核心的资产。分为四个来源:
技术架构:选型与理由
为什么选 Claude 而不是 GPT-4
- 中文写作风格控制更自然,更贴近我的实际写作腔调
- 对 System Prompt 的遵循度更高,"不要幻觉"这条规则 Claude 执行得更严格
- 更长的 Context Window 让我可以放入更完整的参考文档
System Prompt 设计:让 AI 说话像我
System Prompt 是这个产品最核心的"产品决策文件",下面是精简版(完整版含 Few-shot 示例约 2000 tokens):
You are Evan_AI, the digital assistant of Evan — an AI Product Manager.
You represent Evan's thinking, experience, and perspective.
You are NOT a generic assistant; you are a {persona} trained on Evan's actual work.
## Tone & Style
- Direct, opinionated. Evan has strong views; don't hedge everything.
- Mix Chinese and English naturally (Evan does this in his writing).
- Use product-thinking framing: tradeoffs, evidence, metrics.
- Keep answers concise. If it's not in the knowledge base, say so.
## Hard Rules
- NEVER fabricate facts about Evan not in the provided context.
- If asked about salary, personal life, or confidential work: decline gracefully.
- End responses that merit follow-up with: "Want to go deeper on this? {email_cta}"
## Context
{{retrieved_chunks}} <!-- RAG 检索结果注入位置 -->
## Current Query
{{user_message}}
Prompt 设计的三个关键决策
- "有观点"写进 Prompt:明确告诉模型 Evan 是有鲜明立场的人,避免过度中立化的回答。
- 硬规则与软规则分开:不能做的事用 NEVER/ALWAYS,风格偏好用软性描述——这样模型不会过度解读。
- 让 AI 知道自己的边界:"如果不在知识库里"的处理逻辑必须明确,否则模型会倾向于补全幻觉。
对话流程设计:7 类典型 Intent
把访客可能问的问题分类,针对每类设计不同的检索策略和回答风格:
| Intent | 示例问题 | 检索策略 | 期望风格 |
|---|---|---|---|
| 背景询问 | 你做过哪些项目? | 简历 + PRD 摘要 | 列举 + 数据支撑 |
| 技术观点 | 你怎么看 RAG 的局限性? | 博客文章全文 | 有观点 + 有依据 |
| 合作意向 | 我们能合作吗? | Q&A 库 | 直接 + 引导至邮件 |
| 工具推荐 | 做 AI 产品你用什么工具? | 博客 + Q&A | 具体工具名 + 用法 |
| 方法论 | 你怎么做增长实验? | PRD 摘要 + 博客 | 框架 + 案例 |
| 超出边界 | 你的薪资期望? | — | 礼貌拒绝 + 引导 |
| 通用问答 | 什么是 RAG? | 博客(如有)/ 通用 | 结合 Evan 的理解 |
对话示例
核心是一套 LLM + 风格迁移的内容生产流水线——从趋势抓取到发布,全自动覆盖选题、撰写、配图全链路。上线 6 个月后月产笔记从 420 篇到 10k+,单篇成本从 ¥2.10 降到 ¥0.18,爆款率提升了 3 倍多。
最大的洞察是:爆款是工程问题,不是艺术问题。把它拆成"标题钩子分 + 情绪密度 + 痛点匹配度"三个可量化的子指标后,模型就知道该往哪个方向优化了。
现在合规拦截率降到 4.1%(早期是 11%+),人工审核从 15 分钟/篇压缩到 40 秒/篇,基本靠 AI 初筛 + 人工把关头部内容。
评估体系:怎么知道助手回答得好不好
采用"自动 eval + 人工抽审"的混合评估方案,每周跑一次:
答案是否基于知识库
用 Claude 自判断:回答的每个关键断言是否能在检索结果中找到依据。目标 ≥ 90%。
检索结果是否相关
Top-5 检索结果与问题的平均相关度评分(1-5)。目标均值 ≥ 4.0。
风格是否像"Evan"
用 Few-shot 示例评判回答是否符合 Evan 的语气和观点倾向。最难量化的维度。