领域知识库 Copilot

94%

答案准确率

↑ from 61% baseline

1.4s

P95 延迟

含检索 + 生成

200+

DAU

企业内部用户

76%

搜索替代率

Copilot vs 传统搜索

01 / 问题 02 / 洞察 03 / PRD 04 / 原型 05 / 数据 06 / 复盘

01 / Problem

企业知识孤岛：信息就在那，但找不到

目标企业拥有超过 8 万份内部文档（规章制度、产品手册、历史案例、研究报告），但员工反馈知识获取极其痛苦：

员工平均每天花 2.6 小时在内部搜索上，其中 40% 的搜索以"找不到"或"不确定对不对"结束。
传统关键词搜索无法理解语义，搜索"合同违约处理"找不到题目叫"甲方责任认定"的文档。
新员工入职 Onboarding 平均需要 6 周才能独立找到想要的信息，知识迁移严重依赖老员工口传。

"我们有的是知识，缺的是能让人用上这些知识的界面。"
— 企业 CTO 访谈

02 / Insight

关键洞察：问题不在搜索，在于"答案的可信度"

早期原型测试中，我们发现用户对 LLM 回答的最大障碍不是准确率，而是"我怎么知道这是真的？"

💡

核心设计原则：每一个答案都必须能溯源到原始文档的具体段落。没有引用的答案，哪怕 95% 准确，用户也不敢用。这个洞察彻底改变了产品的 UI 优先级——溯源面板的位置比答案本身更重要。

三个反直觉发现

用户更在乎"能追责"而非"够准确"：在企业场景中，"我是根据 XX 文件 P.3 做的决定" 比"AI 说的"有更高的心理安全感。
长文档的答案质量 ≠ chunk 切割质量：最初用固定 512 token 切割，导致跨段语义断裂。改为语义感知的动态切割后，准确率提升 18%。
Hybrid Search 比纯向量检索好用得多：BM25 关键词 + 向量相似度加权融合，在企业专有名词（产品代号、内部术语）上的 Recall 提升 31%。

03 / PRD Excerpt

PRD 节选：检索引擎设计

PRD-RAG-003 / 检索引擎 v2.0P0 · Shipped

检索策略Hybrid: BM25 (0.3) + Vector (0.7) → RRF 融合 → Cross-encoder Rerank Top-20 → Top-5

Chunk 策略语义感知动态切割（边界：段落/标题/列表）；重叠 50 token；元数据注入（文档名、页码、日期）

引用溯源每个生成句子映射到 ≥1 个 source chunk；UI 展示高亮原文 + 跳转链接

成功指标Recall@5 ≥ 88%；Answer Faithfulness ≥ 94%；P95 端到端延迟 ≤ 2s

降级策略置信度 < 0.7 时展示"未找到明确答案"+ 相关文档推荐，禁止幻觉补全

⚖️

最难的 trade-off：Rerank 模型让准确率从 81% 提升到 94%，但延迟从 0.6s 升到 1.4s。在企业场景中，用户愿意为准确性等多 0.8s，但在 C 端场景中这个 trade-off 可能不成立。

04 / Prototype

系统架构与界面原型

Ingest

文档预处理

PDF/Word/Notion → 语义切割 → Embedding → 写入向量库

Retrieve

混合检索

BM25 + Vector → RRF 融合 → Rerank

Generate

引用生成

Claude + Context → Streaming 回答 + 来源标注

Trace

溯源展示

答案句子 → 高亮原文段落 + 文档跳转

knowledge-copilot · chat session

USER

合同违约后的赔偿标准是什么？适用于海外项目吗？

COPILOT · 3 sources

根据《合同管理规范 2024版》第 4.3 节，违约赔偿标准为合同总额的 15%-30%，具体比例由违约性质决定。^[1]

海外项目适用《国际合同补充条款》，赔偿计算需额外考虑汇率折算条款（附件 B）。^[2]

Sources

[1] 合同管理规范 2024.pdf

§4.3 违约责任认定 · P.18

[2] 国际合同补充条款.docx

附件 B 汇率折算 · P.3

05 / Data

上线数据：企业知识检索的质变

指标	传统搜索（Before）	RAG Copilot v1	v2 (Now)	Δ
答案准确率	61%	79%	94%	↑ 54%
P95 响应时间	8.2s（手动找）	2.1s	1.4s	↓ 83%
DAU	—	60	220	↑ 3.7×
幻觉拦截率	—	68%	97%	↑ 43%
用户 NPS	—	31	67	↑ 116%

06 / Reflection

复盘

✓ What Worked

溯源设计是核心差异

引用面板让用户信任答案，从"不敢用"到"每天用"。这个 UI 决策驱动了 DAU 翻倍。

✓ What Worked

Hybrid Search 解决了专有名词问题

纯向量在企业术语（产品代号、部门缩写）上召回率很差，BM25 混合后 Recall 提升 31%。

⚠ What Didn't

文档预处理比想象中脏

旧版 PDF 有扫描件、表格嵌套、错误 OCR，清洗花了 40% 的项目时间——这比模型本身难多了。

⚠ What Didn't

Rerank 模型的冷启动问题

通用 Rerank 在领域术语上效果差，必须准备领域内的正负样本对才能 fine-tune，而这个数据很难收集。

Building an enterprise knowledge system?

从 RAG 架构设计到 Chunk 策略，欢迎一起深聊。

📮 Email Evan ← More Works