01 / Problem
企业知识孤岛:信息就在那,但找不到
目标企业拥有超过 8 万份内部文档(规章制度、产品手册、历史案例、研究报告),但员工反馈知识获取极其痛苦:
- 员工平均每天花 2.6 小时在内部搜索上,其中 40% 的搜索以"找不到"或"不确定对不对"结束。
- 传统关键词搜索无法理解语义,搜索"合同违约处理"找不到题目叫"甲方责任认定"的文档。
- 新员工入职 Onboarding 平均需要 6 周才能独立找到想要的信息,知识迁移严重依赖老员工口传。
"我们有的是知识,缺的是能让人用上这些知识的界面。"
— 企业 CTO 访谈
02 / Insight
关键洞察:问题不在搜索,在于"答案的可信度"
早期原型测试中,我们发现用户对 LLM 回答的最大障碍不是准确率,而是"我怎么知道这是真的?"
💡
核心设计原则:每一个答案都必须能溯源到原始文档的具体段落。没有引用的答案,哪怕 95% 准确,用户也不敢用。这个洞察彻底改变了产品的 UI 优先级——溯源面板的位置比答案本身更重要。
三个反直觉发现
- 用户更在乎"能追责"而非"够准确":在企业场景中,"我是根据 XX 文件 P.3 做的决定" 比"AI 说的"有更高的心理安全感。
- 长文档的答案质量 ≠ chunk 切割质量:最初用固定 512 token 切割,导致跨段语义断裂。改为语义感知的动态切割后,准确率提升 18%。
- Hybrid Search 比纯向量检索好用得多:BM25 关键词 + 向量相似度加权融合,在企业专有名词(产品代号、内部术语)上的 Recall 提升 31%。
03 / PRD Excerpt
PRD 节选:检索引擎设计
PRD-RAG-003 / 检索引擎 v2.0P0 · Shipped
检索策略Hybrid: BM25 (0.3) + Vector (0.7) → RRF 融合 → Cross-encoder Rerank Top-20 → Top-5
Chunk 策略语义感知动态切割(边界:段落/标题/列表);重叠 50 token;元数据注入(文档名、页码、日期)
引用溯源每个生成句子映射到 ≥1 个 source chunk;UI 展示高亮原文 + 跳转链接
成功指标Recall@5 ≥ 88%;Answer Faithfulness ≥ 94%;P95 端到端延迟 ≤ 2s
降级策略置信度 < 0.7 时展示"未找到明确答案"+ 相关文档推荐,禁止幻觉补全
⚖️
最难的 trade-off:Rerank 模型让准确率从 81% 提升到 94%,但延迟从 0.6s 升到 1.4s。在企业场景中,用户愿意为准确性等多 0.8s,但在 C 端场景中这个 trade-off 可能不成立。
04 / Prototype
系统架构与界面原型
Ingest
文档预处理
PDF/Word/Notion → 语义切割 → Embedding → 写入向量库
Retrieve
混合检索
BM25 + Vector → RRF 融合 → Rerank
Generate
引用生成
Claude + Context → Streaming 回答 + 来源标注
Trace
溯源展示
答案句子 → 高亮原文段落 + 文档跳转
knowledge-copilot · chat session
USER
合同违约后的赔偿标准是什么?适用于海外项目吗?
COPILOT · 3 sources
根据《合同管理规范 2024版》第 4.3 节,违约赔偿标准为合同总额的 15%-30%,具体比例由违约性质决定。[1]
海外项目适用《国际合同补充条款》,赔偿计算需额外考虑汇率折算条款(附件 B)。[2]
海外项目适用《国际合同补充条款》,赔偿计算需额外考虑汇率折算条款(附件 B)。[2]
Sources
[1] 合同管理规范 2024.pdf
§4.3 违约责任认定 · P.18
[2] 国际合同补充条款.docx
附件 B 汇率折算 · P.3
05 / Data
上线数据:企业知识检索的质变
| 指标 | 传统搜索(Before) | RAG Copilot v1 | v2 (Now) | Δ |
|---|---|---|---|---|
| 答案准确率 | 61% | 79% | 94% | ↑ 54% |
| P95 响应时间 | 8.2s(手动找) | 2.1s | 1.4s | ↓ 83% |
| DAU | — | 60 | 220 | ↑ 3.7× |
| 幻觉拦截率 | — | 68% | 97% | ↑ 43% |
| 用户 NPS | — | 31 | 67 | ↑ 116% |
06 / Reflection
复盘
✓ What Worked
溯源设计是核心差异
引用面板让用户信任答案,从"不敢用"到"每天用"。这个 UI 决策驱动了 DAU 翻倍。
✓ What Worked
Hybrid Search 解决了专有名词问题
纯向量在企业术语(产品代号、部门缩写)上召回率很差,BM25 混合后 Recall 提升 31%。
⚠ What Didn't
文档预处理比想象中脏
旧版 PDF 有扫描件、表格嵌套、错误 OCR,清洗花了 40% 的项目时间——这比模型本身难多了。
⚠ What Didn't
Rerank 模型的冷启动问题
通用 Rerank 在领域术语上效果差,必须准备领域内的正负样本对才能 fine-tune,而这个数据很难收集。