Case Study · 022024.03 — 2024.11Live · Enterprise

领域知识库 Copilot
让企业知识真正可被查询

基于私有语料微调 + 检索增强(RAG)的企业问答助手,支持跨文档深度检索、引用溯源与多模态查询。让员工从"找信息"中解放出来,专注在"用信息"上。

RAGTransformerVector DBFine-tuningLive
94%
答案准确率
↑ from 61% baseline
1.4s
P95 延迟
含检索 + 生成
200+
DAU
企业内部用户
76%
搜索替代率
Copilot vs 传统搜索
01 / Problem

企业知识孤岛:信息就在那,但找不到

目标企业拥有超过 8 万份内部文档(规章制度、产品手册、历史案例、研究报告),但员工反馈知识获取极其痛苦:

  • 员工平均每天花 2.6 小时在内部搜索上,其中 40% 的搜索以"找不到"或"不确定对不对"结束。
  • 传统关键词搜索无法理解语义,搜索"合同违约处理"找不到题目叫"甲方责任认定"的文档。
  • 新员工入职 Onboarding 平均需要 6 周才能独立找到想要的信息,知识迁移严重依赖老员工口传。
"我们有的是知识,缺的是能让人用上这些知识的界面。"
— 企业 CTO 访谈
02 / Insight

关键洞察:问题不在搜索,在于"答案的可信度"

早期原型测试中,我们发现用户对 LLM 回答的最大障碍不是准确率,而是"我怎么知道这是真的?"

💡
核心设计原则:每一个答案都必须能溯源到原始文档的具体段落。没有引用的答案,哪怕 95% 准确,用户也不敢用。这个洞察彻底改变了产品的 UI 优先级——溯源面板的位置比答案本身更重要。

三个反直觉发现

  • 用户更在乎"能追责"而非"够准确":在企业场景中,"我是根据 XX 文件 P.3 做的决定" 比"AI 说的"有更高的心理安全感。
  • 长文档的答案质量 ≠ chunk 切割质量:最初用固定 512 token 切割,导致跨段语义断裂。改为语义感知的动态切割后,准确率提升 18%。
  • Hybrid Search 比纯向量检索好用得多:BM25 关键词 + 向量相似度加权融合,在企业专有名词(产品代号、内部术语)上的 Recall 提升 31%。
03 / PRD Excerpt

PRD 节选:检索引擎设计

PRD-RAG-003 / 检索引擎 v2.0P0 · Shipped
检索策略Hybrid: BM25 (0.3) + Vector (0.7) → RRF 融合 → Cross-encoder Rerank Top-20 → Top-5
Chunk 策略语义感知动态切割(边界:段落/标题/列表);重叠 50 token;元数据注入(文档名、页码、日期)
引用溯源每个生成句子映射到 ≥1 个 source chunk;UI 展示高亮原文 + 跳转链接
成功指标Recall@5 ≥ 88%;Answer Faithfulness ≥ 94%;P95 端到端延迟 ≤ 2s
降级策略置信度 < 0.7 时展示"未找到明确答案"+ 相关文档推荐,禁止幻觉补全
⚖️
最难的 trade-off:Rerank 模型让准确率从 81% 提升到 94%,但延迟从 0.6s 升到 1.4s。在企业场景中,用户愿意为准确性等多 0.8s,但在 C 端场景中这个 trade-off 可能不成立。
04 / Prototype

系统架构与界面原型

Ingest
文档预处理
PDF/Word/Notion → 语义切割 → Embedding → 写入向量库
Retrieve
混合检索
BM25 + Vector → RRF 融合 → Rerank
Generate
引用生成
Claude + Context → Streaming 回答 + 来源标注
Trace
溯源展示
答案句子 → 高亮原文段落 + 文档跳转
knowledge-copilot · chat session
USER
合同违约后的赔偿标准是什么?适用于海外项目吗?
COPILOT · 3 sources
根据《合同管理规范 2024版》第 4.3 节,违约赔偿标准为合同总额的 15%-30%,具体比例由违约性质决定。[1]

海外项目适用《国际合同补充条款》,赔偿计算需额外考虑汇率折算条款(附件 B)。[2]
Sources
[1] 合同管理规范 2024.pdf
§4.3 违约责任认定 · P.18
[2] 国际合同补充条款.docx
附件 B 汇率折算 · P.3
05 / Data

上线数据:企业知识检索的质变

指标传统搜索(Before)RAG Copilot v1v2 (Now)Δ
答案准确率61%79%94%↑ 54%
P95 响应时间8.2s(手动找)2.1s1.4s↓ 83%
DAU60220↑ 3.7×
幻觉拦截率68%97%↑ 43%
用户 NPS3167↑ 116%
06 / Reflection

复盘

✓ What Worked

溯源设计是核心差异

引用面板让用户信任答案,从"不敢用"到"每天用"。这个 UI 决策驱动了 DAU 翻倍。

✓ What Worked

Hybrid Search 解决了专有名词问题

纯向量在企业术语(产品代号、部门缩写)上召回率很差,BM25 混合后 Recall 提升 31%。

⚠ What Didn't

文档预处理比想象中脏

旧版 PDF 有扫描件、表格嵌套、错误 OCR,清洗花了 40% 的项目时间——这比模型本身难多了。

⚠ What Didn't

Rerank 模型的冷启动问题

通用 Rerank 在领域术语上效果差,必须准备领域内的正负样本对才能 fine-tune,而这个数据很难收集。

Building an enterprise knowledge system?

从 RAG 架构设计到 Chunk 策略,欢迎一起深聊。