跳过正文
在 exabyte 级非结构化内容上做企业 AI:权限、检索分层与 Agent 边界
  1. 文章/

在 exabyte 级非结构化内容上做企业 AI:权限、检索分层与 Agent 边界

·4716 字·10 分钟
NeatGuyCoding
作者
NeatGuyCoding

在 exabyte 级非结构化内容上做企业 AI:权限、检索分层与 Agent 边界
#

企业把文档、合同、标书、媒体丢进 Box 一类内容云之后,真正难的不是「能不能调 GPT」,而是三件事同时成立:数据在变谁能看见什么在变索引与推理的账单在变。Box CTO Ben Kus 与 Weaviate 联合创始人 Bob van Luijt、Connor Shorten 在一期技术播客里,从存储与多租户权限一直谈到 RAG、embedding 经济学和 Agent——下文按工程主题重组,不按时序复述;凡未在 SEC 10-K、OpenAPI 或论文中核验的,均标为演讲者观点


问题空间:为什么「大窗口 + 通用模型」仍不够
#

行业常见论调是:context window 变大以后,RAG「几乎不需要了」。Ben Kus 的反驳(演讲者观点)针对的是企业私有库,而非公开网页问答:内容持续上传与修订;同一问题在不同用户下可见集合不同;把「全库」塞进 prompt 在成本与合规上都不现实。Bob 补充的视角更偏实现:窗口里的 token 序列在模型侧仍对应向量表示;用 Hugging Face Transformers 等栈对照 token→embedding 管线,有助于理解「窗口变大」并未消除检索前置的必要性——这是可复现的学习路径,不是 Box 产品规格。

与此同时,Box FY2026 10-K 披露:截至 2026 年 1 月 31 日,超过 10 万家付费组织(paying organizations);生成式 AI / Box AI、BYOM(bring your own model)为明确方向。Ben 在本场提到的 exabyte 级存储、数千亿至万亿对象、12 万+ 客户、数千万用户——在可访问的 10-K 中出现 exabyte 或万亿级对象表述;迁移工具 Box Shuttle 仅描述 petabyte-scale 迁移能力。写作与选型时,宜把 SEC 数字与 CTO 口述规模分开标注。

约 10 分钟处:三分屏访谈,主持方背景可见「Weaviate podcast」标识,Ben Kus 手势说明平台规模与架构约束。


三层基础设施:存储、权限图、AI 不变量
#

为什么
#

非结构化内容平台的第一性约束不是 embedding 维度,而是 L1 吞吐与可靠性(百万级/秒交互量级、对象存储)、L2 协作权限(跨公司共享)、L3 AI(多模型、权限一致、快速接入新模型且不泄漏)。三者任一薄弱,上层 RAG 都会变成「能 demo、不能上线」。

机制与约束
#

L2 的关键在跨租户:用户 A@客户甲分享给用户 B@客户乙时,不能简单用「按企业硬隔离 shard」解决可见性(演讲者观点)。10-K 描述 internal/external collaboration、Smart Access、共享链接与分类策略;OpenAPI 中 Hubsrequesting user 列出资源——与「全局多租户可见性图」的表述方向一致,但以该术语出现在官方文档。

L3 的不变量:AI 回答不得越权。检索与生成只能使用调用者有权访问的内容;与 Azure OpenAI、Vertex AI、Claude、Bedrock 等集成时亦须保持(演讲者观点;与 Box API「不绕过 content permissions」原则一致,见 Box Developer Security)。安全文化上,Ben 强调权限与合规侧不能用「move fast and break things」——与创始人推动 AI 愿景形成张力,属组织层面取舍,非可单条引用的技术规格。

Mermaid diagram 1

怎么做(最小示例)
#

在应用层,把「用户身份 + 内容 ACL」作为检索的硬过滤器,再调向量或关键词:

# 伪代码:检索前绑定调用者可见 file_id 集合
visible_ids = box.acl.resolve_visible_files(user_id, hub_id=None)
candidates = hybrid_search(query, filter={"file_id": {"$in": visible_ids}})

常见误区
#

  • 把「租户 ID = 分片键」当成权限模型,忽略 B2B 外链协作。
  • 在向量库侧只做 app 层过滤,却不同步 Box 权限变更事件,导致陈旧可见性

开场前后:三分屏画面,左下「Weaviate podcast」角标;OCR 可见片段 a / 3 =x / } Weaviate(无架构幻灯,仅为访谈画面)。


RAG 与大上下文:对立命题各自成立的条件
#

为什么
#

企业 RAG 的收益被归纳为(演讲者观点):最新数据 + 权限过滤后的上下文 + 生成——而不是单纯扩大 token 窗口。这与行业对 RAG 的常规定义(检索增强生成)相容,但 Ben 的论证重点是 ACL + 动态库,属场景判断。

机制与约束
#

Bob 将技术栈演进概括为:向量库 → RAG(embedding 做候选)→ Agent(生成结果可回写)演讲者/产品方观点)。Ben 回忆 ChatGPT / GPT-3.5 API 达到「可生产」前后(约 2022 末–2023 初,宜与公开 API 时间线交叉核对)是企业认真投入内容的拐点;并主观认为早年惊艳的 GPT-3.5 Turbo 相对 GPT-4.1、Gemini 2.5、Claude 3.7 等在企业用例上已差距巨大——说明模型迭代本身是平台风险,而非一次性选型。

怎么做
#

权限感知的 RAG 最小闭环:

query → (metadata/keyword/粗向量) recall@K
      → ACL filter
      → rerank / optional "deep" read
      → LLM w/ citations

常见误区
#

  • 把「128k/1M 窗口」当成可替代增量索引的方案,忽略日更文档与撤销授权。
  • 不做引用粒度(文件 vs 段落),导致答案无法审计到具体 chunk。

讨论 RAG 是否被大窗口取代时:访谈三分屏;OCR 含 tabs tH Wilts 等噪声及画面元素,可读幻灯标题。

约 17 分钟:Bob 双手比划说明向量/RAG/Agent 演进,主持方背景为 Weaviate podcast 标识。


「找文件」与「找答案」:双粒度 embedding
#

为什么
#

企业搜索长期混淆两件事:定位哪份材料 vs 定位材料里的哪段。AI 时代必须拆开,否则 recall 不足或 embedding 数量爆炸(演讲者观点)。

机制与约束
#

  • 文件级:哪份 PPT、哪份计划书——适合导航式查询。
  • 段落/页级:财报中的收入或风险段——适合问答式查询。

Connor(Weaviate)将 ColBERT(Khattab & Zaharia, SIGIR 2020)作为长 PDF 的参考路线:多向量 + late interaction,相对固定 500-token 粗分块更细——论文机制已核验;Ben 声称 Box 已上线 ColBERT。Ben 对「一页五段是否只要五个向量」的回答是:视查询类型而定,非固定五(演讲者观点)。

ColBERT 核心(文档侧):查询与文档独立编码,通过 late interaction 做细粒度相似度,文档表示可预计算——适合长文档,但存储侧往往是多向量/文档,与下文成本节直接相关。

怎么做
#

对同一 file_id 维护两级索引(概念示意):

{
  "file_id": "f_123",
  "file_vector": "[...]",
  "chunks": [{"page": 3, "span": "...", "vector": "[...]"}]
}

查询路径:先 file_vector 或元数据缩小候选,再对子集做段落级向量或 ColBERT 式重排。

常见误区
#

  • 全库段落级预计算 embedding——Ben 称在 Box 规模下成本可达「数年客户付费总和」量级(演讲者观点,无公开账单)。
  • 忽视「短段落 + 高维 float32」时,向量体积可超过原文(见下一节)。

embedding 粒度讨论时段:画面含 Weaviate 角标;OCR 无完整 ColBERT 字样,不宜臆造幻灯术语。


Embedding 经济学与分层检索
#

为什么
#

Ben 的早期账单经验(演讲者观点):存储与快速检索 embedding 的开销可超过计算本身;在 exabyte 内容旁再挂 exabyte 级向量不现实。Bob 给出可复现估算:1500 维 × float32 ≈ 6000 bytes(约 5.86 KiB)

dims = 1500
bytes = 1500 × 4  # float32
# → 6000 bytes

短文本 chunk 若逐段全量索引,存储侧出现 10×–100× 于原文 并不罕见(演讲者观点;精确倍数取决于 chunk 大小、量化与是否多向量)。

Weaviate 侧,Bob 提到从「全内存」走向 disk-backed flat indexvector cache、超阈值转 HNSWdynamic index(见 Weaviate Vector Indexing)。口语中的 「warm storage」在官方文档中无同名产品;正文宜写 flat index / disk-backed,避免写成已核验的产品名。

机制与约束
#

Ben 描述的高层检索管线(演讲者观点「Deep Search」未在 Box OpenAPI v2025.0 中命中,不得写成已公开 API):

  1. 缩小 recall:元数据、关键词、预计算 embedding(含文件级)等。
  2. 对小子集做更贵分析:称为 Deep Search 的 AI 重排/深读(命名未核验)。
  3. 必要时再算段落级 embedding;部分场景查询时计算优于全量预计算。

行业常见的 two-stage retrieval(cheap recall → expensive rerank)与上述叙事弱关联,但不能等同 Box 实现。

Mermaid diagram 2

怎么做
#

分层检索伪流程:

candidates = cheap_recall(query, top_k=500)      # file-level + BM25
scored = deep_rerank(query, candidates[:50])   # 演讲者所称 Deep Search;实现各异
context = embed_on_demand(scored[:10])         # 按需段落向量

常见误区
#

  • 大客户要求「先把 30PB 全索引」——双方都应质疑;与「先 recall 再深算」相反(演讲者观点)。
  • 只优化 embedding 计算 GPU,却忽视向量存储与索引账单。

分层检索与 Deep Search 口述段:Ben 双手比划;OCR 含 We hs Oy Tas 等噪声及 Weaviate 角标。

embedding 存储讨论:三分屏访谈;OCR 片段 Weaviate : == fC = A(无账单或维度幻灯)。


Agent、Workflow 与「复制粘贴税」
#

为什么
#

Workflow / RPA 适合步骤固定、单元能力弱的流程(演讲者观点)。Agent 在 Ben 的工作定义里(刻意不教条):目标驱动、有一定自主性、能代表用户执行多步——复杂度可分查询、变换、更重度的 transformational 等层级。Weaviate 产品侧的 query / transformation / personalization 三类 agent 是另一套产品分类,只能类比,不能划等号。

企业价值案例:RFP。RAG 把「10 人×小时」压到约 1 小时,但人工在 Hub 与问卷间 copy-paste 仍重;完整 Agent 链(检索→变换→Box Doc Gen 所述 2025 年 2 月 GA)才接近「团队替我干活」(演讲者观点;RFP 指标与端点在 OpenAPI 核验)。

Hubs:OpenAPI 存在 GET /hubs,按 requesting user 列出 Hub,可作为跨文件 RAG 容器的技术锚点。Box × Weaviate agents 集成由 Bob 称已发布(访谈观点);宜以 Weaviate Agents 文档 与双方新闻稿为准补链。

机制与约束
#

Box 平台叙事:理解内容(AI)+ 生成内容(doc gen);Agent 串检索、变换、写回文档。与纯聊天机器人的差别在副作用:写文件、填表、跨 Hub 编排——失败模式从「答错」扩展到「写错、泄露、越权写」。

怎么做
#

RFP 类工作流(概念层):

Hub(历史标书) → retrieve Q&A pairs → draft answers
              → human review gate → doc_gen(新文档)

常见误区
#

  • 把单次 RAG 问答当成 Agent,忽略状态、工具调用与写回
  • Agent 上线后不保留人工审批门,在受监管行业不可接受。

Agent / RFP 讨论:三分屏;OCR 含 "POUR eR 噪声与 Weaviate 角标。

尾声附近:主持与嘉宾三分屏;OCR 含 weirs “iy ireWeaviate

约 40 分钟后段:Ben Kus 主画面,讨论 Agent 与文档生成;背景为抽象红橙色图案,无技术幻灯。


云与模型:文档可核对部分 vs 口述
#

主题可核对(示例)访谈口径(未完全核验)
托管10-K:substantial majority 外包至 GCP,备选 alternative providers「100% hyperscaler 多云」
AI 合作Azure OpenAI、Vertex AI、Claude、Amazon Titan(Bedrock)等与权限不变量绑定(推断)
客户规模>100,000 paying organizations(FY2025/2026)12 万+、数千万用户
存储规模Shuttle petabyte-scale 迁移exabyte 平台总存储

若你的架构决策依赖托管拓扑或精确规模,以 10-K 为准;播客提供的是超大规模内容平台上的工程权衡样本

技术演进讨论:OCR 含 <> AweWeaviate;画面为访谈三分屏,非时间线图幻灯。


若你要落地
#

  1. 先建 ACL 感知的 recall,再谈段落 embedding:文件级 + 元数据 + 关键词缩小候选;段落向量或 ColBERT 式多向量放在第二阶段,并算清 dims × sizeof(float) 与索引开销。
  2. 把「RAG 已死」改写成场景命题:动态库 + 权限边界下,检索仍是硬需求;大窗口用于压缩多段证据,不替代可见性求解。
  3. 权限与审计一等公民:检索过滤、生成引用、写回操作同一 user_id;定期对账 ACL 变更。
  4. 产品命名与官方 API 对齐:勿把访谈中的 Deep Searchwarm storage 直接写进对外设计文档;Weaviate 侧用 flat index / vector cache 等文档术语。
  5. Agent 从消除「复制粘贴税」的场景切入:Hub + 检索 + 人工门 + doc gen,比「全自动投标」更可交付。

参考与延伸阅读
#


本文重组自 Box × Weaviate 技术对谈中的工程观点,并与 SEC 10-K、OpenAPI、ColBERT 论文及 Weaviate 官方文档交叉核对;冲突处以文档为准。播客画面为三分屏访谈,插图不含可引用的架构幻灯文本。

相关文章