跳过正文
Judge-Time Compute:当 LLM 评测从「单次打分」变成可组合管线
  1. 文章/

Judge-Time Compute:当 LLM 评测从「单次打分」变成可组合管线

·8905 字·18 分钟
NeatGuyCoding
作者
NeatGuyCoding
目录

Judge-Time Compute:当 LLM 评测从「单次打分」变成可组合管线
#

生产里的 RAGAgent 与护栏,最终都要回答同一类问题:输出是否可信、可审计、可迭代。常见做法是跑静态 benchmark、挂一个 LLM-as-a-judge,或把 DSPymetric 接到优化环里。Haize Labs 联合创始人 Leonard Tang 在公开访谈与开源项目 Verdict 中提出另一条轴:judge-time compute——在评判阶段堆叠结构化、可组合的弱模型调用,而不是默认「最贵模型评一次就够」。

这条轴与「把 eval 当成发布前 checklist」不同:它把 judge 本身当作可工程化的子系统——有 schema、有执行树、有一致性指标,并能嵌进 RL、red-team 或 guardrail 蒸馏链路。本文把可核对文档仍属演讲者观点或未公开细节分开写;不同 benchmark 上的结论并不收敛为单一配方,读者应带着自己的 SLO(延迟、美元/千次评判、可解释性)做条件判断。

幻灯片标题:Verdict: A Library for Scaling Judge-Time Compute;署名 HAIZE LABS / Nimit Kalra / Leonard Tang。

Haize Labs 落地页文案:Get Safe. Get Reliable. Get Haized. / Haize Labs brings your AI application out of POCs and into production.


问题空间:评测、偏好与「Eval 公司」在争什么
#

为什么静态榜单填不满企业落地
#

行业习惯把「做 eval」等同于再做一个 SQuAD 式数据集或 LMSYS Chatbot Arena 式 Elo 榜。Leonard Tang 的立场(演讲者观点)是:多数企业没有接近 SQuAD 的标准答案集;真实需求是在极少偏好信号下,训练客户自有 judge,并尽量少问人。这与「for loop 跑分 → 表格」的 UX 并不矛盾——他认为表格类展示已相对成熟;缺口在领域专家如何标注当前 judge、以及如何把标注致密化成自动化 reward。

从工程分工看,静态集适合回归「模型版本是否退化」;偏好集适合对齐「哪一个回复更像我们品牌/合规」;fuzz 适合在尚无生产 trace 时模拟恶意或边界用户。三者预算不同:静态集一次性标注贵但运行便宜;偏好标注便宜单次但难规模化;fuzz 算力开销大却能发现单点 judge 漏掉的系统性漏洞。访谈并未声称替代 MLOps 可观测性,而是强调 eval 与 red-team 应共享同一套 judge 语义,避免线上指标与离线评委各说各话。

范式常见做法访谈中的张力
静态评测有 GT 的数据集 + accuracy企业数据形态往往只有输入、无标准输出
偏好评测Pairwise / Arena Elo需要定制 judge + 主动选样标注
对抗测试Red-team、jailbreak 搜索Haize 强调 fuzz 用户交互,而非只做 leaderboard

机制与约束
#

Haize 自定位为定制 reward model(评委)用户交互模拟(fuzz testing)演讲者观点),DNA 来自对抗鲁棒性而非可观测性仪表盘。公开仓库侧:get-haized README 写明含 red-teaming, fuzzing, and optimization algorithms;访谈中提到的 VAE、reverse LM 等在已查 README 中出现(证据边界:访谈列举 ⊃ 公开文档)。

怎么做(最小心智模型)
#

先定三类对象,再选工具,而不是先选「eval 平台」:

  1. 被测系统(RAG / agent / 生成器)
  2. Judge 管线(单次 vs 多路 + 聚合)
  3. 人类信号入口(全量打分 vs 对比式 A/B + 质性理由)

常见误区
#

  • 把「评测公司」默认成 benchmark 厂商——访谈明确区分(演讲者观点)。
  • 在几乎没有偏好数据时仍照搬学术静态集——与落地数据形态可能脱节(演讲者观点)。
  • 只买「eval 平台」却不建设领域专家工作流——表格再漂亮,judge 仍可能与业务标准错位。

证据边界:客户名单(OpenAI、Anthropic、AI21 等)、融资与定价均为访谈口述;对比 Patronus Lynx/Glider 等行业产品时,应视为外部参照而非 Haize 能力证明。

约 10 分钟处双主持人分屏:左侧主持佩戴 Weaviate podcast 标识,右侧为嘉宾 Leonard Tang;画面无技术 API 文案。


Judge-Time Compute 与 Test-Time Compute
#

为什么命名值得较真
#

Test-time compute 通常指生成侧在推理时加搜索、自洽或验证——例如让模型对同一 prompt 采样多条再选最优,或在代码任务上做 execution-based filtering。访谈中主持人曾口误为 test time;Leonard 坚持 judge-time compute:把额外算力花在评判路径上,且评判本身可以是并行探针 + 串行 verify + 聚合,而非单次 forward。开源 Verdict 论文 标题与 README 均使用 judge-time compute,并写明归纳偏置来自 scalable oversight(debate、ensembling 等)——已核实

若你的系统已经在生成侧用了 o1 式长推理,再在 judge 侧堆同等规模的推理,成本会近似相乘。judge-time compute 的经济性来自:多次小模型 + 结构化输出 的方差降低,而不是简单把 judge 也换成 reasoning model。是否采用,应看 judge 错误是「随机噪声型」还是「系统性盲点型」——前者适合 ensemble,后者可能需要改 rubric 或引入领域工具(检索、计算器、规则引擎)。

机制:与 scalable oversight 的对应关系
#

Weak-to-strong generalizationweak LLMs judging strong LLMs 讨论的是:弱监督者能否约束更强模型。Verdict 把 debate、ensemble、verify 等模式做成可组合原语(DebateUnitModelEnsembleJudgeMaxPoolUnit 等,见 仓库)——已核实类名与论文引用;访谈中的「wargaming」名为 Wargame 的内置 primitive(术语为访谈用语)。

Mermaid diagram 1

怎么做
#

区分两条预算线:生成 token评判 token。若 SLO 允许,优先在 judge 侧做 repeat、pairwise 与 pool,再考虑是否上 o1 类推理模型做单次评判——后文 P05 会说明这不总划算。

常见误区
#

  • 把 DSPy MIPRO 式「复合系统 + 元优化」与 judge-time compute 划等号——Verdict 可作 DSPy metric,但归纳偏置不同(访谈观点 + cookbook 已核实集成)。
  • 假设「验证一定比生成便宜」——RAG 下若 judge 还要判定 retrieval 是否正确,难度可逼近完整 agent 任务(演讲者观点)。

约 9 分半:双方对谈分屏;左侧 Weaviate podcast 角标,右侧嘉宾侧无幻灯片文本。


Verdict:声明式 Judge 管线
#

为什么需要库而不是每次手写 debate
#

为客户重复搭 judge → verify → vote 流水线,被归纳为开源库 Verdict演讲者观点与 README 动机一致)。核心是 Unit / Layer / Block / Pipeline 组合,以及 CategoricalJudgeUnitPairwiseJudgeUnitBestOfKJudgeUnit 等 judge 原语——已核实于 README Quickstart。Layerrepeat 语义是复制整段子图(例如 judge+verify 各一份),而不是只对最后一层采样;这与「同一 prompt 调三次 API 取众数」在实现上相关但抽象层级更高,便于在可视化执行树里对齐延迟与成功率。

访谈还列举多种 debate 变体:并行辩手 + meta judge、round-robin、打乱顺序、pros/cons 双 judge 等。公开代码提供 DebateUnitConversationalUnit 等积木,但没有一键「全自动选最优 debate 拓扑」——拓扑选择仍依赖任务与人工实验(演讲者观点 + 源码 已核实有 primitive、未核实自动搜索)。

机制:JudgeVerifyMaxPool
#

演示帧与 README 一致(OCR 中 gpt-40CategoricaljJudgeUnit 为识别误差):

声明式 pipeline:CategoricalJudgeUnit(name='Judge'...)CategoricalJudgeUnit(name='Verify'...)repeat=3MaxPoolUnit();via gpt-4o,temperature 0.7 / 0.0。

MaxPoolUnit 对 categorical 字段取众数;Layer(..., repeat=3) 复制整条子层——已核实

怎么做(最小示例)
#

pipeline = Pipeline() \
    >> Layer(
        CategoricalJudgeUnit(name='Judge', categories=DiscreteScale(['yes', 'no']), explanation=True)
            .prompt(JUDGE_PROMPT).via('gpt-4o', retries=3, temperature=0.7) \
        >> CategoricalJudgeUnit(name='Verify', categories=DiscreteScale(['yes', 'no']))
            .prompt(VERIFY_PROMPT).via('gpt-4o', retries=3, temperature=0.0)
    , repeat=3) \
    >> MaxPoolUnit()

「Declarative」在开源侧主要指 schema 校验与 pipeline 拼接演讲者观点:商业侧 prompt/pipeline 优化器未完全开源)。

常见误区
#

  • 以为开源包内含与 DSPy MIPRO 同级的自动 prompt 搜索——访谈称优化器为商业「核心 alpha」(演讲者观点)。
  • 忽略 VerifyJudge 可用不同 temperature——演示刻意用 0.7 生成解释、0.0 做核验(已核实于 README)。

Pairwise、一致性与执行树
#

为什么单次 categorical judge 不够
#

事实性、groundedness、内容审核等任务常需要 pairwise 比较与结构化输出:模型不仅输出 yes/no,还要给出可审计的 explanation,以便人类修正 judge 的推理链而非从头写 rubric(演讲者观点)。Verdict 提供 PairwiseJudgeUnit + StructuredOutputExtractor,实验面板展示 Agreement (N=10 samples) 及 Cohen κ、Kendall τ、Spearman ρ——已核实experiment.pyhierarchical notebook

演示样本涉及新闻式声明(如运动员退赛、企业销售数据)与文档对照:Streaming 面板展示 judge 如何在「大体一致」与「细节不符」之间折中。这类 UI 的价值在于把失败样本定位到执行树节点(某次 verify 0/10),而不是只给一个总分——对工程迭代比 leaderboard 名次更直接。

Agreement (N=10 samples):Acc. 80.00%,Cohen / Kendall / Spearman 均为 0.58;执行树含 Layer(Inner.NONE, Outer.DENSE) 与 10/10 PairwiseJudge via StructuredOutput(3x gpt-4o-mini)。

Streaming 面板:PairwiseJudge 对 Dustin Johnson / Open Championship 声明做 explanation;部分 verify 步显示 0/10,体现流式调试而非最终精度结论。

机制:Map + MaxPool 层级
#

执行树标签 Hierarchical_root.block...unit[Map MaxPool]_choice 来自运行时可视化(独立 DSL 关键字 Hierarchical_root)。MapUnit 并行多路 judge/verify,再 MaxPool 聚合——与 OCR 及源码一致(部分核实:OCR 中 3x gpt-4o-mini 与 notebook 默认 gpt-4o 配置未必相同)。

Mermaid diagram 2

指标含义:Acc.(ground_truth == prediction).mean();κ/τ/ρ 衡量评价者一致性,不是 pass@k 或 MRR(已核实)。

怎么做
#

在上线前对 judge 管线跑小规模 Agreement 面板:若 κ 长期偏低,先修 prompt/schema,再加模型档位;勿把单次 demo 的 80% Acc. 外推到全量生产。建议同时记录 每节点延迟(执行树中的 0:00:08 类计时)与 verify 通过率,避免只优化 Acc. 导致 verify 步形同虚设。

对 pairwise 任务,明确「比较对象」是 两回复回复与文档,还是 回复与检索片段;三者 rubric 不可混用。StructuredOutputExtractor 的价值在于把 explanation 与 choice 拆成可解析字段,便于下游规则(例如 choice=yes 但 explanation 含否定词则触发人工复核)。

常见误区
#

  • 把 Cohen κ=0.58 直接解释成「业务准确率 58%」——二者量纲不同。
  • 认为 debate / round-robin / 打乱顺序等变体 Verdict 都已「一键开关」——多为可组合原语,需自建 pipeline(演讲者观点 + 源码 已核实DebateUnit)。

弱模型堆叠 vs 强单次模型:数字边界
#

为什么「评测必须用最贵模型」值得怀疑
#

访谈称多路 LLM judge 相对单次 judge 与前沿推理模型可有约 10–20% 绝对提升演讲者观点)。论文 arXiv:2502.18018 报告的是分任务数值,例如幻觉检测情境下 Verdict(GPT-4o) 相对原 SOTA 约 +14.5 pp,换 GPT-4o-mini+3.05 pp;ExpertQA 上 Verdict(4o) 79.17% vs o1 69.91%(约 +9.28 pp);XSTest 上 Verdict 96.44% vs o1 96.00%(约 +0.44 pp)——已核实,且不能合并为统一 10–20% 常数。

读表时建议固定三个问题:(1)指标是 percentage points 还是相对提升?(2)基线 judge 是否与 Verdict 公平(同 prompt 预算、同温度)?(3)任务是否与你生产分布同域——内容审核接近饱和时,0.44 pp 与 14.5 pp 对业务含义完全不同。论文背景还引用 generative verifier / Best-of-N 文献中的「16–40% improvement」语境,那是另一套问题设定,不可直接贴到 Verdict 管线(证据边界)。

BenchmarkVerdict (4o-mini)o1解读
ExpertQA67.72%69.91%mini 堆叠超过 o1(已核实
ExpertQA79.17% (4o)69.91%4o backbone 的 Verdict 高于 o1
JudgeBenchmini 50.00%75.43%即使 Verdict(4o) 63.55% 仍低于 o1

成本方面 README/论文定性称「fraction of cost and latency」;访谈提到 prefix / KV cache 跨阶段复用(演讲者观点,skunkworks 未在公开表给出统一货币倍数)。

机制
#

逻辑是:结构化冗余 + 聚合 用多次弱调用换单次强推理;是否划算取决于任务难度与 judge 方差。论文 Figure 3 的 Pareto 叙述支持「部分任务上更好且更便宜」,全 benchmark 支配 o1/o3-mini。

访谈中的工程 skunkworks 包括:跨 Verdict 阶段复用 prefix / KV cache;必要时对 prefix 加 nonce 以换取多样性(演讲者观点)。这在 API 计费模型下可能显著改变「多次 mini 调用」的总成本,但具体节省比例在公开论文中以统一货币标注(证据边界)。自建部署若掌控权重与缓存,judge-time compute 的经济账可能与纯 API 用户不同。

怎么做(成本粗算心智模型)
#

记 (C) 为单次强 judge 成本,(c) 为单次 mini 调用成本,(k) 为 repeat 次数,(r) 为 verify 是否启用(2 倍链长)。粗略上 Verdict 单层成本 (\approx k \cdot r \cdot c)(再加 pool 的 negligible 开销)。仅当任务误差主要来自随机性而非 rubric 错误时,增大 (k) 才单调有益;否则应优先改 prompt / schema / 工具。

常见误区
#

  • 泛化「gpt-4o-mini 堆叠 beat o1」——ExpertQA / JudgeBench 上不成立已核实)。
  • 用营销句 beat reasoning models like o1 代替具体表号——应注明 backbone 与数据集。

约 24 分钟:双人对谈分屏,讨论算力与缓存;画面无幻灯片 API 文本。


对齐客户 Judge:标注 UX、RL 与 Meta Judge
#

为什么「有标注就 SFT」在 judge 上可能被质疑
#

Leonard 主张基本不做 judge 上的 SFT(易过拟合、损害隐式推理,演讲者观点),主推 RL + judge-time scaling;奖励来自 meta judge(用 Verdict 等堆叠 judge 评 judge,在少量客户数据上「方向正确」并由 reward 聚合抵消误差,演讲者观点)。公开文档无法核实三层框架 (实现 / 查询 / UI) 与 active labeling 算法细节。

三层设计在访谈中的表述是:(1)judge 实现与学习算法;(2)查询哪些样本让人标注;(3)UI 如何呈现——且只展示对「当前训练中的 judge」有显著影响的样本(演讲者观点)。这与传统 active learning 的 uncertainty sampling 类似 spirit,但目标函数是「提升 judge 而非提升生成器」。若你团队只有几十条标注,优先把预算花在边界对(模型最不确定的 A/B)上,比均匀撒点更能拉动 κ。

参数更新方面,访谈提到「超越 LoRA」的激进省参方案,细节未公开——落地时不应假设存在即插即用权重;更现实的起点是用 Verdict 作 离线金标准生成器,再蒸馏到小模型进在线路径。

机制:对比式信号与三层设计
#

访谈强调 对比式回答(同输入两回复 A/B)收集「为何 A 优于 B」的质性梯度,优于不稳定的人类 1–10 分(演讲者观点)。这与 RLHF/DPO 的 pairwise 范式精神相近,但不能反向证明 Haize 产品实现(证据边界)。

Meta judge 与 DeepSeek 通用 RM 推理时扩展 方向一致:论文用 SPCT、推理时自适应 principles + critiquesVoting@k / MetaRM@k——已核实标题与方法;访谈的「instance-specific rubric」宜读作概念类比,论文正文用 principles / critiques非逐字术语)。

LMUnit(Contextual AI,非 Stanford 主导项目)用自然语言 unit test + 打分模型做细粒度 eval——与「in-context LLM scoring」相近;访谈称「Stanford LM-Unit」易误导已核实机构归属)。

怎么做
#

若你要自建对齐环:优先设计 pairwise + 理由 的标注 UI,再决定 RL 还是 DPO;SFT judge 前先用 Verdict 管线测 Agreement 与任务 Acc. 的分离趋势。

常见误区
#

  • 把 meta judge 当成无误差 oracle——访谈明确需堆叠与聚合降噪(演讲者观点)。
  • 忽略人类迭代的是 judge 的 reasoning 而非从头写 rubric——工作流主张,公开 benchmark。

RAG、Fuzz 与生产护栏
#

为什么 RAG 打破「验证比生成易」
#

若 judge 只查 answer 是否 grounded in 已给 context,验证往往轻于生成;若还要判断 检索到的 context 是否正确,则等价于重做 retrieval(演讲者观点)。Parametric knowledge conflict(上下文与参数记忆冲突)可用有/无 context 的反事实 diff 定位,但无通用解演讲者观点)。工程上可把 judge 拆成两级:一级只评 cite 是否支持句子;二级在抽样或高风险请求上才启动 retrieval 审计(额外索引查询、版本号、来源白名单),避免每条用户消息都付 agent 级代价。

生产案例在访谈中以定性方式出现:轻量 judge 进入 agent 推理环、Constitutional Classifiers 与幻觉检测蒸馏等(演讲者观点,无公开复现包)。这与「评测只在离线跑」不同——guardrail 本质是 judge-time compute 的在线子集,延迟预算更紧,通常必须蒸馏。

Fuzz 与 Agentic Eval
#

公开侧:BEAST-implementation 为 beam search 对抗攻击(对应 arXiv:2402.15570),dspy-redteam 多层 attack/refine。Agents for evals 被描述为 judge-time compute 结构更松的形态:多 token、多步;部分任务 judge 需与生产系统同等的 agentic 能力(演讲者观点)。

Fuzz 与静态集互补:前者发现 输入分布尾部(越狱、诱导泄露、畸形 JSON),后者监控 已知业务问答 回归。若只有 fuzz 没有金标 judge 校准,容易陷入「攻击成功率下降但用户体验变差」的假象——仍需人类或高保真 Verdict 管线定义什么是「坏」。

通用 judge + 单 prompt 覆盖任意垂直场景,访谈认为「不合理且不可能」(演讲者观点)。落地默认路径应是:领域 rubric / unit test(可参考 LMUnit 思路)+ 少量偏好数据 + judge-time compute 降噪,而不是等待一个 70B 通用幻觉检测器解决所有行业。

护栏:安全 vs 合规
#

云厂商(Azure、Bedrock 等)内置安全过滤对许多客户「够用」(演讲者观点);企业更常缺 行业 / 品牌 级 guardrail。路径主张:高保真 judge(Verdict + 训练)→ 蒸馏到小模型、压延迟演讲者观点)。Patronus Lynx/Glider 等仅为行业对照,非 Haize 产品声明。

Mermaid diagram 3

常见误区
#

  • 再叠一层通用 safety API 即等于业务合规——访谈认为需求常在定制(演讲者观点)。
  • 把 mechanistic interpretability(SAE 等)当作短期可审计工具——嘉宾认为仍脆弱,可行动性有限(演讲者观点)。

Verdict × DSPy:metric 钩子,不是替代框架
#

为什么两个框架常被打包讨论
#

DSPy 被类比为「LLM 版 PyTorch」:用 program + teleprompter 优化 prompt 与模块图。Verdict 则提供 judge 侧的声明式原语 与 scalable oversight 偏置。二者交集在 评估函数:DSPy 文档中的 metric 接收 examplepred、可选 trace,返回标量或布尔信号,驱动 Evaluate 与 MIPRO 等优化器。

Verdict 可作为 program 的 metric已核实dspy.md cookbookdspy-redteammetric(..., use_verdict=True)verdict_judge()ModelEnsembleJudge)。这意味着:你可以在 同一套 DSPy 程序 上,用 Verdict 堆叠 judge 作为「更贵的 metric」,而不必把 debate 逻辑写进每个 signature。

机制与边界
#

  • 已核实dspy-redteam 将 ensemble Verdict pipeline 接到 dspy.evaluate.Evaluate
  • 演讲者观点:Verdict 也可作 guardrail / RL reward,DSPy 只是集成示例之一。
  • 已核实:集成前建议 litellm.cache = None,避免 LiteLLM 与 Instructor 交互问题。

Omar Khattab (okhat) 在 contributors 中有提交(已核实关联账号;访谈「大量 feedback」无法用 commit 数完全印证)。

怎么做
#

若你已在 DSPy 里用简单 answer_exact_match 或单次 LLM 打分,可渐进替换为 Verdict pipeline:先保持 优化目标不变,只替换 metric 实现,对比 pass rate 与优化迭代次数;再考虑是否把 judge-time compute 的开销纳入 teleprompter 预算。

常见误区
#

  • 以为接上 Verdict 就等于「DSPy 会自动帮你搜 debate 拓扑」——开源 Verdict 包含与 MIPRO 同级的 pipeline 搜索器(演讲者观点:商业优化器未全开源)。
  • 在 metric 内开启过多 repeat 导致 MIPRO 每一步评估成本爆炸——应对开发集做子采样或分层评估。

理论缝隙与未来工作(不给出统一答案)
#

访谈 closing 提到:DPO / PPO / GRPO / KTO 等为何能用 pairwise preference 拟合 reward,在理论上仍欠完整解释(演讲者观点)。这与工程现实并存——团队已经在用 preference 训练,但 reward model 设计(含 judge-time compute、meta judge、generative RM)仍大量依赖经验与 ablation。

另一条线索是 superintelligence 定义漂移:图灵测试、销售角色扮演、棋类 vs 日常任务(如 Slack 得体回复)标准不一(演讲者观点)。对从业者更实用的结论是:无论宏观叙事如何,verification、steering、evals 仍是可投资的工程主轴——只是要把「评什么」与「花多少 judge 算力」说清楚。

Haize 2024 年商业化、曾服务多家模型厂商发布前测试等陈述属 访谈口述,未独立核实;读者在采购或对标时应要求可复现 benchmark 与合同范围内的数据处理方式,而非仅依赖品牌叙事。

最后强调证据分级:标 已核实 的陈述可在 PR 评审中附 arXiv 表号或 GitHub 行链;标 演讲者观点 的陈述应进入「待 ablation」清单,而非写进对外 SLA。未标注处默认按工程常识理解,不视为 Haize 官方承诺。对架构师而言,可把本文读作三张叠图:(1)数据形态(静态 / 偏好 / 对抗)决定采集成本;(2)算力形态(test-time vs judge-time)决定错误从哪一侧被消化;(3)部署形态(离线评测 vs 在线 guardrail)决定能否蒸馏与缓存。任一层选错,都会在另一层以隐性债务出现——例如只用静态 Acc. 却在生产遭遇分布外越狱,或在线挡板过严导致可用性崩溃。没有一张图能单独给出「买哪家」的答案。


若你要落地
#

  1. 先画清评判边界:只评 groundedness,还是要评 retrieval 正确性——后者预算应接近 agent 子任务,而非单次 LLM 打分。把 judge 输出 schema(label + explanation + cite spans)写进接口契约,便于与产品审计日志对齐。
  2. 用 Verdict 或等价原语搭 Judge→Verify→Pool,在 10–50 条金标上跑 Agreement(κ/τ/ρ)与 Acc.,再扩 benchmark;引用论文表号时写清 backbone(4o vs 4o-mini)与数据集。κ 低时先查标注指南是否含糊,再堆模型。
  3. 偏好数据稀缺时,优先对比式 A/B + 理由的标注 UX,再选 RL/DPO;勿默认 judge SFT(访谈反对点需你用自家 ablation 验证)。Meta judge 仅作方向信号时,保留人类抽检通道。
  4. 上线护栏:离线用 get-haized / dspy-redteam 类 fuzz + Verdict;在线蒸馏小 judge,并区分云厂商安全过滤与品牌合规规则。记录「拒绝/重写」触发节点,避免黑盒挡板。
  5. 与 DSPy 集成时把 Verdict 当 metric 而非整个优化栈——生成优化与 judge-time scaling 分开预算与观测;优化迭代中固定 judge 版本,否则 teleprompter 在追移动靶。
  6. 对外沟通:避免用单一百分比概括多 benchmark;对内用执行树定位失败层(judge vs verify vs pool),对外用任务域 SLA 说话。

参考与延伸阅读
#

相关文章