Judge-Time Compute：当 LLM 评测从「单次打分」变成可组合管线
#

生产里的 RAG、Agent 与护栏，最终都要回答同一类问题：输出是否可信、可审计、可迭代。常见做法是跑静态 benchmark、挂一个 LLM-as-a-judge，或把 DSPy 的 metric 接到优化环里。Haize Labs 联合创始人 Leonard Tang 在公开访谈与开源项目 Verdict 中提出另一条轴：judge-time compute——在评判阶段堆叠结构化、可组合的弱模型调用，而不是默认「最贵模型评一次就够」。

这条轴与「把 eval 当成发布前 checklist」不同：它把 judge 本身当作可工程化的子系统——有 schema、有执行树、有一致性指标，并能嵌进 RL、red-team 或 guardrail 蒸馏链路。本文把可核对文档与仍属演讲者观点或未公开细节分开写；不同 benchmark 上的结论并不收敛为单一配方，读者应带着自己的 SLO（延迟、美元/千次评判、可解释性）做条件判断。

幻灯片标题：Verdict: A Library for Scaling Judge-Time Compute；署名 HAIZE LABS / Nimit Kalra / Leonard Tang。

Haize Labs 落地页文案：Get Safe. Get Reliable. Get Haized. / Haize Labs brings your AI application out of POCs and into production.

问题空间：评测、偏好与「Eval 公司」在争什么
#

为什么静态榜单填不满企业落地
#

行业习惯把「做 eval」等同于再做一个 SQuAD 式数据集或 LMSYS Chatbot Arena 式 Elo 榜。Leonard Tang 的立场（演讲者观点）是：多数企业没有接近 SQuAD 的标准答案集；真实需求是在极少偏好信号下，训练客户自有 judge，并尽量少问人。这与「for loop 跑分 → 表格」的 UX 并不矛盾——他认为表格类展示已相对成熟；缺口在领域专家如何标注当前 judge、以及如何把标注致密化成自动化 reward。

从工程分工看，静态集适合回归「模型版本是否退化」；偏好集适合对齐「哪一个回复更像我们品牌/合规」；fuzz 适合在尚无生产 trace 时模拟恶意或边界用户。三者预算不同：静态集一次性标注贵但运行便宜；偏好标注便宜单次但难规模化；fuzz 算力开销大却能发现单点 judge 漏掉的系统性漏洞。访谈并未声称替代 MLOps 可观测性，而是强调 eval 与 red-team 应共享同一套 judge 语义，避免线上指标与离线评委各说各话。

范式	常见做法	访谈中的张力
静态评测	有 GT 的数据集 + accuracy	企业数据形态往往只有输入、无标准输出
偏好评测	Pairwise / Arena Elo	需要定制 judge + 主动选样标注
对抗测试	Red-team、jailbreak 搜索	Haize 强调 fuzz 用户交互，而非只做 leaderboard

机制与约束
#

Haize 自定位为定制 reward model（评委）与用户交互模拟（fuzz testing）（演讲者观点），DNA 来自对抗鲁棒性而非可观测性仪表盘。公开仓库侧：get-haized README 写明含 red-teaming, fuzzing, and optimization algorithms；访谈中提到的 VAE、reverse LM 等未在已查 README 中出现（证据边界：访谈列举 ⊃ 公开文档）。

怎么做（最小心智模型）
#

先定三类对象，再选工具，而不是先选「eval 平台」：

被测系统（RAG / agent / 生成器）
Judge 管线（单次 vs 多路 + 聚合）
人类信号入口（全量打分 vs 对比式 A/B + 质性理由）

常见误区
#

把「评测公司」默认成 benchmark 厂商——访谈明确区分（演讲者观点）。
在几乎没有偏好数据时仍照搬学术静态集——与落地数据形态可能脱节（演讲者观点）。
只买「eval 平台」却不建设领域专家工作流——表格再漂亮，judge 仍可能与业务标准错位。

证据边界：客户名单（OpenAI、Anthropic、AI21 等）、融资与定价均为访谈口述；对比 Patronus Lynx/Glider 等行业产品时，应视为外部参照而非 Haize 能力证明。

约 10 分钟处双主持人分屏：左侧主持佩戴 Weaviate podcast 标识，右侧为嘉宾 Leonard Tang；画面无技术 API 文案。

Judge-Time Compute 与 Test-Time Compute
#

为什么命名值得较真
#

Test-time compute 通常指生成侧在推理时加搜索、自洽或验证——例如让模型对同一 prompt 采样多条再选最优，或在代码任务上做 execution-based filtering。访谈中主持人曾口误为 test time；Leonard 坚持 judge-time compute：把额外算力花在评判路径上，且评判本身可以是并行探针 + 串行 verify + 聚合，而非单次 forward。开源 Verdict 论文标题与 README 均使用 judge-time compute，并写明归纳偏置来自 scalable oversight（debate、ensembling 等）——已核实。

若你的系统已经在生成侧用了 o1 式长推理，再在 judge 侧堆同等规模的推理，成本会近似相乘。judge-time compute 的经济性来自：多次小模型 + 结构化输出 的方差降低，而不是简单把 judge 也换成 reasoning model。是否采用，应看 judge 错误是「随机噪声型」还是「系统性盲点型」——前者适合 ensemble，后者可能需要改 rubric 或引入领域工具（检索、计算器、规则引擎）。

机制：与 scalable oversight 的对应关系
#

Weak-to-strong generalization 与 weak LLMs judging strong LLMs 讨论的是：弱监督者能否约束更强模型。Verdict 把 debate、ensemble、verify 等模式做成可组合原语（DebateUnit、ModelEnsembleJudge、MaxPoolUnit 等，见仓库）——已核实类名与论文引用；访谈中的「wargaming」无名为 Wargame 的内置 primitive（术语为访谈用语）。

怎么做
#

区分两条预算线：生成 token 与 评判 token。若 SLO 允许，优先在 judge 侧做 repeat、pairwise 与 pool，再考虑是否上 o1 类推理模型做单次评判——后文 P05 会说明这不总划算。

常见误区
#

把 DSPy MIPRO 式「复合系统 + 元优化」与 judge-time compute 划等号——Verdict 可作 DSPy metric，但归纳偏置不同（访谈观点 + cookbook 已核实集成）。
假设「验证一定比生成便宜」——RAG 下若 judge 还要判定 retrieval 是否正确，难度可逼近完整 agent 任务（演讲者观点）。

约 9 分半：双方对谈分屏；左侧 Weaviate podcast 角标，右侧嘉宾侧无幻灯片文本。

Verdict：声明式 Judge 管线
#

为什么需要库而不是每次手写 debate
#

为客户重复搭 judge → verify → vote 流水线，被归纳为开源库 Verdict（演讲者观点与 README 动机一致）。核心是 Unit / Layer / Block / Pipeline 组合，以及 CategoricalJudgeUnit、PairwiseJudgeUnit、BestOfKJudgeUnit 等 judge 原语——已核实于 README Quickstart。Layer 的 repeat 语义是复制整段子图（例如 judge+verify 各一份），而不是只对最后一层采样；这与「同一 prompt 调三次 API 取众数」在实现上相关但抽象层级更高，便于在可视化执行树里对齐延迟与成功率。

访谈还列举多种 debate 变体：并行辩手 + meta judge、round-robin、打乱顺序、pros/cons 双 judge 等。公开代码提供 DebateUnit、ConversationalUnit 等积木，但没有一键「全自动选最优 debate 拓扑」——拓扑选择仍依赖任务与人工实验（演讲者观点 + 源码 已核实有 primitive、未核实自动搜索）。

机制：`Judge` → `Verify` → `MaxPool`
#

演示帧与 README 一致（OCR 中 gpt-40、CategoricaljJudgeUnit 为识别误差）：

声明式 pipeline：CategoricalJudgeUnit(name='Judge'...) → CategoricalJudgeUnit(name='Verify'...) → repeat=3 → MaxPoolUnit()；via gpt-4o，temperature 0.7 / 0.0。

MaxPoolUnit 对 categorical 字段取众数；Layer(..., repeat=3) 复制整条子层——已核实。

怎么做（最小示例）
#

pipeline = Pipeline() \
    >> Layer(
        CategoricalJudgeUnit(name='Judge', categories=DiscreteScale(['yes', 'no']), explanation=True)
            .prompt(JUDGE_PROMPT).via('gpt-4o', retries=3, temperature=0.7) \
        >> CategoricalJudgeUnit(name='Verify', categories=DiscreteScale(['yes', 'no']))
            .prompt(VERIFY_PROMPT).via('gpt-4o', retries=3, temperature=0.0)
    , repeat=3) \
    >> MaxPoolUnit()

「Declarative」在开源侧主要指 schema 校验与 pipeline 拼接（演讲者观点：商业侧 prompt/pipeline 优化器未完全开源）。

常见误区
#

以为开源包内含与 DSPy MIPRO 同级的自动 prompt 搜索——访谈称优化器为商业「核心 alpha」（演讲者观点）。
忽略 Verify 与 Judge 可用不同 temperature——演示刻意用 0.7 生成解释、0.0 做核验（已核实于 README）。

Pairwise、一致性与执行树
#

为什么单次 categorical judge 不够
#

事实性、groundedness、内容审核等任务常需要 pairwise 比较与结构化输出：模型不仅输出 yes/no，还要给出可审计的 explanation，以便人类修正 judge 的推理链而非从头写 rubric（演讲者观点）。Verdict 提供 PairwiseJudgeUnit + StructuredOutputExtractor，实验面板展示 Agreement (N=10 samples) 及 Cohen κ、Kendall τ、Spearman ρ——已核实于 experiment.py 与 hierarchical notebook。

演示样本涉及新闻式声明（如运动员退赛、企业销售数据）与文档对照：Streaming 面板展示 judge 如何在「大体一致」与「细节不符」之间折中。这类 UI 的价值在于把失败样本定位到执行树节点（某次 verify 0/10），而不是只给一个总分——对工程迭代比 leaderboard 名次更直接。

Agreement (N=10 samples)：Acc. 80.00%，Cohen / Kendall / Spearman 均为 0.58；执行树含 Layer(Inner.NONE, Outer.DENSE) 与 10/10 PairwiseJudge via StructuredOutput(3x gpt-4o-mini)。

Streaming 面板：PairwiseJudge 对 Dustin Johnson / Open Championship 声明做 explanation；部分 verify 步显示 0/10，体现流式调试而非最终精度结论。

机制：Map + MaxPool 层级
#

执行树标签 Hierarchical_root.block...unit[Map MaxPool]_choice 来自运行时可视化（非独立 DSL 关键字 Hierarchical_root）。MapUnit 并行多路 judge/verify，再 MaxPool 聚合——与 OCR 及源码一致（部分核实：OCR 中 3x gpt-4o-mini 与 notebook 默认 gpt-4o 配置未必相同）。

指标含义：Acc. 为 (ground_truth == prediction).mean()；κ/τ/ρ 衡量评价者一致性，不是 pass@k 或 MRR（已核实）。

怎么做
#

在上线前对 judge 管线跑小规模 Agreement 面板：若 κ 长期偏低，先修 prompt/schema，再加模型档位；勿把单次 demo 的 80% Acc. 外推到全量生产。建议同时记录 每节点延迟（执行树中的 0:00:08 类计时）与 verify 通过率，避免只优化 Acc. 导致 verify 步形同虚设。

对 pairwise 任务，明确「比较对象」是 两回复、回复与文档，还是 回复与检索片段；三者 rubric 不可混用。StructuredOutputExtractor 的价值在于把 explanation 与 choice 拆成可解析字段，便于下游规则（例如 choice=yes 但 explanation 含否定词则触发人工复核）。

常见误区
#

把 Cohen κ=0.58 直接解释成「业务准确率 58%」——二者量纲不同。
认为 debate / round-robin / 打乱顺序等变体 Verdict 都已「一键开关」——多为可组合原语，需自建 pipeline（演讲者观点 + 源码 已核实有 DebateUnit）。

弱模型堆叠 vs 强单次模型：数字边界
#

为什么「评测必须用最贵模型」值得怀疑
#

访谈称多路 LLM judge 相对单次 judge 与前沿推理模型可有约 10–20% 绝对提升（演讲者观点）。论文 arXiv:2502.18018 报告的是分任务数值，例如幻觉检测情境下 Verdict(GPT-4o) 相对原 SOTA 约 +14.5 pp，换 GPT-4o-mini 仍 +3.05 pp；ExpertQA 上 Verdict(4o) 79.17% vs o1 69.91%（约 +9.28 pp）；XSTest 上 Verdict 96.44% vs o1 96.00%（约 +0.44 pp）——已核实，且不能合并为统一 10–20% 常数。

读表时建议固定三个问题：（1）指标是 percentage points 还是相对提升？（2）基线 judge 是否与 Verdict 公平（同 prompt 预算、同温度）？（3）任务是否与你生产分布同域——内容审核接近饱和时，0.44 pp 与 14.5 pp 对业务含义完全不同。论文背景还引用 generative verifier / Best-of-N 文献中的「16–40% improvement」语境，那是另一套问题设定，不可直接贴到 Verdict 管线（证据边界）。

Benchmark	Verdict (4o-mini)	o1	解读
ExpertQA	67.72%	69.91%	mini 堆叠未超过 o1（已核实）
ExpertQA	79.17% (4o)	69.91%	4o backbone 的 Verdict 高于 o1
JudgeBench	mini 50.00%	75.43%	即使 Verdict(4o) 63.55% 仍低于 o1

成本方面 README/论文定性称「fraction of cost and latency」；访谈提到 prefix / KV cache 跨阶段复用（演讲者观点，skunkworks 未在公开表给出统一货币倍数）。

机制
#

逻辑是：结构化冗余 + 聚合 用多次弱调用换单次强推理；是否划算取决于任务难度与 judge 方差。论文 Figure 3 的 Pareto 叙述支持「部分任务上更好且更便宜」，非全 benchmark 支配 o1/o3-mini。

访谈中的工程 skunkworks 包括：跨 Verdict 阶段复用 prefix / KV cache；必要时对 prefix 加 nonce 以换取多样性（演讲者观点）。这在 API 计费模型下可能显著改变「多次 mini 调用」的总成本，但具体节省比例未在公开论文中以统一货币标注（证据边界）。自建部署若掌控权重与缓存，judge-time compute 的经济账可能与纯 API 用户不同。

怎么做（成本粗算心智模型）
#

记 (C) 为单次强 judge 成本，(c) 为单次 mini 调用成本，(k) 为 repeat 次数，(r) 为 verify 是否启用（2 倍链长）。粗略上 Verdict 单层成本 (\approx k \cdot r \cdot c)（再加 pool 的 negligible 开销）。仅当任务误差主要来自随机性而非 rubric 错误时，增大 (k) 才单调有益；否则应优先改 prompt / schema / 工具。

常见误区
#

泛化「gpt-4o-mini 堆叠 beat o1」——ExpertQA / JudgeBench 上不成立（已核实）。
用营销句 beat reasoning models like o1 代替具体表号——应注明 backbone 与数据集。

约 24 分钟：双人对谈分屏，讨论算力与缓存；画面无幻灯片 API 文本。

对齐客户 Judge：标注 UX、RL 与 Meta Judge
#

为什么「有标注就 SFT」在 judge 上可能被质疑
#

Leonard 主张基本不做 judge 上的 SFT（易过拟合、损害隐式推理，演讲者观点），主推 RL + judge-time scaling；奖励来自 meta judge（用 Verdict 等堆叠 judge 评 judge，在少量客户数据上「方向正确」并由 reward 聚合抵消误差，演讲者观点）。公开文档无法核实三层框架 (实现 / 查询 / UI) 与 active labeling 算法细节。

三层设计在访谈中的表述是：（1）judge 实现与学习算法；（2）查询哪些样本让人标注；（3）UI 如何呈现——且只展示对「当前训练中的 judge」有显著影响的样本（演讲者观点）。这与传统 active learning 的 uncertainty sampling 类似 spirit，但目标函数是「提升 judge 而非提升生成器」。若你团队只有几十条标注，优先把预算花在边界对（模型最不确定的 A/B）上，比均匀撒点更能拉动 κ。

参数更新方面，访谈提到「超越 LoRA」的激进省参方案，细节未公开——落地时不应假设存在即插即用权重；更现实的起点是用 Verdict 作 离线金标准生成器，再蒸馏到小模型进在线路径。

机制：对比式信号与三层设计
#

访谈强调 对比式回答（同输入两回复 A/B）收集「为何 A 优于 B」的质性梯度，优于不稳定的人类 1–10 分（演讲者观点）。这与 RLHF/DPO 的 pairwise 范式精神相近，但不能反向证明 Haize 产品实现（证据边界）。

Meta judge 与 DeepSeek 通用 RM 推理时扩展方向一致：论文用 SPCT、推理时自适应 principles + critiques、Voting@k / MetaRM@k——已核实标题与方法；访谈的「instance-specific rubric」宜读作概念类比，论文正文用 principles / critiques（非逐字术语）。

LMUnit（Contextual AI，非 Stanford 主导项目）用自然语言 unit test + 打分模型做细粒度 eval——与「in-context LLM scoring」相近；访谈称「Stanford LM-Unit」易误导（已核实机构归属）。

怎么做
#

若你要自建对齐环：优先设计 pairwise + 理由 的标注 UI，再决定 RL 还是 DPO；SFT judge 前先用 Verdict 管线测 Agreement 与任务 Acc. 的分离趋势。

常见误区
#

把 meta judge 当成无误差 oracle——访谈明确需堆叠与聚合降噪（演讲者观点）。
忽略人类迭代的是 judge 的 reasoning 而非从头写 rubric——工作流主张，无公开 benchmark。

RAG、Fuzz 与生产护栏
#

为什么 RAG 打破「验证比生成易」
#

若 judge 只查 answer 是否 grounded in 已给 context，验证往往轻于生成；若还要判断 检索到的 context 是否正确，则等价于重做 retrieval（演讲者观点）。Parametric knowledge conflict（上下文与参数记忆冲突）可用有/无 context 的反事实 diff 定位，但无通用解（演讲者观点）。工程上可把 judge 拆成两级：一级只评 cite 是否支持句子；二级在抽样或高风险请求上才启动 retrieval 审计（额外索引查询、版本号、来源白名单），避免每条用户消息都付 agent 级代价。

生产案例在访谈中以定性方式出现：轻量 judge 进入 agent 推理环、Constitutional Classifiers 与幻觉检测蒸馏等（演讲者观点，无公开复现包）。这与「评测只在离线跑」不同——guardrail 本质是 judge-time compute 的在线子集，延迟预算更紧，通常必须蒸馏。

Fuzz 与 Agentic Eval
#

公开侧：BEAST-implementation 为 beam search 对抗攻击（对应 arXiv:2402.15570），dspy-redteam 多层 attack/refine。Agents for evals 被描述为 judge-time compute 结构更松的形态：多 token、多步；部分任务 judge 需与生产系统同等的 agentic 能力（演讲者观点）。

Fuzz 与静态集互补：前者发现 输入分布尾部（越狱、诱导泄露、畸形 JSON），后者监控 已知业务问答 回归。若只有 fuzz 没有金标 judge 校准，容易陷入「攻击成功率下降但用户体验变差」的假象——仍需人类或高保真 Verdict 管线定义什么是「坏」。

通用 judge + 单 prompt 覆盖任意垂直场景，访谈认为「不合理且不可能」（演讲者观点）。落地默认路径应是：领域 rubric / unit test（可参考 LMUnit 思路）+ 少量偏好数据 + judge-time compute 降噪，而不是等待一个 70B 通用幻觉检测器解决所有行业。

护栏：安全 vs 合规
#

云厂商（Azure、Bedrock 等）内置安全过滤对许多客户「够用」（演讲者观点）；企业更常缺 行业 / 品牌 级 guardrail。路径主张：高保真 judge（Verdict + 训练）→ 蒸馏到小模型、压延迟（演讲者观点）。Patronus Lynx/Glider 等仅为行业对照，非 Haize 产品声明。

常见误区
#

再叠一层通用 safety API 即等于业务合规——访谈认为需求常在定制（演讲者观点）。
把 mechanistic interpretability（SAE 等）当作短期可审计工具——嘉宾认为仍脆弱，可行动性有限（演讲者观点）。

Verdict × DSPy：metric 钩子，不是替代框架
#

为什么两个框架常被打包讨论
#

DSPy 被类比为「LLM 版 PyTorch」：用 program + teleprompter 优化 prompt 与模块图。Verdict 则提供 judge 侧的声明式原语 与 scalable oversight 偏置。二者交集在 评估函数：DSPy 文档中的 metric 接收 example、pred、可选 trace，返回标量或布尔信号，驱动 Evaluate 与 MIPRO 等优化器。

Verdict 可作为 program 的 metric（已核实：dspy.md cookbook、dspy-redteam 中 metric(..., use_verdict=True) → verdict_judge() → ModelEnsembleJudge）。这意味着：你可以在 同一套 DSPy 程序 上，用 Verdict 堆叠 judge 作为「更贵的 metric」，而不必把 debate 逻辑写进每个 signature。

机制与边界
#

已核实：dspy-redteam 将 ensemble Verdict pipeline 接到 dspy.evaluate.Evaluate。
演讲者观点：Verdict 也可作 guardrail / RL reward，DSPy 只是集成示例之一。
已核实：集成前建议 litellm.cache = None，避免 LiteLLM 与 Instructor 交互问题。

Omar Khattab (okhat) 在 contributors 中有提交（已核实关联账号；访谈「大量 feedback」无法用 commit 数完全印证）。

怎么做
#

若你已在 DSPy 里用简单 answer_exact_match 或单次 LLM 打分，可渐进替换为 Verdict pipeline：先保持 优化目标不变，只替换 metric 实现，对比 pass rate 与优化迭代次数；再考虑是否把 judge-time compute 的开销纳入 teleprompter 预算。

常见误区
#

以为接上 Verdict 就等于「DSPy 会自动帮你搜 debate 拓扑」——开源 Verdict 未包含与 MIPRO 同级的 pipeline 搜索器（演讲者观点：商业优化器未全开源）。
在 metric 内开启过多 repeat 导致 MIPRO 每一步评估成本爆炸——应对开发集做子采样或分层评估。

理论缝隙与未来工作（不给出统一答案）
#

访谈 closing 提到：DPO / PPO / GRPO / KTO 等为何能用 pairwise preference 拟合 reward，在理论上仍欠完整解释（演讲者观点）。这与工程现实并存——团队已经在用 preference 训练，但 reward model 设计（含 judge-time compute、meta judge、generative RM）仍大量依赖经验与 ablation。

另一条线索是 superintelligence 定义漂移：图灵测试、销售角色扮演、棋类 vs 日常任务（如 Slack 得体回复）标准不一（演讲者观点）。对从业者更实用的结论是：无论宏观叙事如何，verification、steering、evals 仍是可投资的工程主轴——只是要把「评什么」与「花多少 judge 算力」说清楚。

Haize 2024 年商业化、曾服务多家模型厂商发布前测试等陈述属 访谈口述，未独立核实；读者在采购或对标时应要求可复现 benchmark 与合同范围内的数据处理方式，而非仅依赖品牌叙事。

最后强调证据分级：标 已核实 的陈述可在 PR 评审中附 arXiv 表号或 GitHub 行链；标 演讲者观点 的陈述应进入「待 ablation」清单，而非写进对外 SLA。未标注处默认按工程常识理解，不视为 Haize 官方承诺。对架构师而言，可把本文读作三张叠图：（1）数据形态（静态 / 偏好 / 对抗）决定采集成本；（2）算力形态（test-time vs judge-time）决定错误从哪一侧被消化；（3）部署形态（离线评测 vs 在线 guardrail）决定能否蒸馏与缓存。任一层选错，都会在另一层以隐性债务出现——例如只用静态 Acc. 却在生产遭遇分布外越狱，或在线挡板过严导致可用性崩溃。没有一张图能单独给出「买哪家」的答案。

若你要落地
#

先画清评判边界：只评 groundedness，还是要评 retrieval 正确性——后者预算应接近 agent 子任务，而非单次 LLM 打分。把 judge 输出 schema（label + explanation + cite spans）写进接口契约，便于与产品审计日志对齐。
用 Verdict 或等价原语搭 Judge→Verify→Pool，在 10–50 条金标上跑 Agreement（κ/τ/ρ）与 Acc.，再扩 benchmark；引用论文表号时写清 backbone（4o vs 4o-mini）与数据集。κ 低时先查标注指南是否含糊，再堆模型。
偏好数据稀缺时，优先对比式 A/B + 理由的标注 UX，再选 RL/DPO；勿默认 judge SFT（访谈反对点需你用自家 ablation 验证）。Meta judge 仅作方向信号时，保留人类抽检通道。
上线护栏：离线用 get-haized / dspy-redteam 类 fuzz + Verdict；在线蒸馏小 judge，并区分云厂商安全过滤与品牌合规规则。记录「拒绝/重写」触发节点，避免黑盒挡板。
与 DSPy 集成时把 Verdict 当 metric 而非整个优化栈——生成优化与 judge-time scaling 分开预算与观测；优化迭代中固定 judge 版本，否则 teleprompter 在追移动靶。
对外沟通：避免用单一百分比概括多 benchmark；对内用执行树定位失败层（judge vs verify vs pool），对外用任务域 SLA 说话。

参考与延伸阅读
#

Verdict 论文（arXiv:2502.18018） — judge-time compute 与 benchmark 表
Verdict GitHub 仓库 — API、Quickstart、Debate/Ensemble 原语
Verdict 文档站 — 使用指南与结果页入口
Haize Labs GitHub 组织 — 相关工具链索引
Awesome LLM Judges 列表 — 论文与实现合集
DSPy 官方文档：Metrics — metric 契约与评估环
Verdict × DSPy Cookbook — 集成示例与缓存注意事项
dspy-redteam 示例 — Verdict 作 red-team metric
Weak-to-strong generalization（OpenAI PDF） — scalable oversight 背景
Weak LLMs judging strong LLMs（arXiv:2407.04622） — 弱评委监督强模型
Generative Verifiers（arXiv:2408.15240） — 生成式验证与 test-time 叙述
DeepSeek：Inference-Time Scaling for Generalist Reward Modeling（arXiv:2504.02495） — 推理时扩展 generalist RM
LMUnit（arXiv:2412.13091） — 自然语言 unit test 式细粒度评测
LMSYS Chatbot Arena 技术报告（arXiv:2403.04132） — 偏好/Elo 范式
Get Haized / fuzzing 套件 README — 自动化 red-team 与 fuzz 入口
BEAST 对抗攻击论文（arXiv:2402.15570） — 离散搜索式 jailbreak（与访谈技术栈部分重叠）

Judge-Time Compute：当 LLM 评测从「单次打分」变成可组合管线#

问题空间：评测、偏好与「Eval 公司」在争什么#

为什么静态榜单填不满企业落地#

机制与约束#

怎么做（最小心智模型）#

常见误区#

Judge-Time Compute 与 Test-Time Compute#

为什么命名值得较真#

机制：与 scalable oversight 的对应关系#

怎么做#

常见误区#

Verdict：声明式 Judge 管线#

为什么需要库而不是每次手写 debate#

机制：Judge → Verify → MaxPool#

怎么做（最小示例）#

常见误区#

Pairwise、一致性与执行树#

为什么单次 categorical judge 不够#

机制：Map + MaxPool 层级#

怎么做#

常见误区#

弱模型堆叠 vs 强单次模型：数字边界#

为什么「评测必须用最贵模型」值得怀疑#

机制#

怎么做（成本粗算心智模型）#

常见误区#

对齐客户 Judge：标注 UX、RL 与 Meta Judge#

为什么「有标注就 SFT」在 judge 上可能被质疑#

机制：对比式信号与三层设计#

怎么做#

常见误区#

RAG、Fuzz 与生产护栏#

为什么 RAG 打破「验证比生成易」#

Fuzz 与 Agentic Eval#

护栏：安全 vs 合规#

常见误区#

Verdict × DSPy：metric 钩子，不是替代框架#

为什么两个框架常被打包讨论#

机制与边界#

怎么做#

常见误区#

理论缝隙与未来工作（不给出统一答案）#

若你要落地#

参考与延伸阅读#

相关文章

Judge-Time Compute：当 LLM 评测从「单次打分」变成可组合管线
#

问题空间：评测、偏好与「Eval 公司」在争什么
#

为什么静态榜单填不满企业落地
#

机制与约束
#

怎么做（最小心智模型）
#

常见误区
#

Judge-Time Compute 与 Test-Time Compute
#

为什么命名值得较真
#

机制：与 scalable oversight 的对应关系
#

怎么做
#

常见误区
#

Verdict：声明式 Judge 管线
#

为什么需要库而不是每次手写 debate
#

机制：`Judge` → `Verify` → `MaxPool`
#

怎么做（最小示例）
#

常见误区
#

Pairwise、一致性与执行树
#

为什么单次 categorical judge 不够
#

机制：Map + MaxPool 层级
#

怎么做
#

常见误区
#

弱模型堆叠 vs 强单次模型：数字边界
#

为什么「评测必须用最贵模型」值得怀疑
#

机制
#

怎么做（成本粗算心智模型）
#

常见误区
#

对齐客户 Judge：标注 UX、RL 与 Meta Judge
#

为什么「有标注就 SFT」在 judge 上可能被质疑
#

机制：对比式信号与三层设计
#

怎么做
#

常见误区
#

RAG、Fuzz 与生产护栏
#

为什么 RAG 打破「验证比生成易」
#

Fuzz 与 Agentic Eval
#

护栏：安全 vs 合规
#

常见误区
#

Verdict × DSPy：metric 钩子，不是替代框架
#

为什么两个框架常被打包讨论
#

机制与边界
#

怎么做
#

常见误区
#

理论缝隙与未来工作（不给出统一答案）
#

若你要落地
#

参考与延伸阅读
#