The Prism Protocol

对抗性推演方法论

我们不让 AI 给你答案。

我们让 AI 互相证明对方是错的——然后告诉你什么经受住了攻击。

问题

你问了一个大模型。它给了你一个自信的回答。你又问了另一个，它也很自信，但给了不同的答案。你无从判断谁对。

这就是未校准的置信——比「不知道」更危险的东西。它让决策者误以为自己已经得到了可靠的判断依据，实际上只是读到了一个语言模型的统计输出。

让同一个 AI 自己审查自己？它会系统性地忽略自己的盲区。让它扮演不同角色？角色扮演不产生独立性。

2500 年来，人类发明了许多对抗自身思维局限的方法：苏格拉底的辩驳、科学家的双盲实验、CIA 的竞争假说分析、军方的红队。这些方法的共同点是：有效，但昂贵、缓慢、依赖稀缺人才。

棱镜协议做的事情很简单：第一次让这些方法论在 AI 时代规模化执行。

五条公理

协议的设计原则。每一条解决一个真实的认知缺陷，每一条都不可妥协。

隔离公理

Isolation

「信息隔离是独立性的唯一保障。」

实验者和被试都不知道谁在接受真实处理——这是排除确认偏见的唯一方式。棱镜协议中，所有模型收到完全相同的信息，在互不可见的状态下独立形成判断。天然差异由此涌现，而非被设计出来。

双盲实验 · R.A. Fisher, 1920s

对抗公理

Adversarial

「发现隐含假设最有效的方式，是让有动机找到它的人来找。」

苏格拉底从不攻击结论，他攻击的是对方没意识到自己持有的前提。军事红队的核心原则：红队必须真的想赢。有攻击动机和没有，找到的漏洞质量完全不同。

苏格拉底辩驳 · 红队方法论

分歧公理

Divergence

「分歧本身是信息。它告诉你不确定性住在哪里。」

分析最大的错误不是信息不足，是总在寻找支持已有判断的证据。Tetlock 的研究发现：聚合独立预测时，高分歧说明这件事真的不确定。协议不强行调和分歧，而是把真实分歧作为诚实的输出。

ACH (CIA) · 超级预测 · Tetlock

语言公理

Language

「语言证据优于数字打分。」

不同模型的"置信度 80%"含义完全不同，直接平均毫无意义。协议采用语言证据判断收敛——模型必须用自然语言解释为什么改变或坚持立场，系统基于语义内容来评估共识。

德尔菲法 · RAND Corporation

诚实公理

Honesty

「诚实的分析必须说清楚自己在什么条件下会错。」

无法被证伪的理论不是科学。每份报告都包含「诚实的不确定性」——明确标注各方均无法确定的问题、已知局限、以及在什么条件下结论会被推翻。

波普尔证伪主义 · Karl Popper

协议流程

从你的问题到结构化报告，五个阶段，每个阶段由一条公理驱动。

独立判断

Isolated Deliberation

多个独立训练的 AI 模型在信息隔离条件下，基于相同研究材料分别形成判断。没有参考其他模型的输出，没有角色扮演。

↳ 隔离公理

分歧定位

Divergence Mapping

系统自动提取各模型之间的共识与分歧，定位不确定性的具体位置。告诉你：它们在哪里达成一致，又在哪里产生分歧。

↳ 分歧公理

假设攻防

Adversarial Stress Test

每个模型攻击其他模型论点中的隐含前提——不是攻击结论，而是攻击对方没意识到自己依赖的假设。被攻击方必须用证据防御或承认修正。

↳ 对抗公理

收敛评估

Convergence Assessment

基于语言证据（而非数字打分）评估各方是否达成真实共识，区分真收敛与表面妥协。

↳ 语言公理

诚实报告

Honest Report

输出结构化报告：可信共识、真实分歧、不确定性地图、条件化建议。明确标注什么是确定的、什么是不确定的、什么是协议无法回答的。

↳ 诚实公理

学术基础

棱镜协议的每个设计决策都有认识论依据。这不是发明，是继承。

苏格拉底辩驳

Socratic Elenchos

通过交叉审问暴露论点的内在矛盾。攻击的不是结论，而是前提——直到论点崩塌或被修正。

双盲实验

Double-Blind Method

R.A. Fisher 的核心洞察：信息隔离是独立性的唯一保障。消除确认偏见和期待效应的黄金标准。

竞争假说分析

ACH · CIA

CIA 分析师 Heuer 提出：同时维持多个假说，用证据逐一检验一致性，而不是给最可能的答案添加证据。

红队方法论

Red Team

美国国防部系统化的对抗性测试方法。核心原则：红队必须真的想赢——有攻击动机才能找到真实弱点。

超级预测

Superforecasting

Philip Tetlock 花 20 年研究发现：聚合独立预测时，分歧本身就是信号。高分歧意味着这件事真的不确定。

波普尔证伪主义

Falsificationism

科学理论的价值不在于能被什么证据支持，而在于能被什么证据推翻。无法被证伪的断言不构成知识。

诚实声明

协议无法检测所有模型共享的偏见。所有参与模型在高度重叠的语料上训练。如果它们共享一个系统性偏见，协议无法发现。协议检测的是模型间的差异，不是模型集合的盲区。

协议不是事实核查系统。如果所有模型对某个事实都持有同样的错误，协议会将其标注为「共识」。前沿领域和快速变化的事实，需要额外验证。

某些问题类型不适合本协议。纯粹的计算问题、需要实时数据的问题、高度个性化的价值判断——这些超出协议的设计边界。我们选择诚实地说明局限，而不是假装全能。

你的下一个重大决策，值得这样的审视。

开始推演