The Prism Protocol

对抗性推演方法论

我们不让 AI 给你答案。

我们让 AI 互相证明对方是错的——然后告诉你什么经受住了攻击

问题

你问了一个大模型。它给了你一个自信的回答。你又问了另一个,它也很自信,但给了不同的答案。你无从判断谁对。

这就是未校准的置信——比「不知道」更危险的东西。它让决策者误以为自己已经得到了可靠的判断依据,实际上只是读到了一个语言模型的统计输出。

让同一个 AI 自己审查自己?它会系统性地忽略自己的盲区。让它扮演不同角色?角色扮演不产生独立性。

2500 年来,人类发明了许多对抗自身思维局限的方法:苏格拉底的辩驳、科学家的双盲实验、CIA 的竞争假说分析、军方的红队。这些方法的共同点是:有效,但昂贵、缓慢、依赖稀缺人才。

棱镜协议做的事情很简单:第一次让这些方法论在 AI 时代规模化执行。

五条公理

协议的设计原则。每一条解决一个真实的认知缺陷,每一条都不可妥协。

01

隔离公理

Isolation

信息隔离是独立性的唯一保障。

实验者和被试都不知道谁在接受真实处理——这是排除确认偏见的唯一方式。棱镜协议中,所有模型收到完全相同的信息,在互不可见的状态下独立形成判断。天然差异由此涌现,而非被设计出来。

双盲实验 · R.A. Fisher, 1920s

02

对抗公理

Adversarial

发现隐含假设最有效的方式,是让有动机找到它的人来找。

苏格拉底从不攻击结论,他攻击的是对方没意识到自己持有的前提。军事红队的核心原则:红队必须真的想赢。有攻击动机和没有,找到的漏洞质量完全不同。

苏格拉底辩驳 · 红队方法论

03

分歧公理

Divergence

分歧本身是信息。它告诉你不确定性住在哪里。

分析最大的错误不是信息不足,是总在寻找支持已有判断的证据。Tetlock 的研究发现:聚合独立预测时,高分歧说明这件事真的不确定。协议不强行调和分歧,而是把真实分歧作为诚实的输出。

ACH (CIA) · 超级预测 · Tetlock

04

语言公理

Language

语言证据优于数字打分。

不同模型的"置信度 80%"含义完全不同,直接平均毫无意义。协议采用语言证据判断收敛——模型必须用自然语言解释为什么改变或坚持立场,系统基于语义内容来评估共识。

德尔菲法 · RAND Corporation

05

诚实公理

Honesty

诚实的分析必须说清楚自己在什么条件下会错。

无法被证伪的理论不是科学。每份报告都包含「诚实的不确定性」——明确标注各方均无法确定的问题、已知局限、以及在什么条件下结论会被推翻。

波普尔证伪主义 · Karl Popper

协议流程

从你的问题到结构化报告,五个阶段,每个阶段由一条公理驱动。

01

独立判断

Isolated Deliberation

多个独立训练的 AI 模型在信息隔离条件下,基于相同研究材料分别形成判断。没有参考其他模型的输出,没有角色扮演。

隔离公理
02

分歧定位

Divergence Mapping

系统自动提取各模型之间的共识与分歧,定位不确定性的具体位置。告诉你:它们在哪里达成一致,又在哪里产生分歧。

分歧公理
03

假设攻防

Adversarial Stress Test

每个模型攻击其他模型论点中的隐含前提——不是攻击结论,而是攻击对方没意识到自己依赖的假设。被攻击方必须用证据防御或承认修正。

对抗公理
04

收敛评估

Convergence Assessment

基于语言证据(而非数字打分)评估各方是否达成真实共识,区分真收敛与表面妥协。

语言公理
05

诚实报告

Honest Report

输出结构化报告:可信共识、真实分歧、不确定性地图、条件化建议。明确标注什么是确定的、什么是不确定的、什么是协议无法回答的。

诚实公理

学术基础

棱镜协议的每个设计决策都有认识论依据。这不是发明,是继承。

苏格拉底辩驳

Socratic Elenchos

通过交叉审问暴露论点的内在矛盾。攻击的不是结论,而是前提——直到论点崩塌或被修正。

双盲实验

Double-Blind Method

R.A. Fisher 的核心洞察:信息隔离是独立性的唯一保障。消除确认偏见和期待效应的黄金标准。

竞争假说分析

ACH · CIA

CIA 分析师 Heuer 提出:同时维持多个假说,用证据逐一检验一致性,而不是给最可能的答案添加证据。

红队方法论

Red Team

美国国防部系统化的对抗性测试方法。核心原则:红队必须真的想赢——有攻击动机才能找到真实弱点。

超级预测

Superforecasting

Philip Tetlock 花 20 年研究发现:聚合独立预测时,分歧本身就是信号。高分歧意味着这件事真的不确定。

波普尔证伪主义

Falsificationism

科学理论的价值不在于能被什么证据支持,而在于能被什么证据推翻。无法被证伪的断言不构成知识。

诚实声明

协议无法检测所有模型共享的偏见。 所有参与模型在高度重叠的语料上训练。如果它们共享一个系统性偏见,协议无法发现。协议检测的是模型间的差异,不是模型集合的盲区。

协议不是事实核查系统。 如果所有模型对某个事实都持有同样的错误,协议会将其标注为「共识」。前沿领域和快速变化的事实,需要额外验证。

某些问题类型不适合本协议。 纯粹的计算问题、需要实时数据的问题、高度个性化的价值判断——这些超出协议的设计边界。我们选择诚实地说明局限,而不是假装全能。

你的下一个重大决策,值得这样的审视。

开始推演