2.1. 比特币挖矿基础
比特币依赖于工作量证明(PoW)共识机制,矿工通过竞争解决密码学难题来获得记账权。第一个解决难题的矿工广播新区块,并获得区块奖励和交易手续费。协议要求立即发布新发现的区块。最长链规则用于解决分叉。
本文探讨了比特币激励相容性中的一个关键缺陷,该缺陷最初由Eyal和Sirer(2014)提出。虽然他们的SM1策略证明了自私挖矿可以盈利,但本研究表明该策略并非最优。我们提出了一个广义模型和一种算法,用于寻找ε-最优的自私挖矿策略,从而确立了更严格的盈利边界,并揭示出比以往所知更低的成功攻击算力门槛。
理解自私挖矿需要基于比特币的共识机制和先前的攻击模型。
比特币依赖于工作量证明(PoW)共识机制,矿工通过竞争解决密码学难题来获得记账权。第一个解决难题的矿工广播新区块,并获得区块奖励和交易手续费。协议要求立即发布新发现的区块。最长链规则用于解决分叉。
Eyal和Sirer的SM1策略涉及矿工扣留新挖出的区块,创建一个私有链。攻击者策略性地公布区块,以孤立诚实矿工的区块,从而获得不成比例的奖励份额。他们的分析表明,对于一个连接良好的攻击者,其盈利门槛约为全网算力的25%。
我们将自私挖矿模型扩展为马尔可夫决策过程(MDP)框架,从而能够更全面地搜索策略空间。
系统状态由攻击者私有链领先公开链的长度定义。可采取的行动包括:采纳(放弃私有链)、覆盖(发布区块以超越公开链)、等待(继续私有挖矿)和匹配(发布恰好足够数量的区块以形成平局)。该模型包含了攻击者的相对算力 $\alpha$ 和网络传播因子 $\gamma$。
我们将该问题表述为一个折扣无限时域的MDP。使用值迭代或策略迭代算法,我们计算出一个ε-最优策略 $\pi^*$,该策略能最大化攻击者的相对收益 $R(\alpha, \gamma, \pi)$。算法的输出决定了在每个可能的状态(领先长度 $l$)下的最优行动(等待、采纳、覆盖、匹配)。
~23%
实现盈利所需的算力份额(我们的模型)
~25%
实现盈利所需的算力份额(SM1)
>0%
在现实的延迟模型下趋近于零
我们的最优策略始终产生比SM1更低的盈利门槛。对于一个典型的传播因子($\gamma=0.5$),该门槛从大约25%降至约23%。这2%的差异是显著的,使得更多潜在攻击者进入盈利区间。
推导出的策略严格支配SM1策略。关键的改进在于更复杂的“攻击撤退”策略——精确地知道何时放弃私有链(采纳)以减少损失,而不是像SM1通常所做的那样教条地坚持。这种自适应行为在所有 $\alpha$ 和 $\gamma$ 值下都提高了预期收益。
在纳入网络传播延迟的模型下,盈利门槛实际上消失了。即使算力微不足道的矿工($\alpha \rightarrow 0$)也有概率性动机偶尔扣留区块,因为延迟会创造他们可以利用的自然分叉。这揭示了中本聪共识中更深层次的激励错位问题。
分析的核心是状态转移模型和收益函数。遵循策略 $\pi$、拥有算力 $\alpha$ 的攻击者的相对收益 $R$ 为:
$R(\alpha, \gamma, \pi) = \frac{\text{攻击者获得的预期区块数}}{\text{预期创建的总区块数}}$
状态是领先长度 $l$。转移概率取决于 $\alpha$ 和诚实矿工发现区块的情况。例如,从状态 $l=1$ 出发:
关键图表1:相对收益 vs. 算力(α)
一张折线图,比较了最优策略(来自我们的算法)、SM1策略和诚实挖矿的相对收益 $R$。对于所有 $\alpha > 0$,最优策略曲线严格位于SM1曲线上方。这些曲线与诚实挖矿线($R = \alpha$)在不同的点相交,直观地展示了最优策略更低的门槛。
关键图表2:状态转移图
一个有向图,显示了状态(l=0,1,2,...)以及由算法针对特定($\alpha$, $\gamma$)确定的最优行动(在边上标注:等待、覆盖、采纳、匹配)。该图具体展示了非平凡的决策逻辑,例如在某些条件下从领先长度为1的状态选择采纳——这是SM1中没有的反直觉操作。
场景: 一个名为“AlphaPool”的矿池控制了全网算力的 $\alpha = 0.24$。网络传播因子为 $\gamma=0.6$(意味着AlphaPool能立即获知60%的诚实区块)。
SM1策略: AlphaPool将遵循一个僵化的规则:在领先时进行私有挖矿,当领先2个区块时发布以覆盖。分析表明,这产生的收益 $R_{SM1} \approx 0.239$,低于其算力份额(0.24),因此相比诚实挖矿无利可图。
最优策略(来自我们的算法): 计算出的策略 $\pi^*$ 可能指示:从领先长度为1的状态出发,如果发现一个诚实区块,立即匹配(发布)以制造平局并在下一轮竞争,而不是等待。这一细微的改变改变了转移概率。最终收益为 $R_{opt} \approx 0.242$,高于 0.24。攻击变得有利可图。
洞见: 这个案例展示了最优的、状态依赖的决策如何能够纯粹通过策略性的区块发布,将一个理论上无利可图的算力份额转变为有利可图的份额。
协议设计与对策: 这项工作提供了一个工具,用于对抗最优自私挖矿(而不仅仅是SM1)来压力测试提议的比特币改进方案(例如GHOST、包容性区块链协议)。对Eyal和Sirer建议的对策的分析表明,其效果不如预期,这指导未来研究寻求更稳健的修复方案。
超越比特币: MDP框架适用于其他工作量证明区块链(例如莱特币、比特币现金),并且可以进行调整以研究权益证明(PoS)系统中的策略行为,其中可能存在类似的“区块扣留”或“双重投票”攻击。
组合攻击: 未来的工作必须对自私挖矿和双花攻击之间的相互作用进行建模。拥有私有链的自私矿工天然具备尝试双花的平台,这可能会增加攻击者的效用,并降低两种攻击的门槛。
去中心化与矿池动态: 更低的门槛增加了中心化压力。大型矿池有动机采用这些最优策略,而小型矿工为了稳定回报有动机加入它们,从而形成一个削弱去中心化的反馈循环——而这是比特币核心的安全前提之一。
Sapirshtein等人完成了一次协议压力测试的典范,他们超越了具体的利用手段(SM1),转而模拟自私挖矿策略的整个空间。他们的根本性揭示是残酷的:比特币的激励结构不仅在25%算力时存在裂缝——它本质上是存在漏洞的,这些裂痕比中本聪设想的要接近表面得多。“盈利门槛”不是一堵硬墙;它是一个梯度,在现实网络条件下,最优策略可以将其侵蚀至接近零。这将自私挖矿从一个“大型攻击者”问题重新定义为一种系统性的、始终存在的激励错位。
本文的逻辑无懈可击且具有毁灭性。1) 模型泛化: 他们正确地识别出SM1只是广阔策略空间中的一个点。通过将问题构建为马尔可夫决策过程(MDP)——一种在人工智能和控制理论中享有盛誉的技术,类似于CycleGAN论文中用于探索图像翻译空间的框架——他们解锁了系统搜索该空间的能力。2) 算法求解: 值迭代算法不仅仅是一个工具;它是一种证明机制。它不假设策略,而是从第一性原理推导出最优策略。3) 门槛压缩: 输出是明确的:最优策略支配SM1,降低了盈利门槛。4) 延迟的致命一击: 最后一步,纳入网络延迟,是致命一击。它表明,在一个非瞬时性的世界(即现实世界)中,偶尔偏离协议的经济激励是普遍存在的,而非特例。
优势: 方法论的严谨性是一流的。MDP模型是解决该问题的正确工具,提供了一个先前启发式分析所缺乏的形式化、可计算的基础。对网络延迟的考量弥合了理论与实践之间的关键鸿沟,与来自IC3(加密货币与合约倡议)等机构的网络测量研究的观察结果一致。本文作为协议修改的“安全分析器”的实用性是一项重要的实践贡献。
不足与盲点: 该分析虽然深入,但仍然是一个双人博弈(攻击者 vs. 诚实的“其余部分”)。它没有完全应对当今比特币所特有的动态、多矿池均衡。当多个大型矿池都针对彼此运行最优(或学习型)自私策略时会发生什么?该模型还简化了攻击撤退(孤立自己的区块)的成本,这对矿池而言可能存在非线性的心理或声誉成本。此外,正如后续研究(例如Gervais等人,2016)所指出的,该分析假设α是静态的;实际上,算力可能会逃离被认为受到攻击的链,从而动态改变攻击者的份额。
对于协议开发者:停止为SM1打补丁。你们必须为最优策略进行设计。本文提供了基准。任何提议的修复方案(例如像GHOST这样的新分叉选择规则)都必须根据这个MDP框架进行评估。目标应该是使诚实策略成为任何α > 0时的纳什均衡,这是一个远高于当前标准的要求。
对于矿工与矿池运营商:计算方式已经改变。25%的“安全”指导原则已经过时。算力低至20%的矿池,尤其是那些连接良好(γ值高)的矿池,现在必须考虑策略性扣留区块的经济诱惑。不运行最优策略的伦理和博弈论影响成为董事会讨论的话题。
对于投资者与监管者:需要理解,比特币的安全预算(矿工奖励)正面临一种比以往认知更为复杂的经济攻击形式。挖矿中心化的风险不是线性的;它受到本研究揭示的策略性临界点的影响。监控矿池行为和网络传播时间成为关键的安全指标。
总之,本文不仅仅是对先前工作的学术改进;它是一次范式转变。它将讨论从“大矿池能作弊吗?”转移到“在不完美的网络中,每个人的最优策略如何持续地挑战协议的激励相容性?”不幸的是,答案是“显著地”。现在,证明的负担落在了防御者身上,他们需要证明中本聪共识在其当前形式下能够真正实现激励相容。