1. 引言

本文探討了比特幣激勵相容性中的一個關鍵缺陷,此缺陷最初由 Eyal 和 Sirer (2014) 提出。雖然他們的 SM1 策略展示了有利可圖的自私挖礦,但本研究證明該策略並非最優。我們提出了一個通用模型和一種演算法來尋找 ε-最優的自私挖礦策略,確立了更嚴格的獲利界限,並揭示了比先前所知更低的成功攻擊算力門檻。

2. 背景與相關研究

理解自私挖礦需要立足於比特幣的共識機制和先前的攻擊模型。

2.1. 比特幣挖礦基礎

比特幣依賴工作量證明共識機制,礦工競相解決密碼學難題。首先解決難題的礦工廣播一個新區塊,獲得區塊獎勵和交易手續費。協議要求立即發布區塊。最長鏈規則用於解決分叉。

2.2. SM1 策略 (Eyal & Sirer)

Eyal 和 Sirer 的 SM1 策略涉及礦工隱藏新挖出的區塊,建立一條私有鏈。攻擊者策略性地揭露區塊以孤立誠實區塊,從而獲得不符比例的獎勵份額。他們的分析表明,對於網路連接良好的攻擊者,獲利門檻約為網路總算力的 25%。

3. 模型與方法論

我們將自私挖礦模型擴展為馬可夫決策過程框架,允許對策略空間進行更全面的搜尋。

3.1. 擴展的自私挖礦模型

系統狀態由攻擊者私有鏈領先公開鏈的幅度定義。可採取的行動包括:採用(放棄私有鏈)、覆蓋(發布以超越公開鏈)、等待(繼續私有挖礦)和匹配(發布恰好足夠的區塊以形成平局)。該模型納入了攻擊者的相對算力 $\alpha$ 和網路傳播因子 $\gamma$。

3.2. ε-最優策略演算法

我們將問題表述為一個折現的無限視野 MDP。使用價值迭代或策略迭代演算法,我們計算出一個 ε-最優策略 $\pi^*$,該策略能最大化攻擊者的相對收益 $R(\alpha, \gamma, \pi)$。演算法的輸出決定了在每個可能狀態(領先幅度 $l$)下的最優行動(等待、採用、覆蓋、匹配)。

4. 結果與分析

獲利門檻 (γ=0.5)

~23%

實現獲利所需的算力份額(我們的模型)

獲利門檻 (γ=0.5)

~25%

實現獲利所需的算力份額 (SM1)

考慮延遲的門檻

>0%

在實際延遲模型下趨近於零

4.1. 更低的獲利門檻

我們的最優策略始終產生比 SM1 更低的獲利門檻。對於典型的傳播因子 ($\gamma=0.5$),門檻從約 25% 降至約 23%。這 2% 的差異意義重大,使更多潛在攻擊者進入獲利區間。

4.2. 對 SM1 的優勢

推導出的策略嚴格優於 SM1。關鍵改進在於更精細的「攻擊撤退」——精確知道何時放棄私有鏈以減少損失,而不是像 SM1 通常那樣教條地堅持。這種適應性行為在所有 $\alpha$ 和 $\gamma$ 值下都提高了預期收益。

4.3. 通訊延遲的影響

在納入網路傳播延遲的模型下,獲利門檻實際上消失了。即使是算力微不足道的礦工 ($\alpha \rightarrow 0$),也有機率性動機偶爾隱藏區塊,因為延遲會產生他們可以利用的自然分叉。這揭示了中本聰共識中存在更根本的激勵錯位。

5. 技術細節與公式

分析的核心是狀態轉移模型和收益函數。遵循策略 $\pi$、擁有算力 $\alpha$ 的攻擊者的相對收益 $R$ 為:

$R(\alpha, \gamma, \pi) = \frac{\text{攻擊者獲得的預期區塊數}}{\text{預期建立的總區塊數}}$

狀態是領先幅度 $l$。轉移機率取決於 $\alpha$ 和誠實礦工找到區塊的情況。例如,從狀態 $l=1$ 開始:

  • 攻擊者找到下一個區塊:機率 $\alpha$,新狀態 $l=2$。
  • 誠實礦工找到下一個區塊:機率 $(1-\alpha)$,導致平局。攻擊者隨後可以選擇匹配(發布)或不匹配,這將導致一個在 MDP 中分析的複雜子賽局。
最優策略 $\pi^*(l)$ 是通過求解此 MDP 的貝爾曼最優性方程推導出來的。

6. 實驗結果與圖表

關鍵圖表 1:相對收益 vs. 算力 (α)
一張折線圖比較了最優策略(來自我們的演算法)、SM1 策略和誠實挖礦的相對收益 $R$。對於所有 $\alpha > 0$,最優策略曲線嚴格位於 SM1 曲線之上。這些曲線與誠實挖礦線($R = \alpha$)在不同點相交,直觀地展示了最優策略更低的門檻。

關鍵圖表 2:狀態轉移圖
一張有向圖,顯示了狀態 (l=0,1,2,...) 以及針對特定 ($\alpha$, $\gamma$) 由演算法確定的最優行動(在邊上標註:等待、覆蓋、採用、匹配)。該圖具體展示了非平凡的決策邏輯,例如在某些條件下從領先 1 的狀態選擇「採用」——這是 SM1 中沒有的反直覺舉動。

7. 分析框架:賽局理論案例

情境: 一個名為「AlphaPool」的礦池控制了網路算力的 $\alpha = 0.24$。網路傳播因子為 $\gamma=0.6$(意味著 AlphaPool 能立即得知 60% 的誠實區塊)。

SM1 策略: AlphaPool 將遵循僵化規則:領先時私有挖礦,領先 2 個區塊時發布以覆蓋。分析顯示,這將產生 $R_{SM1} \approx 0.239$,低於其算力份額 (0.24),使其與誠實挖礦相比無利可圖。

最優策略(來自我們的演算法): 計算出的策略 $\pi^*$ 可能指示:從領先 1 的狀態,如果發現誠實區塊,立即匹配(發布)以形成平局並在下一輪競爭,而不是等待。這個微妙的改變改變了轉移機率。最終收益為 $R_{opt} \approx 0.242$,高於 0.24。攻擊變得有利可圖。

洞見: 這個案例展示了最優的、依賴狀態的決策如何能將理論上無利可圖的算力份額,純粹透過策略性的區塊發布,轉變為有利可圖的。

8. 應用展望與未來方向

協議設計與對策: 這項工作提供了一個工具,用於對提議的比特幣改進方案(例如 GHOST、包容性區塊鏈協議)進行壓力測試,不僅針對 SM1,也針對最優自私挖礦。對 Eyal 和 Sirer 建議的對策分析顯示其效果不如預期,這引導未來研究朝向更穩健的修復方案。

超越比特幣: MDP 框架適用於其他工作量證明區塊鏈(例如萊特幣、比特幣現金),並且可以調整用於研究權益證明系統中的策略行為,其中可能存在類似的「區塊隱藏」或「雙重投票」攻擊。

組合攻擊: 未來的工作必須模擬自私挖礦與雙重支付攻擊之間的相互作用。擁有私有鏈的自私礦工自然具備嘗試雙重支付的平台,這可能增加攻擊者的效用並降低兩種攻擊的門檻。

去中心化與礦池動態: 更低的門檻增加了中心化壓力。大型礦池有動機採用這些最優策略,而小型礦工有動機加入它們以獲得穩定回報,形成一個削弱去中心化的反饋迴路——而這是比特幣的核心安全前提。

9. 參考文獻

  1. Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
  2. Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer, Berlin, Heidelberg.
  3. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
  4. Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
  5. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (作為先進演算法框架的範例引用,類似於本文使用的 MDP 方法)。

10. 原創分析與專家洞見

核心洞見

Sapirshtein 等人進行了一次協議壓力測試的典範教學,超越了特定的利用方式,轉而對自私挖礦策略的整個空間進行建模。他們的基本發現是殘酷的:比特幣的激勵結構不僅在 25% 算力時出現裂痕,它從根本上就是有漏洞的,這些裂縫比中本聰想像的更接近表面。「獲利門檻」不是一堵堅硬的牆;它是一個梯度,在現實世界的網路條件下,最優策略可以將其侵蝕到接近零。這將自私挖礦從一個「大型攻擊者」問題重新定義為一個系統性的、始終存在的激勵錯位。

邏輯流程

本文的邏輯無懈可擊且具有毀滅性。1) 模型泛化: 他們正確地將 SM1 識別為廣闊策略空間中的一個單點。透過將問題框架化為馬可夫決策過程——一種在人工智慧和控制理論中具有悠久歷史的技術,類似於 CycleGAN 論文用於探索圖像翻譯空間的框架——他們開啟了系統性搜尋此空間的能力。2) 演算法解決方案: 價值迭代演算法不僅僅是一個工具;它是一種證明機制。它不假設策略,而是從第一原理推導出最優策略。3) 門檻壓縮: 輸出是明確的:最優策略優於 SM1,降低了獲利門檻。4) 延遲的致命一擊: 最後一步,納入網路延遲,是致命一擊。它表明,在一個非瞬時的世界(即現實世界)中,偶爾偏離協議的經濟激勵是普遍存在的,而非例外。

優點與缺陷

優點: 方法論的嚴謹性是一流的。MDP 模型是完成這項工作的正確工具,提供了一個先前啟發式分析所缺乏的形式化、可計算的基礎。對網路延遲的考慮彌合了理論與實踐之間的關鍵差距,與來自像IC3(加密貨幣與合約倡議)等機構的網路測量研究的觀察結果一致。本文作為協議修改的「安全分析器」的實用性是一項重要的實際貢獻。

缺陷與盲點: 該分析雖然深入,但仍然是一個雙人賽局(攻擊者 vs. 誠實的「其他」)。它沒有完全應對當今比特幣特徵的動態、多礦池均衡。當多個大型礦池都對彼此運行最優(或學習)的自私策略時會發生什麼?該模型也簡化了攻擊撤退(孤立自己的區塊)的成本,這對礦池而言可能具有非線性的心理或聲譽成本。此外,正如後續研究(例如 Gervais 等人,2016)所指出的,該分析假設了一個靜態的 α;實際上,算力可能會逃離被認為受到攻擊的鏈,動態地改變攻擊者的份額。

可操作的見解

對於協議開發者:停止為 SM1 打補丁。您必須為最優策略進行設計。本文提供了基準。任何提議的修復方案(例如像 GHOST 這樣的新分叉選擇規則)都必須根據此 MDP 框架進行評估。目標應該是使誠實策略成為任何 α > 0 時的納許均衡,這是一個遠高於當前標準的門檻。

對於礦工與礦池營運商:計算方式已經改變。25% 的「安全」準則已經過時。算力低至 20% 的礦池,特別是那些連接良好(高 γ)的礦池,現在必須考慮策略性隱藏的經濟誘惑。不運行最優策略的倫理和賽局理論影響成為董事會討論的議題。

對於投資者與監管機構:請理解,比特幣的安全預算(礦工獎勵)正受到一種比先前承認的更複雜的經濟攻擊形式的威脅。挖礦中心化的風險不是線性的;它受到本研究揭示的策略性臨界點的影響。監控礦池行為和網路傳播時間成為關鍵的安全指標。

總之,本文不僅是對先前工作的學術改進;它是一次典範轉移。它將討論從「大型礦池能否作弊?」轉移到「在不完美的網路中,每個人的最優策略如何不斷地對協議的激勵機制造成壓力?」不幸的是,答案是「顯著地」。現在,證明負擔落在了防禦者身上,他們需要證明中本聰共識在其當前形式下能夠真正實現激勵相容。