1. 引言

本文探討比特幣激勵相容性中嘅一個關鍵缺陷,呢個問題最初由 Eyal 同 Sirer(2014)提出。雖然佢哋嘅 SM1 策略展示咗有利可圖嘅自私挖礦,但本研究證明佢並非最優。我哋提出一個通用模型同一個算法,用嚟尋找 ε-最優自私挖礦策略,確立更嚴格嘅盈利界限,並揭示咗比以往所知更低嘅成功攻擊算力門檻。

2. 背景與相關研究

理解自私挖礦需要掌握比特幣嘅共識機制同先前嘅攻擊模型。

2.1. 比特幣挖礦基礎

比特幣依賴工作量證明(PoW)共識,礦工競相解決密碼學難題。第一個解決難題嘅礦工會廣播一個新區塊,獲得區塊獎勵同交易手續費。協議要求立即發布區塊。最長鏈規則用嚟解決分叉。

2.2. SM1 策略(Eyal & Sirer)

Eyal 同 Sirer 嘅 SM1 策略涉及礦工隱藏新挖出嘅區塊,創建一條私有鏈。攻擊者策略性地公開區塊,令誠實區塊變成孤兒,從而獲取不成比例嘅獎勵份額。佢哋嘅分析表明,對於一個連接良好嘅攻擊者,盈利門檻約為網絡算力嘅 25%。

3. 模型與方法論

我哋將自私挖礦模型擴展到馬爾可夫決策過程(MDP)框架,允許對策略空間進行更全面嘅搜索。

3.1. 擴展自私挖礦模型

系統狀態由攻擊者私有鏈領先公開鏈嘅幅度定義。行動包括:採納(放棄私有鏈)、覆蓋(公開區塊以超越公開鏈)、等待(繼續私下挖礦)同匹配(公開足夠區塊以打平)。模型包含攻擊者嘅相對算力 $\alpha$ 同網絡傳播因子 $\gamma$。

3.2. ε-最優策略算法

我哋將問題表述為一個折扣無限視界 MDP。使用價值迭代或策略迭代算法,我哋計算出一個 ε-最優策略 $\pi^*$,該策略最大化攻擊者嘅相對收益 $R(\alpha, \gamma, \pi)$。算法嘅輸出決定咗每個可能狀態(領先幅度 $l$)嘅最優行動(等待、採納、覆蓋、匹配)。

4. 結果與分析

盈利門檻(γ=0.5)

~23%

實現盈利所需算力份額(我哋嘅模型)

盈利門檻(γ=0.5)

~25%

實現盈利所需算力份額(SM1)

考慮延遲嘅門檻

>0%

喺現實延遲模型下幾乎消失

4.1. 更低盈利門檻

我哋嘅最優策略持續產生比 SM1 更低嘅盈利門檻。對於典型嘅傳播因子($\gamma=0.5$),門檻從大約 25% 降至約 23%。呢 2% 嘅差異意義重大,令更多潛在攻擊者進入盈利區域。

4.2. 對 SM1 嘅優勢

推導出嘅策略嚴格優於 SM1。關鍵改進在於更精妙嘅「攻擊撤退」——精確知道何時放棄私有鏈(採納)以減少損失,而唔係好似 SM1 經常做嘅咁教條式堅持。呢種適應性行為提高咗所有 $\alpha$ 同 $\gamma$ 值下嘅預期收益。

4.3. 通訊延遲嘅影響

喺一個包含網絡傳播延遲嘅模型下,盈利門檻實際上幾乎消失。即使算力微不足道嘅礦工($\alpha \rightarrow 0$)都有概率性動機偶爾隱藏區塊,因為延遲會產生自然分叉俾佢哋利用。呢個揭示咗中本聰共識中存在更根本嘅激勵錯配。

5. 技術細節與公式

分析嘅核心係狀態轉移模型同收益函數。遵循策略 $\pi$、擁有算力 $\alpha$ 嘅攻擊者嘅相對收益 $R$ 為:

$R(\alpha, \gamma, \pi) = \frac{\text{攻擊者預期獲得區塊數}}{\text{預期總創建區塊數}}$

狀態係領先幅度 $l$。轉移概率取決於 $\alpha$ 同誠實礦工搵到區塊。例如,從狀態 $l=1$ 開始:

  • 攻擊者搵到下一個區塊:概率 $\alpha$,新狀態 $l=2$。
  • 誠實礦工搵到下一個區塊:概率 $(1-\alpha)$,導致打平。攻擊者隨後可以選擇匹配(公開)或者唔公開,導致一個喺 MDP 中分析嘅複雜子博弈。
最優策略 $\pi^*(l)$ 通過求解呢個 MDP 嘅貝爾曼最優性方程推導得出。

6. 實驗結果與圖表

關鍵圖表 1:相對收益 vs. 算力(α)
一個折線圖比較最優策略(嚟自我哋算法)嘅相對收益 $R$ 與 SM1 策略同誠實挖礦。對於所有 $\alpha > 0$,最優策略曲線嚴格位於 SM1 曲線之上。曲線喺唔同點與誠實挖礦線($R = \alpha$)相交,直觀展示最優策略嘅更低門檻。

關鍵圖表 2:狀態轉移圖
一個有向圖展示狀態(l=0,1,2,...)同最優行動(標註喺邊上:等待、覆蓋、採納、匹配),由算法針對特定($\alpha$, $\gamma$)確定。呢個圖具體展示咗非平凡嘅決策邏輯,例如喺特定條件下從領先 1 嘅狀態採納——呢個係 SM1 中冇嘅反直覺舉動。

7. 分析框架:一個博弈論案例

場景:一個名為「AlphaPool」嘅礦池控制網絡算力嘅 $\alpha = 0.24$。網絡傳播因子為 $\gamma=0.6$(意味住 AlphaPool 能立即得知 60% 嘅誠實區塊)。

SM1 策略:AlphaPool 會遵循一個僵化規則:領先時私下挖礦,領先 2 個區塊時公開以覆蓋。分析顯示呢個策略產生 $R_{SM1} \approx 0.239$,低於其算力份額(0.24),令其相比誠實挖礦無利可圖。

最優策略(嚟自我哋算法):計算出嘅策略 $\pi^*$ 可能指示:從領先 1 嘅狀態,如果發現誠實區塊,立即匹配(公開)以製造平局並喺下一輪競爭,而非等待。呢個微妙改變調整咗轉移概率。最終收益為 $R_{opt} \approx 0.242$,高於 0.24。攻擊變得有利可圖。

見解:呢個案例展示咗最優嘅、依賴狀態嘅決策制定如何可以純粹通過策略性區塊發布,將理論上無利可圖嘅算力份額轉變為有利可圖。

8. 應用前景與未來方向

協議設計與對策:呢項工作提供咗一個工具,用嚟針對最優自私挖礦(而不僅僅係 SM1)對提議嘅比特幣改進方案(例如 GHOST、包容性區塊鏈協議)進行壓力測試。對 Eyal 同 Sirer 建議嘅對策分析顯示其效果不如預期,引導未來研究走向更穩健嘅修復方案。

超越比特幣:MDP 框架適用於其他工作量證明區塊鏈(例如萊特幣、比特幣現金),並且可以調整用於研究權益證明(PoS)系統中嘅策略行為,該系統可能存在類似嘅「區塊隱藏」或「雙重聲明」攻擊。

組合攻擊:未來工作必須模擬自私挖礦同雙重支付攻擊之間嘅相互作用。擁有私有鏈嘅自私礦工自然具備嘗試雙重支付嘅平台,可能增加攻擊者嘅效用並降低兩種攻擊嘅門檻。

去中心化與礦池動態:更低嘅門檻增加咗中心化壓力。大型礦池有動機採用呢啲最優策略,而小型礦工有動機加入佢哋以獲得穩定回報,形成一個削弱去中心化——比特幣核心安全前提——嘅反饋循環。

9. 參考文獻

  1. Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
  2. Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer, Berlin, Heidelberg.
  3. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
  4. Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
  5. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (作為高級算法框架嘅例子引用,類似於本文使用嘅 MDP 方法)。

10. 原創分析與專家見解

核心見解

Sapirshtein 等人進行咗一次協議壓力測試嘅大師級示範,超越咗特定漏洞利用(SM1),轉而模擬自私挖礦策略嘅整個空間。佢哋嘅根本發現係殘酷嘅:比特幣嘅激勵結構唔單止喺 25% 算力時出現裂痕——佢本身就係有漏洞嘅,裂縫比中本聰想像嘅要接近表面得多。「盈利門檻」唔係一堵硬牆;佢係一個梯度,最優策略喺現實世界網絡條件下可以將其侵蝕到接近零。呢個將自私挖礦從一個「大型攻擊者」問題重新定義為一個系統性、始終存在嘅激勵錯配。

邏輯流程

論文嘅邏輯無懈可擊且具有毀滅性。1) 模型泛化:佢哋正確地將 SM1 識別為廣闊策略空間中嘅單一點。通過將問題構建為馬爾可夫決策過程(MDP)——一種喺人工智能同控制理論中具有悠久歷史嘅技術,類似於探索圖像翻譯空間嘅開創性工作(如 CycleGAN 論文)中使用嘅框架——佢哋解鎖咗系統性搜索呢個空間嘅能力。2) 算法解決方案:價值迭代算法唔只係一個工具;佢係一個證明機制。佢唔假設一個策略;佢從第一性原理推導出最優策略。3) 門檻壓縮:輸出係清晰嘅:最優策略優於 SM1,降低咗盈利門檻。4) 延遲嘅致命一擊:最後一步,納入網絡延遲,係致命一擊。佢表明喺一個非瞬時嘅世界(即現實)中,偶爾偏離協議嘅經濟激勵係普遍存在嘅,而非例外。

優點與缺陷

優點:方法論嘅嚴謹性係頂級嘅。MDP 模型係做呢個工作嘅正確工具,提供咗一個正式、可計算嘅基礎,呢個係先前啟發式分析所缺乏嘅。對網絡延遲嘅考慮彌合咗理論同實踐之間嘅關鍵差距,與來自IC3(加密貨幣與合約倡議)等機構嘅網絡測量研究觀察結果一致。論文作為協議修改嘅「安全分析器」嘅實用性係一個重大嘅實際貢獻。

缺陷與盲點:分析雖然深入,但仍然係一個雙人博弈(攻擊者 vs. 誠實「其餘部分」)。佢並未完全應對當今比特幣特徵嘅動態、多礦池均衡。當多個大型礦池都對彼此運行最優(或學習)自私策略時會發生咩事?模型亦簡化咗攻擊撤退(令自己嘅區塊變成孤兒)嘅成本,呢個對於礦池可能具有非線性嘅心理或聲譽成本。此外,正如後續研究(例如 Gervais 等人,2016)指出,分析假設靜態 α;實際上,算力可能會逃離被認為受攻擊嘅鏈,動態改變攻擊者嘅份額。

可行建議

對於協議開發者:停止為 SM1 打補丁。你必須為最優策略進行設計。本文提供咗基準。任何提議嘅修復(例如 GHOST 等新分叉選擇規則)都必須根據呢個 MDP 框架進行評估。目標應該係令誠實策略對於任何 α > 0 都成為納什均衡,呢個係遠高於目前嘅標準。

對於礦工與礦池運營者:計算方式已經改變。25% 嘅「安全」指引已經過時。算力低至 20% 嘅礦池,特別係連接良好(高 γ)嘅礦池,而家必須考慮策略性隱藏嘅經濟誘惑。唔運行最優策略嘅倫理同博弈論影響成為董事會討論嘅議題。

對於投資者與監管機構:要明白比特幣嘅安全預算(礦工獎勵)正受到一種比以往承認嘅更複雜嘅經濟攻擊形式威脅。挖礦中心化嘅風險唔係線性嘅;佢受到呢項研究揭示嘅策略性臨界點影響。監控礦池行為同網絡傳播時間成為關鍵嘅安全指標。

總而言之,呢篇論文唔只係對先前工作嘅學術改進;佢係一個範式轉變。佢將討論從「大礦池可以作弊嗎?」轉移到「每個人嘅最優策略,喺一個唔完美嘅網絡中,如何持續地對協議嘅激勵機制造成壓力?」不幸嘅係,答案係「非常顯著」。而家,證明嘅負擔落喺防禦者身上,需要展示中本聰共識喺其目前形式下可以變得真正激勵相容。