2.1. 比特幣挖礦基礎
比特幣依賴工作量證明(PoW)共識,礦工競相解決密碼學難題。第一個解決難題嘅礦工會廣播一個新區塊,獲得區塊獎勵同交易手續費。協議要求立即發布區塊。最長鏈規則用嚟解決分叉。
本文探討比特幣激勵相容性中嘅一個關鍵缺陷,呢個問題最初由 Eyal 同 Sirer(2014)提出。雖然佢哋嘅 SM1 策略展示咗有利可圖嘅自私挖礦,但本研究證明佢並非最優。我哋提出一個通用模型同一個算法,用嚟尋找 ε-最優自私挖礦策略,確立更嚴格嘅盈利界限,並揭示咗比以往所知更低嘅成功攻擊算力門檻。
理解自私挖礦需要掌握比特幣嘅共識機制同先前嘅攻擊模型。
比特幣依賴工作量證明(PoW)共識,礦工競相解決密碼學難題。第一個解決難題嘅礦工會廣播一個新區塊,獲得區塊獎勵同交易手續費。協議要求立即發布區塊。最長鏈規則用嚟解決分叉。
Eyal 同 Sirer 嘅 SM1 策略涉及礦工隱藏新挖出嘅區塊,創建一條私有鏈。攻擊者策略性地公開區塊,令誠實區塊變成孤兒,從而獲取不成比例嘅獎勵份額。佢哋嘅分析表明,對於一個連接良好嘅攻擊者,盈利門檻約為網絡算力嘅 25%。
我哋將自私挖礦模型擴展到馬爾可夫決策過程(MDP)框架,允許對策略空間進行更全面嘅搜索。
系統狀態由攻擊者私有鏈領先公開鏈嘅幅度定義。行動包括:採納(放棄私有鏈)、覆蓋(公開區塊以超越公開鏈)、等待(繼續私下挖礦)同匹配(公開足夠區塊以打平)。模型包含攻擊者嘅相對算力 $\alpha$ 同網絡傳播因子 $\gamma$。
我哋將問題表述為一個折扣無限視界 MDP。使用價值迭代或策略迭代算法,我哋計算出一個 ε-最優策略 $\pi^*$,該策略最大化攻擊者嘅相對收益 $R(\alpha, \gamma, \pi)$。算法嘅輸出決定咗每個可能狀態(領先幅度 $l$)嘅最優行動(等待、採納、覆蓋、匹配)。
~23%
實現盈利所需算力份額(我哋嘅模型)
~25%
實現盈利所需算力份額(SM1)
>0%
喺現實延遲模型下幾乎消失
我哋嘅最優策略持續產生比 SM1 更低嘅盈利門檻。對於典型嘅傳播因子($\gamma=0.5$),門檻從大約 25% 降至約 23%。呢 2% 嘅差異意義重大,令更多潛在攻擊者進入盈利區域。
推導出嘅策略嚴格優於 SM1。關鍵改進在於更精妙嘅「攻擊撤退」——精確知道何時放棄私有鏈(採納)以減少損失,而唔係好似 SM1 經常做嘅咁教條式堅持。呢種適應性行為提高咗所有 $\alpha$ 同 $\gamma$ 值下嘅預期收益。
喺一個包含網絡傳播延遲嘅模型下,盈利門檻實際上幾乎消失。即使算力微不足道嘅礦工($\alpha \rightarrow 0$)都有概率性動機偶爾隱藏區塊,因為延遲會產生自然分叉俾佢哋利用。呢個揭示咗中本聰共識中存在更根本嘅激勵錯配。
分析嘅核心係狀態轉移模型同收益函數。遵循策略 $\pi$、擁有算力 $\alpha$ 嘅攻擊者嘅相對收益 $R$ 為:
$R(\alpha, \gamma, \pi) = \frac{\text{攻擊者預期獲得區塊數}}{\text{預期總創建區塊數}}$
狀態係領先幅度 $l$。轉移概率取決於 $\alpha$ 同誠實礦工搵到區塊。例如,從狀態 $l=1$ 開始:
關鍵圖表 1:相對收益 vs. 算力(α)
一個折線圖比較最優策略(嚟自我哋算法)嘅相對收益 $R$ 與 SM1 策略同誠實挖礦。對於所有 $\alpha > 0$,最優策略曲線嚴格位於 SM1 曲線之上。曲線喺唔同點與誠實挖礦線($R = \alpha$)相交,直觀展示最優策略嘅更低門檻。
關鍵圖表 2:狀態轉移圖
一個有向圖展示狀態(l=0,1,2,...)同最優行動(標註喺邊上:等待、覆蓋、採納、匹配),由算法針對特定($\alpha$, $\gamma$)確定。呢個圖具體展示咗非平凡嘅決策邏輯,例如喺特定條件下從領先 1 嘅狀態採納——呢個係 SM1 中冇嘅反直覺舉動。
場景:一個名為「AlphaPool」嘅礦池控制網絡算力嘅 $\alpha = 0.24$。網絡傳播因子為 $\gamma=0.6$(意味住 AlphaPool 能立即得知 60% 嘅誠實區塊)。
SM1 策略:AlphaPool 會遵循一個僵化規則:領先時私下挖礦,領先 2 個區塊時公開以覆蓋。分析顯示呢個策略產生 $R_{SM1} \approx 0.239$,低於其算力份額(0.24),令其相比誠實挖礦無利可圖。
最優策略(嚟自我哋算法):計算出嘅策略 $\pi^*$ 可能指示:從領先 1 嘅狀態,如果發現誠實區塊,立即匹配(公開)以製造平局並喺下一輪競爭,而非等待。呢個微妙改變調整咗轉移概率。最終收益為 $R_{opt} \approx 0.242$,高於 0.24。攻擊變得有利可圖。
見解:呢個案例展示咗最優嘅、依賴狀態嘅決策制定如何可以純粹通過策略性區塊發布,將理論上無利可圖嘅算力份額轉變為有利可圖。
協議設計與對策:呢項工作提供咗一個工具,用嚟針對最優自私挖礦(而不僅僅係 SM1)對提議嘅比特幣改進方案(例如 GHOST、包容性區塊鏈協議)進行壓力測試。對 Eyal 同 Sirer 建議嘅對策分析顯示其效果不如預期,引導未來研究走向更穩健嘅修復方案。
超越比特幣:MDP 框架適用於其他工作量證明區塊鏈(例如萊特幣、比特幣現金),並且可以調整用於研究權益證明(PoS)系統中嘅策略行為,該系統可能存在類似嘅「區塊隱藏」或「雙重聲明」攻擊。
組合攻擊:未來工作必須模擬自私挖礦同雙重支付攻擊之間嘅相互作用。擁有私有鏈嘅自私礦工自然具備嘗試雙重支付嘅平台,可能增加攻擊者嘅效用並降低兩種攻擊嘅門檻。
去中心化與礦池動態:更低嘅門檻增加咗中心化壓力。大型礦池有動機採用呢啲最優策略,而小型礦工有動機加入佢哋以獲得穩定回報,形成一個削弱去中心化——比特幣核心安全前提——嘅反饋循環。
Sapirshtein 等人進行咗一次協議壓力測試嘅大師級示範,超越咗特定漏洞利用(SM1),轉而模擬自私挖礦策略嘅整個空間。佢哋嘅根本發現係殘酷嘅:比特幣嘅激勵結構唔單止喺 25% 算力時出現裂痕——佢本身就係有漏洞嘅,裂縫比中本聰想像嘅要接近表面得多。「盈利門檻」唔係一堵硬牆;佢係一個梯度,最優策略喺現實世界網絡條件下可以將其侵蝕到接近零。呢個將自私挖礦從一個「大型攻擊者」問題重新定義為一個系統性、始終存在嘅激勵錯配。
論文嘅邏輯無懈可擊且具有毀滅性。1) 模型泛化:佢哋正確地將 SM1 識別為廣闊策略空間中嘅單一點。通過將問題構建為馬爾可夫決策過程(MDP)——一種喺人工智能同控制理論中具有悠久歷史嘅技術,類似於探索圖像翻譯空間嘅開創性工作(如 CycleGAN 論文)中使用嘅框架——佢哋解鎖咗系統性搜索呢個空間嘅能力。2) 算法解決方案:價值迭代算法唔只係一個工具;佢係一個證明機制。佢唔假設一個策略;佢從第一性原理推導出最優策略。3) 門檻壓縮:輸出係清晰嘅:最優策略優於 SM1,降低咗盈利門檻。4) 延遲嘅致命一擊:最後一步,納入網絡延遲,係致命一擊。佢表明喺一個非瞬時嘅世界(即現實)中,偶爾偏離協議嘅經濟激勵係普遍存在嘅,而非例外。
優點:方法論嘅嚴謹性係頂級嘅。MDP 模型係做呢個工作嘅正確工具,提供咗一個正式、可計算嘅基礎,呢個係先前啟發式分析所缺乏嘅。對網絡延遲嘅考慮彌合咗理論同實踐之間嘅關鍵差距,與來自IC3(加密貨幣與合約倡議)等機構嘅網絡測量研究觀察結果一致。論文作為協議修改嘅「安全分析器」嘅實用性係一個重大嘅實際貢獻。
缺陷與盲點:分析雖然深入,但仍然係一個雙人博弈(攻擊者 vs. 誠實「其餘部分」)。佢並未完全應對當今比特幣特徵嘅動態、多礦池均衡。當多個大型礦池都對彼此運行最優(或學習)自私策略時會發生咩事?模型亦簡化咗攻擊撤退(令自己嘅區塊變成孤兒)嘅成本,呢個對於礦池可能具有非線性嘅心理或聲譽成本。此外,正如後續研究(例如 Gervais 等人,2016)指出,分析假設靜態 α;實際上,算力可能會逃離被認為受攻擊嘅鏈,動態改變攻擊者嘅份額。
對於協議開發者:停止為 SM1 打補丁。你必須為最優策略進行設計。本文提供咗基準。任何提議嘅修復(例如 GHOST 等新分叉選擇規則)都必須根據呢個 MDP 框架進行評估。目標應該係令誠實策略對於任何 α > 0 都成為納什均衡,呢個係遠高於目前嘅標準。
對於礦工與礦池運營者:計算方式已經改變。25% 嘅「安全」指引已經過時。算力低至 20% 嘅礦池,特別係連接良好(高 γ)嘅礦池,而家必須考慮策略性隱藏嘅經濟誘惑。唔運行最優策略嘅倫理同博弈論影響成為董事會討論嘅議題。
對於投資者與監管機構:要明白比特幣嘅安全預算(礦工獎勵)正受到一種比以往承認嘅更複雜嘅經濟攻擊形式威脅。挖礦中心化嘅風險唔係線性嘅;佢受到呢項研究揭示嘅策略性臨界點影響。監控礦池行為同網絡傳播時間成為關鍵嘅安全指標。
總而言之,呢篇論文唔只係對先前工作嘅學術改進;佢係一個範式轉變。佢將討論從「大礦池可以作弊嗎?」轉移到「每個人嘅最優策略,喺一個唔完美嘅網絡中,如何持續地對協議嘅激勵機制造成壓力?」不幸嘅係,答案係「非常顯著」。而家,證明嘅負擔落喺防禦者身上,需要展示中本聰共識喺其目前形式下可以變得真正激勵相容。