ビットコインにおける最適なセルフィッシュマイニング戦略：分析と示唆

1. 序論

本論文は、EyalとSirer (2014) によって初めて指摘されたビットコインのインセンティブ互換性における重大な欠陥に取り組む。彼らのSM1戦略は収益性のあるセルフィッシュマイニングを実証したが、本研究成果はそれが最適ではないことを証明する。我々は一般化されたモデルとε-最適なセルフィッシュマイニングポリシーを発見するアルゴリズムを提示し、収益性に関するより厳密な境界を確立するとともに、従来知られていたよりも低い計算能力閾値で攻撃が成功することを明らかにする。

2. 背景と関連研究

セルフィッシュマイニングを理解するには、ビットコインの合意形成メカニズムと既存の攻撃モデルに関する基礎知識が必要である。

2.1. ビットコインマイニングの基礎

ビットコインは、マイナーが暗号パズルを解くために競合するProof-of-Work (PoW) 合意に依存している。最初にパズルを解いたマイナーは新しいブロックをブロードキャストし、ブロック報酬と取引手数料を請求する。プロトコルはブロックの即時公開を義務付けている。最長チェーンルールがフォークを解決する。

2.2. SM1戦略 (Eyal & Sirer)

EyalとSirerのSM1戦略は、マイナーが新しくマイニングしたブロックを保留し、プライベートチェーンを作成することを含む。攻撃者は戦略的にブロックを公開して正直なブロックをオーファン化し、不均衡な報酬のシェアを請求する。彼らの分析によれば、ネットワーク接続性の高い攻撃者にとって、ネットワークのハッシュレートの約25%が収益性の閾値であると示唆された。

3. モデルと方法論

我々はセルフィッシュマイニングモデルをマルコフ決定過程 (MDP) フレームワークに拡張し、戦略空間のより包括的な探索を可能にする。

3.1. 拡張セルフィッシュマイニングモデル

システム状態は、攻撃者のプライベートチェーンが公開チェーンに対して持つリード（先行ブロック数）によって定義される。行動には以下が含まれる：Adopt（プライベートチェーンを放棄）、Override（公開して公開チェーンを追い越す）、Wait（プライベートマイニングを継続）、Match（同点にするために必要な分だけ公開）。このモデルは、攻撃者の相対的計算能力 $\alpha$ とネットワーク伝播係数 $\gamma$ を組み込んでいる。

3.2. ε-最適ポリシー探索アルゴリズム

我々はこの問題を割引無限期間MDPとして定式化する。価値反復法または方策反復法アルゴリズムを用いて、攻撃者の相対的収益 $R(\alpha, \gamma, \pi)$ を最大化するε-最適ポリシー $\pi^*$ を計算する。アルゴリズムの出力は、あらゆる可能な状態（リード $l$）に対して最適な行動（Wait, Adopt, Override, Match）を指示する。

4. 結果と分析

収益閾値 (γ=0.5)

~23%

収益に必要なハッシュシェア（我々のモデル）

収益閾値 (γ=0.5)

~25%

収益に必要なハッシュシェア（SM1）

遅延下の閾値

>0%

現実的な遅延モデル下では消失

4.1. 低減された収益性閾値

我々の最適戦略は、SM1よりも一貫して低い収益性閾値を生み出す。典型的な伝播係数 ($\gamma=0.5$) の場合、閾値は約25%から約23%に低下する。この2%の差は重要であり、より多くの潜在的な攻撃者を収益可能な領域に引き込む。

4.2. SM1戦略に対する優位性

導出されたポリシーはSM1を厳密に支配する。重要な改善点は、より洗練された「攻撃撤退」である。SM1がしばしば教条的に継続するのではなく、損失を切り詰めるためにプライベートチェーンを放棄する（Adopt）正確なタイミングを知る。この適応的行動は、すべての $\alpha$ と $\gamma$ の値において期待収益を増加させる。

4.3. 通信遅延の影響

ネットワーク伝播遅延を組み込んだモデルでは、収益閾値は実質的に消失する。無視できる程度のハッシュパワー ($\alpha \rightarrow 0$) を持つマイナーでさえ、遅延が彼らが利用できる自然なフォークを作り出すため、時折ブロックを保留する確率的なインセンティブを持つ。これは、ナカモト合意におけるより根本的なインセンティブの不整合を明らかにする。

5. 技術詳細と数式

分析の核心は状態遷移モデルと収益関数である。ハッシュパワー $\alpha$ を持ちポリシー $\pi$ に従う攻撃者の相対的収益 $R$ は以下の通り：

$R(\alpha, \gamma, \pi) = \frac{\text{攻撃者が獲得する期待ブロック数}}{\text{作成される期待総ブロック数}}$

状態はリード $l$ である。遷移確率は $\alpha$ と正直なマイナーがブロックを見つけることに依存する。例えば、状態 $l=1$ から：

攻撃者が次のブロックを見つける：確率 $\alpha$、新状態 $l=2$。
正直なマイナーが次のブロックを見つける：確率 $(1-\alpha)$、結果として同点となる。攻撃者はその後 Match（公開）するか否かを選択でき、これはMDPで分析される複雑なサブゲームにつながる。

最適ポリシー $\pi^*(l)$ は、このMDPに対するベルマン最適性方程式を解くことによって導出される。

6. 実験結果とチャート

主要チャート1：相対的収益 vs. ハッシュパワー (α)
最適ポリシー（我々のアルゴリズムによる）、SM1ポリシー、および正直なマイニングの相対的収益 $R$ を比較する折れ線グラフ。最適ポリシーの曲線は、すべての $\alpha > 0$ においてSM1の曲線を厳密に上回る。曲線は正直なマイニングの線（$R = \alpha$）と異なる点で交差し、最適ポリシーのより低い閾値を視覚的に示している。

主要チャート2：状態遷移図
状態（l=0,1,2,...）と、特定の ($\alpha$, $\gamma$) に対してアルゴリズムによって決定された最適行動（エッジにラベル付け：Wait, Override, Adopt, Match）を示す有向グラフ。この図は、特定の条件下ではリード1の状態からAdoptするなど、SM1にはない直感に反する動きを含む、自明ではない意思決定ロジックを具体的に示している。

7. 分析フレームワーク：ゲーム理論ケーススタディ

シナリオ： マイニングプール「AlphaPool」がネットワークハッシュレートの $\alpha = 0.24$ を制御している。ネットワーク伝播係数は $\gamma=0.6$（AlphaPoolは正直なブロックの60%を即座に認識することを意味する）。

SM1戦略： AlphaPoolは硬直的なルールに従う：リードがある場合はプライベートマイニングを行い、2ブロック先行したときに公開してオーバーライドする。分析によれば、これは $R_{SM1} \approx 0.239$ の収益をもたらし、これはそのハッシュシェア (0.24) よりも少なく、正直なマイニングと比較して収益性がない。

最適ポリシー（我々のアルゴリズムによる）： 計算されたポリシー $\pi^*$ は次のように指示するかもしれない：リード1の状態から、正直なブロックが見つかった場合、待機するのではなく、即座に Match（公開）して同点を作り、次のラウンドで競合する。この微妙な変更が遷移確率を変化させる。結果として得られる収益は $R_{opt} \approx 0.242$ であり、これは0.24よりも大きい。攻撃は収益性を持つようになる。

洞察： このケースは、最適で状態依存的な意思決定が、戦略的なブロック公開を通じてのみ、理論的に収益性のないハッシュシェアを収益性のあるものに変えることができることを示している。

8. 応用展望と将来の方向性

プロトコル設計と対策： 本研究は、提案されたビットコインの改良（例：GHOST、包括的ブロックチェーンプロトコル）を、SM1だけでなく最適なセルフィッシュマイニングに対してストレステストするためのツールを提供する。EyalとSirerが提案した対策の分析は、それが期待されたほど効果的でないことを示し、より堅牢な修正に向けた将来の研究を導く。

ビットコインを超えて： MDPフレームワークは、他のProof-of-Workブロックチェーン（例：Litecoin, Bitcoin Cash）にも適用可能であり、Proof-of-Stake (PoS) システムにおける戦略的行動を研究するために適応できる。そこでは類似の「ブロック保留」または「曖昧発言」攻撃が存在する可能性がある。

複合攻撃： 将来の研究は、セルフィッシュマイニングと二重支払い攻撃の相互作用をモデル化しなければならない。プライベートチェーンを持つセルフィッシュマイナーは、二重支払いを試みるための自然なプラットフォームを持ち、攻撃者の効用を潜在的に増加させ、両方の攻撃に対する障壁を低下させる可能性がある。

分散化とプールの力学： 低減された閾値は中央集権化の圧力を増加させる。大規模なプールはこれらの最適戦略を採用するインセンティブを持ち、小規模なマイナーは安定したリターンのためにそれらに参加するインセンティブを持ち、ビットコインの中核的なセキュリティ前提である分散化を損なうフィードバックループを作り出す。

9. 参考文献

Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer, Berlin, Heidelberg.
Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (ここで使用されたMDPアプローチと類似した高度なアルゴリズムフレームワークの例として引用)。

10. 独自分析と専門家の洞察

核心的洞察

Sapirshteinらは、特定のエクスプロイト（SM1）を超えて、セルフィッシュマイニング戦略の全体空間をモデル化するという、プロトコルストレステストの模範を示した。彼らの根本的な発見は残酷である：ビットコインのインセンティブ構造は、ハッシュパワー25%でただ割れているだけでなく、本質的に漏れやすく、その亀裂はサトシが想像したよりもはるかに表面近くまで走っている。「収益閾値」は硬い壁ではない。それは、現実世界のネットワーク条件下では最適戦略によってほぼゼロまで侵食されうる勾配である。これは、セルフィッシュマイニングを「大規模攻撃者」の問題から、体系的で常に存在するインセンティブの不整合の問題へと再定義する。

論理的流れ

本論文の論理は非の打ち所がなく、破壊的である。1) モデルの一般化： 彼らはSM1を広大な戦略空間における単一の点として正しく識別する。問題をマルコフ決定過程（MDP）として枠組み化することにより（これはAIと制御理論に由来する技術であり、画像変換空間を探索する画期的な研究であるCycleGAN論文で使用されたフレームワークに類似）、この空間を体系的に探索する能力を解放する。2) アルゴリズム的解決： 価値反復アルゴリズムは単なるツールではなく、証明メカニズムである。それは戦略を仮定せず、第一原理から最適なものを導出する。3) 閾値の圧縮： 出力は明確である：最適戦略はSM1を支配し、収益性のためのハードルを下げる。4) 遅延による決定的打撃： ネットワーク遅延を組み込む最終的な一手は、決定的打撃である。非瞬時の世界（すなわち現実）では、プロトコルから時折逸脱する経済的インセンティブは例外的ではなく、普遍的であることを示す。

強みと欠点

強み： 方法論的厳密性は最高水準である。MDPモデルはこの仕事に適したツールであり、以前のヒューリスティックな分析が欠いていた形式的で計算可能な基盤を提供する。ネットワーク遅延の考慮は、理論と実践の間の重要なギャップを埋め、IC3 (Initiative for Cryptocurrencies & Contracts) のような機関からのネットワーク計測研究の観察と一致する。プロトコル修正のための「セキュリティアナライザー」としての本論文の有用性は、主要な実用的貢献である。

欠点と盲点： 分析は深いが、依然として二人ゲーム（攻撃者 vs. 正直な「残り」）である。今日のビットコインを特徴づける動的でマルチプールの均衡を完全には扱っていない。複数の大規模プールがすべて互いに最適な（または学習する）セルフィッシュ戦略を実行するとき、何が起こるか？このモデルはまた、攻撃撤退（自身のブロックをオーファン化する）のコストを単純化しており、プールにとって非線形の心理的または評判的コストがあるかもしれない。さらに、後の研究（例：Gervais et al., 2016）で指摘されているように、分析は静的なαを仮定している。現実には、攻撃されていると認識されたチェーンからハッシュパワーが離脱し、攻撃者のシェアを動的に変化させる可能性がある。

実践的洞察

プロトコル開発者向け： SM1用のパッチ適用をやめること。あなたは最適戦略のために設計しなければならない。本論文はそのベンチマークを提供する。提案される修正（例：GHOSTのような新しいフォーク選択ルール）は、このMDPフレームワークに対して評価されなければならない。目標は、正直な戦略を任意のα > 0に対してナッシュ均衡にすることであり、現在保持されているよりもはるかに高い基準である。

マイナーとプール運営者向け： 計算は変わった。25%の「安全」ガイドラインは時代遅れである。特に接続性の良い（高いγ）20%程度のハッシュパワーを持つプールでさえ、戦略的保留の経済的誘惑を考慮しなければならない。最適ポリシーを実行しないことの倫理的およびゲーム理論的含意は、取締役会での議論の対象となる。

投資家と規制当局向け： ビットコインのセキュリティ予算（マイナー報酬）が、以前に認識されていたよりも洗練された形の経済的攻撃にさらされていることを理解すること。マイニングの中央集権化のリスクは線形ではない。本研究によって明らかにされた戦略的転換点の影響を受ける。プールの行動とネットワーク伝播時間の監視は、重要なセキュリティ指標となる。

結論として、本論文は単なる先行研究に対する学術的改善ではない。それはパラダイムシフトである。議論を「大きなプールは不正ができるか？」から、「不完全なネットワークにおける誰もが最適な戦略は、どのようにプロトコルのインセンティブを絶えず圧迫するか？」へと移行させる。残念ながら、その答えは「著しく」である。現在の形のナカモト合意が真にインセンティブ互換にできることを実証するという証明責任は、今や防御側にある。