1. 서론

본 논문은 Eyal과 Sirer(2014)가 처음 지적한 비트코인의 인센티브 호환성에 대한 치명적 결함을 다룹니다. 그들의 SM1 전략이 수익성 있는 이기적 채굴을 보여주었지만, 본 연구는 그것이 최적이 아님을 증명합니다. 우리는 일반화된 모델과 ε-최적 이기적 채굴 정책을 찾는 알고리즘을 제시하며, 더 엄격한 수익성 경계를 설정하고 기존에 알려진 것보다 낮은 계산 능력 임계값을 성공적인 공격에 대해 밝혀냅니다.

2. 배경 및 관련 연구

이기적 채굴을 이해하려면 비트코인의 합의 메커니즘과 기존 공격 모델에 대한 기초 지식이 필요합니다.

2.1. 비트코인 채굴 기본

비트코인은 작업 증명(Proof-of-Work, PoW) 합의에 의존하며, 채굴자들은 암호 퍼즐을 풀기 위해 경쟁합니다. 퍼즐을 가장 먼저 푸는 자는 새로운 블록을 브로드캐스트하여 블록 보상과 거래 수수료를 청구합니다. 프로토콜은 즉각적인 블록 공개를 요구합니다. 가장 긴 체인 규칙이 포크를 해결합니다.

2.2. SM1 전략 (Eyal & Sirer)

Eyal과 Sirer의 SM1 전략은 채굴자가 새로 채굴한 블록을 숨기고 비공개 체인을 생성하는 것을 포함합니다. 공격자는 정직한 블록을 고아 블록으로 만들기 위해 전략적으로 블록을 공개하여 불균형적인 보상 몫을 차지합니다. 그들의 분석에 따르면, 잘 연결된 공격자의 경우 네트워크 해시율의 약 25%가 수익성 임계값이라고 제안했습니다.

3. 모델 및 방법론

우리는 이기적 채굴 모델을 마르코프 결정 과정(Markov Decision Process, MDP) 프레임워크로 확장하여 전략 공간을 보다 포괄적으로 탐색할 수 있도록 합니다.

3.1. 확장된 이기적 채굴 모델

시스템 상태는 공격자의 비공개 체인이 공개 체인보다 얼마나 앞서 있는지(리드)로 정의됩니다. 행동에는 다음이 포함됩니다: 포기(Adopt) (비공개 체인 버림), 재정복(Override) (공개 체인을 추월하기 위해 공개), 대기(Wait) (비공개 채굴 계속), 동등화(Match) (동점을 만들기 위해 정확히 공개). 이 모델은 공격자의 상대적 계산 능력 $\alpha$와 네트워크 전파 계수 $\gamma$를 포함합니다.

3.2. ε-최적 정책 탐색 알고리즘

우리는 이 문제를 할인된 무한 수평선 MDP로 공식화합니다. 가치 반복 또는 정책 반복 알고리즘을 사용하여, 공격자의 상대적 수익 $R(\alpha, \gamma, \pi)$를 최대화하는 ε-최적 정책 $\pi^*$를 계산합니다. 알고리즘의 출력은 모든 가능한 상태(리드 $l$)에 대한 최적의 행동(대기, 포기, 재정복, 동등화)을 지시합니다.

4. 결과 및 분석

수익 임계값 (γ=0.5)

~23%

수익을 위한 필요 해시 점유율 (우리 모델)

수익 임계값 (γ=0.5)

~25%

수익을 위한 필요 해시 점유율 (SM1)

지연 고려 시 임계값

>0%

현실적 지연 모델 하에서 사라짐

4.1. 낮아진 수익성 임계값

우리의 최적 전략은 SM1보다 지속적으로 낮은 수익성 임계값을 산출합니다. 일반적인 전파 계수($\gamma=0.5$)의 경우, 임계값은 약 25%에서 약 23%로 떨어집니다. 이 2% 차이는 중요하며, 더 많은 잠재적 공격자를 수익 가능 영역으로 끌어들입니다.

4.2. SM1 대비 우월성

도출된 정책들은 SM1을 엄격하게 지배합니다. 핵심 개선점은 더 정교한 "공격 철수"입니다. 즉, SM1이 종종 그렇듯이 교조적으로 고집하기보다는 손실을 줄이기 위해 비공개 체인을 포기할(Adopt) 정확한 시기를 알고 있습니다. 이 적응적 행동은 모든 $\alpha$와 $\gamma$ 값에 걸쳐 기대 수익을 증가시킵니다.

4.3. 통신 지연의 영향

네트워크 전파 지연을 포함하는 모델 하에서, 수익 임계값은 사실상 사라집니다. 지연이 그들이 이용할 수 있는 자연스러운 포크를 생성하기 때문에, 무시할 수 있는 해시 파워($\alpha \rightarrow 0$)를 가진 채굴자들조차도 가끔 블록을 숨길 확률적 인센티브를 갖습니다. 이는 나카모토 합의에서 보다 근본적인 인센티브 불일치를 드러냅니다.

5. 기술적 세부사항 및 공식

분석의 핵심은 상태 전이 모델과 수익 함수입니다. 정책 $\pi$를 따르는 해시 파워 $\alpha$를 가진 공격자의 상대적 수익 $R$은 다음과 같습니다:

$R(\alpha, \gamma, \pi) = \frac{\text{공격자가 획득한 기대 블록 수}}{\text{생성된 총 기대 블록 수}}$

상태는 리드 $l$입니다. 전이 확률은 $\alpha$와 정직한 채굴자들이 블록을 찾는 것에 의존합니다. 예를 들어, 상태 $l=1$에서:

  • 공격자가 다음 블록을 찾음: 확률 $\alpha$, 새로운 상태 $l=2$.
  • 정직한 채굴자들이 다음 블록을 찾음: 확률 $(1-\alpha)$, 동점 발생. 공격자는 그 후 동등화(Match) (공개)하거나 하지 않을 수 있으며, 이는 MDP에서 분석된 복잡한 부분 게임으로 이어집니다.
최적 정책 $\pi^*(l)$은 이 MDP에 대한 벨만 최적 방정식을 풀어 도출됩니다.

6. 실험 결과 및 차트

주요 차트 1: 상대적 수익 대 해시 파워 (α)
최적 정책(우리 알고리즘), SM1 정책, 정직한 채굴의 상대적 수익 $R$을 비교하는 선형 차트입니다. 최적 정책 곡선은 모든 $\alpha > 0$에 대해 SM1 곡선보다 엄격하게 위에 위치합니다. 곡선들은 정직한 채굴 선($R = \alpha$)과 다른 지점에서 교차하며, 최적 정책의 더 낮은 임계값을 시각적으로 보여줍니다.

주요 차트 2: 상태 전이 다이어그램
특정 ($\alpha$, $\gamma$)에 대해 알고리즘이 결정한 상태들(l=0,1,2,...)과 최적 행동들(가장자리에 표시: 대기, 재정복, 포기, 동등화)을 보여주는 방향성 그래프입니다. 이 다이어그램은 특정 조건 하에서 리드 1 상태에서 포기하는 것과 같은, SM1에는 없는 직관에 반하는 움직임을 포함한 사소하지 않은 결정 논리를 구체적으로 보여줍니다.

7. 분석 프레임워크: 게임 이론 사례

시나리오: "알파풀"이라는 채굴 풀이 네트워크 해시율의 $\alpha = 0.24$를 통제합니다. 네트워크 전파 계수는 $\gamma=0.6$입니다(알파풀이 정직한 블록의 60%를 즉시 학습함을 의미).

SM1 전략: 알파풀은 경직된 규칙을 따릅니다: 리드가 있을 때 비공개 채굴, 2블록 앞설 때 재정복을 위해 공개. 분석에 따르면 이는 $R_{SM1} \approx 0.239$의 수익을 내며, 이는 그들의 해시 점유율(0.24)보다 낮아서 정직한 채굴 대비 수익성이 없습니다.

최적 정책 (우리 알고리즘): 계산된 정책 $\pi^*$는 다음과 같이 지시할 수 있습니다: 리드 1 상태에서, 정직한 블록이 발견되면, 기다리기보다는 즉시 동등화(Match) (공개)하여 동점을 만들고 다음 라운드에서 경쟁합니다. 이 미묘한 변화가 전이 확률을 바꿉니다. 결과 수익은 $R_{opt} \approx 0.242$이며, 이는 0.24보다 큽니다. 공격이 수익성이 생깁니다.

통찰: 이 사례는 최적의 상태 의존적 의사 결정이 어떻게 이론적으로 수익성이 없는 해시 점유율을 순전히 전략적 블록 공개를 통해 수익성 있는 것으로 바꿀 수 있는지 보여줍니다.

8. 적용 전망 및 향후 방향

프로토콜 설계 및 대응책: 이 연구는 제안된 비트코인 개선안(예: GHOST, Inclusive Blockchain 프로토콜)을 SM1뿐만 아니라 최적 이기적 채굴에 대해 스트레스 테스트할 수 있는 도구를 제공합니다. Eyal과 Sirer가 제안한 대응책에 대한 분석은 기대보다 효과가 낮음을 보여주며, 보다 강력한 수정을 향한 미래 연구를 안내합니다.

비트코인을 넘어서: MDP 프레임워크는 다른 작업 증명 블록체인(예: 라이트코인, 비트코인 캐시)에도 적용 가능하며, 지분 증명(Proof-of-Stake, PoS) 시스템에서 유사한 "블록 보류" 또는 "이중 발언" 공격이 존재할 수 있는 전략적 행동 연구에 적용될 수 있습니다.

복합 공격: 향후 연구는 이기적 채굴과 이중 지불 공격 간의 상호작용을 모델링해야 합니다. 비공개 체인을 가진 이기적 채굴자는 이중 지불 시도를 위한 자연스러운 플랫폼을 갖게 되어, 잠재적으로 공격자의 효용을 증가시키고 두 공격 모두에 대한 진입 장벽을 낮출 수 있습니다.

분산화 및 풀 역학: 낮아진 임계값은 중앙화 압력을 증가시킵니다. 대형 풀들은 이러한 최적 전략을 사용하도록 인센티브를 받고, 소규모 채굴자들은 안정적인 수익을 위해 그들에 합류하도록 인센티브를 받아, 비트코인의 핵심 보안 전제인 분산화를 훼손하는 피드백 루프를 생성합니다.

9. 참고문헌

  1. Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
  2. Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer, Berlin, Heidelberg.
  3. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
  4. Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
  5. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (본 논문에서 사용된 MDP 접근법과 유사한 고급 알고리즘 프레임워크의 예시로 인용됨).

10. 독창적 분석 및 전문가 통찰

핵심 통찰

Sapirshtein 등은 프로토콜 스트레스 테스트에 관한 걸작을 선보이며, 특정 악용법(SM1)을 넘어서 이기적 채굴 전략의 전체 공간을 모델링했습니다. 그들의 근본적 발견은 잔혹합니다: 비트코인의 인센티브 구조는 단지 25% 해시 파워에서 금이 간 것이 아니라, 본질적으로 새고 있으며, 그 균열은 사토시가 상상했던 것보다 훨씬 표면 가까이까지 뻗어 있습니다. "수익 임계값"은 단단한 벽이 아닙니다; 현실 세계 네트워크 조건 하에서 최적 전략이 거의 0까지 침식시킬 수 있는 경사면입니다. 이는 이기적 채굴을 "대형 공격자" 문제에서 체계적이고 항상 존재하는 인센티브 불일치 문제로 재구성합니다.

논리적 흐름

논문의 논리는 흠잡을 데 없고 파괴적입니다. 1) 모델 일반화: 그들은 SM1을 방대한 전략 공간의 단일 지점으로 올바르게 식별합니다. 문제를 마르코프 결정 과정(MDP)으로 구성함으로써—이는 이미지 변환 공간 탐색을 위한 CycleGAN 논문과 같은 획기적인 연구에서 사용된 프레임워크와 유사하게, AI 및 제어 이론에서 전통을 가진 기법—이 공간을 체계적으로 탐색할 수 있는 능력을 해제합니다. 2) 알고리즘적 해법: 가치 반복 알고리즘은 단순한 도구가 아닙니다; 그것은 증명 메커니즘입니다. 그것은 전략을 가정하지 않고, 첫 원리로부터 최적의 것을 도출합니다. 3) 임계값 압축: 결과는 명확합니다: 최적 전략이 SM1을 지배하며, 수익성에 대한 문턱을 낮춥니다. 4) 지연의 결정타: 네트워크 지연을 포함하는 마지막 수는 결정타입니다. 그것은 비순간적인 세계(즉, 현실)에서 프로토콜에서 가끔 벗어날 경제적 인센티브가 예외적이지 않고 보편적임을 보여줍니다.

강점과 결점

강점: 방법론적 엄격함은 최상급입니다. MDP 모델은 이 작업에 적합한 도구로, 이전의 경험적 분석이 부족했던 형식적이고 계산 가능한 기초를 제공합니다. 네트워크 지연에 대한 고려는 이론과 실천 사이의 중요한 간극을 메우며, IC3 (Initiative for Cryptocurrencies & Contracts)와 같은 기관의 네트워크 측정 연구에서의 관찰과 일치합니다. 프로토콜 수정을 위한 "보안 분석기"로서의 논문의 유용성은 주요 실용적 기여입니다.

결점 및 맹점: 분석은 깊지만 여전히 2인용 게임(공격자 대 정직한 "나머지")입니다. 그것은 오늘날 비트코인을 특징짓는 역동적이고 다중 풀의 균형을 완전히 다루지 못합니다. 여러 대형 풀이 모두 서로에 대해 최적의(또는 학습하는) 이기적 전략을 실행할 때 무슨 일이 일어날까요? 또한 모델은 공격 철수(자신의 블록을 고아 블록으로 만드는) 비용을 단순화하는데, 이는 풀에 대해 비선형적인 심리적 또는 평판 비용을 가질 수 있습니다. 더 나아가, 후속 연구(예: Gervais 등, 2016)에서 지적했듯이, 분석은 정적 α를 가정합니다; 현실에서는 해시 파워가 공격받는 것으로 인식된 체인에서 이탈하여 공격자의 점유율을 역동적으로 변경할 수 있습니다.

실행 가능한 통찰

프로토콜 개발자를 위해: SM1을 위한 패치를 중단하십시오. 최적 전략을 위해 설계해야 합니다. 이 논문이 기준을 제공합니다. 제안된 모든 수정(예: GHOST와 같은 새로운 포크 선택 규칙)은 이 MDP 프레임워크에 대해 평가되어야 합니다. 목표는 정직한 전략이 모든 α > 0에 대해 내시 균형이 되도록 만드는 것이어야 하며, 이는 현재 유지되는 것보다 훨씬 높은 기준입니다.

채굴자 및 풀 운영자를 위해: 계산법이 바뀌었습니다. 25% "안전" 지침은 구식입니다. 특히 연결성이 좋은(높은 γ) 풀들은 최소 20%의 해시 파워를 가진 풀들도 이제 전략적 보류의 경제적 유혹을 고려해야 합니다. 최적 정책을 실행하지 않는 것의 윤리적 및 게임 이론적 함의는 이사회 논의 주제가 됩니다.

투자자 및 규제 기관을 위해: 비트코인의 보안 예산(채굴자 보상)이 이전에 인정된 것보다 더 정교한 형태의 경제적 공격을 받고 있음을 이해하십시오. 채굴 중앙화의 위험은 선형적이지 않습니다; 이 연구가 밝혀낸 전략적 티핑 포인트의 영향을 받습니다. 풀 행동과 네트워크 전파 시간 모니터링은 중요한 보안 지표가 됩니다.

결론적으로, 이 논문은 단지 기존 연구에 대한 학문적 개선이 아닙니다; 그것은 패러다임 전환입니다. 그것은 "대형 풀이 속일 수 있는가?"에서 "불완전한 네트워크에서 모든 사람의 최적 전략이 어떻게 프로토콜의 인센티브를 지속적으로 긴장시키는가?"로 논의를 이동시킵니다. 불행히도 그 대답은 "상당히 그렇다"입니다. 이제 방어자들에게 나카모토 합의가 현재 형태로 진정으로 인센티브 호환적으로 만들 수 있음을 입증할 책임이 있습니다.