Оптимальные стратегии эгоистичного майнинга в Bitcoin: анализ и последствия

1. Введение

В данной работе рассматривается критический недостаток совместимости стимулов в Bitcoin, впервые отмеченный Эялем и Сирером (2014). Хотя их стратегия SM1 продемонстрировала прибыльность эгоистичного майнинга, данная работа доказывает, что она не является оптимальной. Мы представляем обобщённую модель и алгоритм для поиска ε-оптимальных политик эгоистичного майнинга, устанавливая более строгие границы прибыльности и выявляя более низкий порог вычислительной мощности для успешных атак, чем считалось ранее.

2. Предпосылки и связанные работы

Понимание эгоистичного майнинга требует знания механизма консенсуса Bitcoin и предыдущих моделей атак.

2.1. Основы майнинга Bitcoin

Bitcoin полагается на консенсус Proof-of-Work (PoW), где майнеры соревнуются в решении криптографических головоломок. Первый, кто решит головоломку, публикует новый блок, получая награду за блок и комиссии за транзакции. Протокол требует немедленной публикации блока. Правило самой длинной цепи разрешает форки.

2.2. Стратегия SM1 (Eyal & Sirer)

Стратегия SM1 Эяля и Сирера заключается в том, что майнер утаивает вновь добытый блок, создавая приватную цепочку. Атакующий раскрывает блоки стратегически, чтобы сделать честные блоки сиротами, присваивая непропорционально большую долю наград. Их анализ предполагал порог прибыльности около ~25% от хеш-рейта сети для хорошо связанного атакующего.

3. Модель и методология

Мы расширяем модель эгоистичного майнинга до фреймворка Марковского процесса принятия решений (MDP), что позволяет провести более полный поиск в пространстве стратегий.

3.1. Расширенная модель эгоистичного майнинга

Состояние системы определяется отрывом приватной цепочки атакующего от публичной. Действия включают: Adopt (отказ от приватной цепочки), Override (публикация для обгона публичной цепочки), Wait (продолжение майнинга приватно) и Match (публикация ровно столько, чтобы сравнять счёт). Модель учитывает относительную вычислительную мощность атакующего $\alpha$ и фактор распространения в сети $\gamma$.

3.2. Алгоритм для ε-оптимальных политик

Мы формулируем задачу как MDP с бесконечным горизонтом и дисконтированием. Используя алгоритмы итерации по стоимости или итерации по политике, мы вычисляем ε-оптимальную политику $\pi^*$, которая максимизирует относительный доход атакующего $R(\alpha, \gamma, \pi)$. Результат алгоритма определяет оптимальное действие (Wait, Adopt, Override, Match) для каждого возможного состояния (отрыв $l$).

4. Результаты и анализ

Порог прибыли (γ=0.5)

~23%

Доля хеш-рейта для прибыли (Наша модель)

Порог прибыли (γ=0.5)

~25%

Доля хеш-рейта для прибыли (SM1)

Порог с задержками

>0%

Исчезает в реалистичных моделях задержек

4.1. Более низкие пороги прибыльности

Наши оптимальные стратегии последовательно дают более низкий порог прибыльности, чем SM1. Для типичного фактора распространения ($\gamma=0.5$) порог снижается примерно с 25% до около 23%. Эта разница в 2% значительна, вовлекая больше потенциальных атакующих в прибыльную зону.

4.2. Преимущество над SM1

Полученные политики строго доминируют над SM1. Ключевое улучшение — более сложный "отказ от атаки" — точное знание, когда следует отказаться от приватной цепочки (Adopt), чтобы сократить потери, вместо догматического упорства, как часто делает SM1. Такое адаптивное поведение увеличивает ожидаемый доход для всех значений $\alpha$ и $\gamma$.

4.3. Влияние задержек связи

В модели, учитывающей задержки распространения в сети, порог прибыльности фактически исчезает. Даже майнеры с незначительной хеш-мощностью ($\alpha \rightarrow 0$) имеют вероятностный стимул иногда утаивать блоки, поскольку задержки создают естественные форки, которыми они могут воспользоваться. Это раскрывает более фундаментальное несоответствие стимулов в консенсусе Накамото.

5. Технические детали и формулы

Основой анализа является модель переходов состояний и функция дохода. Относительный доход $R$ атакующего с хеш-мощностью $\alpha$, следующего политике $\pi$, равен:

$R(\alpha, \gamma, \pi) = \frac{\text{Ожидаемое количество блоков, заработанных атакующим}}{\text{Ожидаемое общее количество созданных блоков}}$

Состояние — это отрыв $l$. Вероятности переходов зависят от $\alpha$ и нахождения блоков честными майнерами. Например, из состояния $l=1$:

Атакующий находит следующий блок: Вероятность $\alpha$, новое состояние $l=2$.
Честные майнеры находят следующий блок: Вероятность $(1-\alpha)$, что приводит к ничьей. Затем атакующий может Match (опубликовать) или нет, что ведёт к сложной под-игре, анализируемой в MDP.

Оптимальная политика $\pi^*(l)$ выводится путём решения уравнения оптимальности Беллмана для этого MDP.

6. Экспериментальные результаты и графики

Ключевой график 1: Относительный доход vs. Хеш-мощность (α)
Линейный график, сравнивающий относительный доход $R$ оптимальной политики (из нашего алгоритма) с политикой SM1 и честным майнингом. Кривая оптимальной политики строго лежит выше кривой SM1 для всех $\alpha > 0$. Кривые пересекают линию честного майнинга (где $R = \alpha$) в разных точках, наглядно демонстрируя более низкий порог оптимальной политики.

Ключевой график 2: Диаграмма переходов состояний
Ориентированный граф, показывающий состояния (l=0,1,2,...) и оптимальные действия (подписаны на рёбрах: Wait, Override, Adopt, Match), определённые алгоритмом для конкретных ($\alpha$, $\gamma$). Эта диаграмма конкретно показывает нетривиальную логику принятия решений, например, отказ от атаки (Adopt) при отрыве в 1 блок при определённых условиях — неинтуитивный ход, отсутствующий в SM1.

7. Фреймворк анализа: пример из теории игр

Сценарий: Майнинг-пул "AlphaPool" контролирует $\alpha = 0.24$ от общего хеш-рейта сети. Фактор распространения сети $\gamma=0.6$ (то есть AlphaPool узнаёт о 60% честных блоков немедленно).

Стратегия SM1: AlphaPool следовал бы жёсткому правилу: майнить приватно при отрыве, публиковать для обгона при отрыве на 2 блока. Анализ показывает, что это даёт $R_{SM1} \approx 0.239$, что меньше его доли хеш-рейта (0.24), делая атаку убыточной по сравнению с честным майнингом.

Оптимальная политика (из нашего алгоритма): Вычисленная политика $\pi^*$ может предписывать: При отрыве в 1 блок, если найден честный блок, немедленно Match (опубликовать), чтобы создать ничью и конкурировать в следующем раунде, вместо ожидания. Это тонкое изменение меняет вероятности переходов. Получающийся доход составляет $R_{opt} \approx 0.242$, что больше 0.24. Атака становится прибыльной.

Инсайт: Этот пример демонстрирует, как оптимальное, зависящее от состояния принятие решений может превратить теоретически убыточную долю хеш-рейта в прибыльную исключительно за счёт стратегической публикации блоков.

8. Перспективы применения и направления будущих исследований

Дизайн протокола и контрмеры: Данная работа предоставляет инструмент для стресс-тестирования предлагаемых улучшений Bitcoin (например, GHOST, Inclusive Blockchain protocols) против оптимального эгоистичного майнинга, а не только SM1. Анализ контрмеры, предложенной Эялем и Сирером, показывает, что она менее эффективна, чем надеялись, направляя будущие исследования в сторону более надёжных исправлений.

За пределами Bitcoin: Фреймворк MDP применим к другим блокчейнам на Proof-of-Work (например, Litecoin, Bitcoin Cash) и может быть адаптирован для изучения стратегического поведения в системах Proof-of-Stake (PoS), где могут существовать аналогичные атаки "утаивания блоков" или "эквивокации".

Комбинированные атаки: Будущие работы должны моделировать взаимодействие между эгоистичным майнингом и атаками двойной траты. Эгоистичный майнер с приватной цепочкой имеет естественную платформу для попыток двойной траты, что потенциально увеличивает полезность атакующего и снижает барьер для обеих атак.

Децентрализация и динамика пулов: Более низкий порог увеличивает давление централизации. Крупные пулы получают стимул использовать эти оптимальные стратегии, а мелкие майнеры получают стимул присоединяться к ним для стабильной доходности, создавая петлю обратной связи, которая подрывает децентрализацию — ключевую предпосылку безопасности Bitcoin.

9. Ссылки

Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer, Berlin, Heidelberg.
Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (Цитируется как пример передовых алгоритмических фреймворков, аналогичных подходу MDP, использованному здесь).

10. Оригинальный анализ и экспертное мнение

Ключевой инсайт

Сапирштейн и др. провели мастер-класс по стресс-тестированию протоколов, выйдя за рамки конкретной уязвимости (SM1) и смоделировав всё пространство стратегий эгоистичного майнинга. Их фундаментальное открытие сурово: структура стимулов Bitcoin не просто треснула при 25% хеш-мощности — она по своей сути негерметична, и трещины проходят гораздо ближе к поверхности, чем представлял себе Сатоши. "Порог прибыльности" — это не жёсткая стена; это градиент, который оптимальная стратегия может размыть почти до нуля в реальных сетевых условиях. Это переосмысливает эгоистичный майнинг как проблему не "крупного атакующего", а системного, постоянно присутствующего несоответствия стимулов.

Логическая последовательность

Логика статьи безупречна и разрушительна. 1) Обобщение модели: Они верно идентифицируют SM1 как единственную точку в обширном пространстве стратегий. Сформулировав задачу как Марковский процесс принятия решений (MDP) — метод с солидной репутацией в ИИ и теории управления, аналогичный фреймворкам, используемым в новаторских работах, таких как статья о CycleGAN для исследования пространств трансляции изображений — они открывают возможность систематического поиска в этом пространстве. 2) Алгоритмическое решение: Алгоритм итерации по стоимости — не просто инструмент; это механизм доказательства. Он не предполагает стратегию; он выводит оптимальную из первых принципов. 3) Сжатие порога: Результат ясен: оптимальные стратегии доминируют над SM1, понижая планку прибыльности. 4) Смертельный удар задержками: Финальный ход, включение сетевых задержек, — это coup de grâce. Он показывает, что в не мгновенном мире (то есть в реальности) экономический стимул иногда отклоняться от протокола является универсальным, а не исключительным.

Сильные стороны и недостатки

Сильные стороны: Методологическая строгость высшего класса. Модель MDP — это правильный инструмент для задачи, обеспечивающий формальную, вычислимую основу, которой не хватало предыдущим эвристическим анализам. Учёт сетевых задержек закрывает критический разрыв между теорией и практикой, согласуясь с наблюдениями из исследований измерения сети, таких как исследования институтов вроде IC3 (Initiative for Cryptocurrencies & Contracts). Практическая полезность статьи как "анализатора безопасности" для модификаций протокола является крупным вкладом.

Недостатки и слепые пятна: Анализ, хотя и глубокий, всё ещё представляет собой игру двух игроков (атакующий vs. честные "остальные"). Он не полностью охватывает динамическое, многопуловое равновесие, характеризующее Bitcoin сегодня. Что происходит, когда несколько крупных пулов одновременно применяют оптимальные (или обучающиеся) эгоистичные стратегии друг против друга? Модель также упрощает стоимость отказа от атаки (сиротства собственных блоков), которая может иметь нелинейные психологические или репутационные издержки для пулов. Более того, как отмечается в последующих исследованиях (например, Gervais et al., 2016), анализ предполагает статичный α; в реальности хеш-мощность может покидать цепочку, воспринимаемую как атакованную, динамически изменяя долю атакующего.

Практические выводы

Для разработчиков протоколов: Прекратите латать под SM1. Вы должны проектировать под оптимальную стратегию. Данная статья предоставляет эталон. Любое предлагаемое исправление (например, новые правила выбора форка, такие как GHOST) должно оцениваться с помощью этого фреймворка MDP. Цель должна состоять в том, чтобы сделать честную стратегию равновесием Нэша для любого α > 0, что является гораздо более высокой планкой, чем текущая.

Для майнеров и операторов пулов: Расчёт изменился. Руководство по "безопасности" в 25% устарело. Пулам с долей хеш-мощности всего в 20%, особенно с хорошей связностью (высокий γ), теперь необходимо учитывать экономическое искушение стратегического утаивания. Этические и теоретико-игровые последствия неприменения оптимальной политики становятся темой для обсуждения в совете директоров.

Для инвесторов и регуляторов: Поймите, что бюджет безопасности Bitcoin (вознаграждения майнеров) подвержен более изощрённой форме экономической атаки, чем признавалось ранее. Риск централизации майнинга не линейный; он подвержен стратегическим точкам перелома, раскрытым этим исследованием. Мониторинг поведения пулов и времени распространения в сети становится критическим показателем безопасности.

В заключение, эта статья — не просто академическое улучшение предыдущих работ; это смена парадигмы. Она смещает обсуждение с вопроса "Может ли большой пул жульничать?" на вопрос "Как оптимальная стратегия каждого, в неидеальной сети, постоянно напрягает стимулы протокола?" Ответ, к сожалению, — "значительно". Бремя доказательства теперь лежит на защитниках, чтобы продемонстрировать, что консенсус Накамото в его нынешней форме может быть сделан по-настоящему совместимым со стимулами.