1. مقدمه

این مقاله به یک نقص حیاتی در سازگاری انگیزشی بیت‌کوین می‌پردازد که نخستین بار توسط ایال و سیرر (۲۰۱۴) برجسته شد. در حالی که استراتژی SM1 آن‌ها استخراج خودخواهانه سودآور را نشان داد، این کار اثبات می‌کند که این استراتژی بهینه نیست. ما یک مدل تعمیم‌یافته و یک الگوریتم برای یافتن سیاست‌های ε-بهینه استخراج خودخواهانه ارائه می‌دهیم، محدودیت‌های تنگ‌تری بر سودآوری تعیین می‌کنیم و آستانه توان محاسباتی پایین‌تری برای حملات موفق نسبت به آنچه قبلاً شناخته شده بود، آشکار می‌سازیم.

2. پیشینه و کارهای مرتبط

درک استخراج خودخواهانه مستلزم آشنایی با مکانیزم اجماع بیت‌کوین و مدل‌های حمله پیشین است.

2.1. مبانی استخراج بیت‌کوین

بیت‌کوین بر اجماع اثبات کار (PoW) متکی است که در آن ماینرها برای حل معماهای رمزنگاری رقابت می‌کنند. اولین کسی که معما را حل کند، یک بلوک جدید را منتشر می‌کند و پاداش بلوک و کارمزد تراکنش‌ها را دریافت می‌کند. پروتکل انتشار فوری بلوک را الزامی می‌کند. قاعده زنجیره طولانی‌تر، انشعاب‌ها را حل می‌کند.

2.2. استراتژی SM1 (ایال و سیرر)

استراتژی SM1 ایال و سیرر شامل پنهان‌سازی یک بلوک تازه استخراج‌شده توسط یک ماینر و ایجاد یک زنجیره خصوصی است. مهاجم بلوک‌ها را به‌صورت استراتژیک منتشر می‌کند تا بلوک‌های صادقانه را یتیم کند و سهم نامتناسبی از پاداش‌ها را دریافت نماید. تحلیل آن‌ها آستانه سودآوری حدود ۲۵٪ از نرخ هش شبکه را برای یک مهاجم با اتصال خوب پیشنهاد کرد.

3. مدل و روش‌شناسی

ما مدل استخراج خودخواهانه را به چارچوب فرآیند تصمیم‌گیری مارکوف (MDP) گسترش می‌دهیم که امکان جستجوی جامع‌تری از فضای استراتژی را فراهم می‌کند.

3.1. مدل گسترش‌یافته استخراج خودخواهانه

وضعیت سیستم با پیشروی زنجیره خصوصی مهاجم نسبت به زنجیره عمومی تعریف می‌شود. اقدامات شامل موارد زیر است: اتخاذ (رها کردن زنجیره خصوصی)، جایگزینی (انتشار برای پیشی گرفتن از زنجیره عمومی)، انتظار (ادامه استخراج به‌صورت خصوصی) و هم‌ترازی (انتشار دقیقاً به اندازه ایجاد تساوی). مدل شامل قدرت محاسباتی نسبی مهاجم $\alpha$ و عامل انتشار شبکه $\gamma$ است.

3.2. الگوریتم سیاست‌های ε-بهینه

ما مسئله را به‌عنوان یک MDP با افق نامتناهی تنزیل‌شده فرموله می‌کنیم. با استفاده از الگوریتم‌های تکرار ارزش یا تکرار سیاست، یک سیاست ε-بهینه $\pi^*$ را محاسبه می‌کنیم که درآمد نسبی مهاجم $R(\alpha, \gamma, \pi)$ را بیشینه می‌کند. خروجی الگوریتم، عمل بهینه (انتظار، اتخاذ، جایگزینی، هم‌ترازی) را برای هر وضعیت ممکن (پیشروی $l$) دیکته می‌کند.

4. نتایج و تحلیل

آستانه سود (γ=0.5)

~۲۳٪

سهم هش مورد نیاز برای سود (مدل ما)

آستانه سود (γ=0.5)

~۲۵٪

سهم هش مورد نیاز برای سود (SM1)

آستانه با تأخیرها

>۰٪

تحت مدل‌های تأخیر واقع‌بینانه ناپدید می‌شود

4.1. آستانه‌های سودآوری پایین‌تر

استراتژی‌های بهینه ما به‌طور مداوم آستانه سودآوری پایین‌تری نسبت به SM1 ارائه می‌دهند. برای یک عامل انتشار معمولی ($\gamma=0.5$)، آستانه از حدود ۲۵٪ به حدود ۲۳٪ کاهش می‌یابد. این تفاوت ۲٪ قابل توجه است و مهاجمان بالقوه بیشتری را به منطقه سودآور وارد می‌کند.

4.2. برتری نسبت به SM1

سیاست‌های استخراج شده به‌طور قطعی بر SM1 برتری دارند. بهبود کلیدی، «خروج از حمله» پیچیده‌تر است—دانستن دقیق زمان رها کردن زنجیره خصوصی (اتخاذ) برای کاهش زیان‌ها، به جای پافشاری جزمی همان‌طور که SM1 اغلب انجام می‌دهد. این رفتار سازگار، درآمد مورد انتظار را در تمام مقادیر $\alpha$ و $\gamma$ افزایش می‌دهد.

4.3. تأثیر تأخیرهای ارتباطی

تحت مدلی که تأخیرهای انتشار شبکه را در بر می‌گیرد، آستانه سود به‌طور مؤثر ناپدید می‌شود. حتی ماینرهایی با قدرت هش ناچیز ($\alpha \rightarrow 0$) نیز انگیزه احتمالی برای پنهان‌سازی گاه‌به‌گاه بلوک‌ها دارند، زیرا تأخیرها انشعاب‌های طبیعی‌ای ایجاد می‌کنند که می‌توانند از آن سوءاستفاده کنند. این امر یک ناهماهنگی انگیزشی بنیادی‌تر را در اجماع ناکاموتو آشکار می‌سازد.

5. جزئیات فنی و فرمول‌ها

هسته تحلیل، مدل انتقال وضعیت و تابع درآمد است. درآمد نسبی $R$ یک مهاجم با قدرت هش $\alpha$ که سیاست $\pi$ را دنبال می‌کند، به این صورت است:

$R(\alpha, \gamma, \pi) = \frac{\text{بلوک‌های کسب‌شده مورد انتظار توسط مهاجم}}{\text{کل بلوک‌های ایجادشده مورد انتظار}}$

وضعیت، پیشروی $l$ است. احتمالات انتقال به $\alpha$ و یافتن بلوک توسط ماینرهای صادق بستگی دارد. برای مثال، از وضعیت $l=1$:

  • مهاجم بلوک بعدی را پیدا می‌کند: احتمال $\alpha$، وضعیت جدید $l=2$.
  • ماینرهای صادق بلوک بعدی را پیدا می‌کنند: احتمال $(1-\alpha)$، منجر به تساوی می‌شود. سپس مهاجم می‌تواند هم‌ترازی کند (انتشار دهد) یا نکند، که به یک زیربازی پیچیده منجر می‌شود که در MDP تحلیل شده است.
سیاست بهینه $\pi^*(l)$ با حل معادله بهینگی بلمن برای این MDP به دست می‌آید.

6. نتایج تجربی و نمودارها

نمودار کلیدی ۱: درآمد نسبی در مقابل قدرت هش (α)
یک نمودار خطی که درآمد نسبی $R$ سیاست بهینه (از الگوریتم ما) را در مقابل سیاست SM1 و استخراج صادقانه مقایسه می‌کند. منحنی سیاست بهینه برای تمام $\alpha > 0$ به‌طور قطعی بالاتر از منحنی SM1 قرار دارد. منحنی‌ها در نقاط مختلف با خط استخراج صادقانه (جایی که $R = \alpha$) تلاقی می‌کنند که به‌طور بصری آستانه پایین‌تر سیاست بهینه را نشان می‌دهد.

نمودار کلیدی ۲: نمودار انتقال وضعیت
یک گراف جهت‌دار که وضعیت‌ها (l=0,1,2,...) و اقدامات بهینه (برچسب‌گذاری‌شده روی یال‌ها: انتظار، جایگزینی، اتخاذ، هم‌ترازی) را همان‌طور که توسط الگوریتم برای یک جفت خاص ($\alpha$, $\gamma$) تعیین شده است، نشان می‌دهد. این نمودار به‌طور ملموس منطق تصمیم‌گیری غیربدیهی را نشان می‌دهد، مانند اتخاذ از پیشروی ۱ تحت شرایط خاص—حرکتی ضدشهودی که در SM1 وجود ندارد.

7. چارچوب تحلیل: یک مورد نظریه بازی

سناریو: یک استخر استخراج "AlphaPool" کنترل $\alpha = 0.24$ از نرخ هش شبکه را در دست دارد. عامل انتشار شبکه $\gamma=0.6$ است (یعنی AlphaPool بلافاصله از ۶۰٪ بلوک‌های صادقانه مطلع می‌شود).

استراتژی SM1: AlphaPool یک قاعده سختگیرانه را دنبال می‌کند: به‌صورت خصوصی با یک پیشروی استخراج کند، وقتی دو بلوک جلوتر است برای جایگزینی منتشر کند. تحلیل نشان می‌دهد این امر $R_{SM1} \approx 0.239$ را به دست می‌دهد که کمتر از سهم هش آن (۰.۲۴) است و آن را در مقابل استخراج صادقانه غیرسودآور می‌سازد.

سیاست بهینه (از الگوریتم ما): سیاست محاسبه‌شده $\pi^*$ ممکن است دیکته کند: از یک پیشروی ۱، اگر یک بلوک صادقانه پیدا شد، بلافاصله هم‌ترازی کند (انتشار دهد) تا یک تساوی ایجاد کند و در دور بعدی رقابت کند، به جای انتظار. این تغییر ظریف احتمالات انتقال را تغییر می‌دهد. درآمد حاصل $R_{opt} \approx 0.242$ است که بیشتر از ۰.۲۴ است. حمله سودآور می‌شود.

بینش: این مورد نشان می‌دهد که چگونه تصمیم‌گیری بهینه و وابسته به وضعیت می‌تواند یک سهم هش از نظر تئوری غیرسودآور را صرفاً از طریق انتشار استراتژیک بلوک به یک سهم سودآور تبدیل کند.

8. چشم‌انداز کاربردی و جهت‌های آینده

طراحی پروتکل و اقدامات متقابل: این کار ابزاری برای آزمون استرس بهبودهای پیشنهادی بیت‌کوین (مانند GHOST، پروتکل‌های بلاکچین فراگیر) در برابر استخراج خودخواهانه بهینه، نه فقط SM1، فراهم می‌کند. تحلیل اقدام متقابل پیشنهادی ایال و سیرر نشان می‌دهد که کمتر از حد امید مؤثر است و تحقیقات آینده را به سمت اصلاحات قوی‌تر هدایت می‌کند.

فراتر از بیت‌کوین: چارچوب MDP برای سایر بلاکچین‌های اثبات کار (مانند لایت‌کوین، بیت‌کوین کش) قابل اعمال است و می‌تواند برای مطالعه رفتار استراتژیک در سیستم‌های اثبات سهام (PoS) تطبیق داده شود، جایی که حملات مشابه "پنهان‌سازی بلوک" یا "دوپهلوگویی" ممکن است وجود داشته باشد.

حملات ترکیبی: کار آینده باید تعامل بین استخراج خودخواهانه و حملات دوبار خرج کردن را مدل کند. یک ماینر خودخواه با یک زنجیره خصوصی، بستری طبیعی برای تلاش برای دوبار خرج کردن دارد که به‌طور بالقوه مطلوبیت مهاجم را افزایش می‌دهد و مانع هر دو حمله را کاهش می‌دهد.

تمرکززدایی و پویایی استخرها: آستانه پایین‌تر فشار تمرکز را افزایش می‌دهد. استخرهای بزرگ انگیزه دارند تا از این استراتژی‌های بهینه استفاده کنند و ماینرهای کوچک‌تر انگیزه دارند برای بازدهی پایدار به آن‌ها بپیوندند که یک حلقه بازخوردی ایجاد می‌کند که تمرکززدایی—یک فرض امنیتی اصلی بیت‌کوین—را تضعیف می‌کند.

9. مراجع

  1. Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
  2. Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer, Berlin, Heidelberg.
  3. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
  4. Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
  5. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (به عنوان نمونه‌ای از چارچوب‌های الگوریتمی پیشرفته، مشابه رویکرد MDP استفاده‌شده در اینجا، ذکر شده است).

10. تحلیل اصیل و بینش کارشناسی

بینش اصلی

ساپیرشتاین و همکاران یک کلاس استادانه در آزمون استرس پروتکل ارائه داده‌اند و از بهره‌برداری خاص (SM1) فراتر رفته و کل فضای استراتژی‌های استخراج خودخواهانه را مدل کرده‌اند. افشای بنیادی آن‌ها بی‌رحمانه است: ساختار انگیزشی بیت‌کوین نه تنها در ۲۵٪ قدرت هش ترک خورده است—بلکه ذاتاً نشت‌کننده است و شکاف‌ها بسیار نزدیک‌تر به سطحی هستند که ساتوشی هرگز تصور می‌کرد. "آستانه سود" یک دیوار سخت نیست؛ یک گرادیان است که استراتژی بهینه می‌تواند تحت شرایط واقعی شبکه آن را تا نزدیک به صفر فرسایش دهد. این امر استخراج خودخواهانه را از یک مسئله "مهاجم بزرگ" به یک ناهماهنگی انگیزشی سیستماتیک و همیشه حاضر بازتعریف می‌کند.

جریان منطقی

منطق مقاله بی‌عیب و ویرانگر است. ۱) تعمیم مدل: آن‌ها به درستی SM1 را به‌عنوان یک نقطه در فضای وسیع استراتژی شناسایی می‌کنند. با قالب‌بندی مسئله به‌عنوان یک فرآیند تصمیم‌گیری مارکوف (MDP)—یک تکنیک با اصالت در هوش مصنوعی و تئوری کنترل، مشابه چارچوب‌های استفاده‌شده در کارهای پیشگامانه مانند مقاله CycleGAN برای کاوش فضاهای ترجمه تصویر—آن‌ها توانایی جستجوی سیستماتیک این فضا را باز می‌کنند. ۲) راه‌حل الگوریتمی: الگوریتم تکرار ارزش فقط یک ابزار نیست؛ یک مکانیزم اثبات است. یک استراتژی را فرض نمی‌کند؛ بلکه استراتژی بهینه را از اصول اولیه استخراج می‌کند. ۳) فشرده‌سازی آستانه: خروجی واضح است: استراتژی‌های بهینه بر SM1 برتری دارند و مانع سودآوری را پایین می‌آورند. ۴) ضربه نهایی تأخیر: حرکت نهایی، گنجاندن تأخیرهای شبکه، ضربه نهایی است. نشان می‌دهد که در یک جهان غیرلحظه‌ای (یعنی واقعیت)، انگیزه اقتصادی برای انحراف گاه‌به‌گاه از پروتکل جهانی است، نه استثنایی.

نقاط قوت و ضعف

نقاط قوت: دقت روش‌شناختی در سطح اول است. مدل MDP ابزار مناسب برای کار است و پایه‌ای رسمی و قابل محاسبه فراهم می‌کند که تحلیل‌های اکتشافی پیشین فاقد آن بودند. در نظر گرفتن تأخیرهای شبکه شکاف حیاتی بین تئوری و عمل را پر می‌کند و با مشاهدات از مطالعات اندازه‌گیری شبکه مانند آن‌هایی از مؤسساتی مانند IC3 (ابتکار ارزهای دیجیتال و قراردادها) همسو است. کاربرد مقاله به‌عنوان یک "تحلیل‌گر امنیتی" برای اصلاحات پروتکل، یک مشارکت عملی عمده است.

نقاط ضعف و کور: تحلیل، اگرچه عمیق است، هنوز یک بازی دو بازیکن (مهاجم در مقابل "بقیه" صادق) است. با تعادل پویا و چنداستخری که امروزه بیت‌کوین را مشخص می‌کند، به‌طور کامل دست‌وپنجه نرم نمی‌کند. وقتی چندین استخر بزرگ همگی استراتژی‌های خودخواهانه بهینه (یا یادگیرنده) را در مقابل یکدیگر اجرا کنند چه اتفاقی می‌افتد؟ مدل همچنین هزینه خروج از حمله (یتیم کردن بلوک‌های خودتان) را ساده می‌کند که ممکن است هزینه‌های روانی یا اعتباری غیرخطی برای استخرها داشته باشد. علاوه بر این، همان‌طور که تحقیقات بعدی (مانند گروای و همکاران، ۲۰۱۶) اشاره کرده‌اند، تحلیل یک α ایستا را فرض می‌کند؛ در واقعیت، قدرت هش ممکن است از زنجیره‌ای که مورد حمله تلقی می‌شود فرار کند و سهم مهاجم را به‌طور پویا تغییر دهد.

بینش‌های قابل اجرا

برای توسعه‌دهندگان پروتکل: ترمیم برای SM1 را متوقف کنید. شما باید برای استراتژی بهینه طراحی کنید. این مقاله معیار را فراهم می‌کند. هر اصلاح پیشنهادی (مانند قواعد جدید انتخاب انشعاب مانند GHOST) باید در برابر این چارچوب MDP ارزیابی شود. هدف باید این باشد که استراتژی صادقانه را یک تعادل نش برای هر $\alpha > 0$ بسازیم، مانعی بسیار بالاتر از آنچه در حال حاضر وجود دارد.

برای ماینرها و اپراتورهای استخر: حساب‌وکتاب تغییر کرده است. دستورالعمل "ایمنی" ۲۵٪ منسوخ شده است. استخرهایی با قدرت هش کم‌تر از ۲۰٪، به ویژه آن‌هایی با اتصال خوب (γ بالا)، اکنون باید وسوسه اقتصادی پنهان‌سازی استراتژیک را در نظر بگیرند. پیامدهای اخلاقی و نظریه بازی عدم اجرای سیاست بهینه به یک بحث هیئت مدیره تبدیل می‌شود.

برای سرمایه‌گذاران و تنظیم‌کنندگان: درک کنید که بودجه امنیتی بیت‌کوین (پاداش ماینرها) تحت یک شکل پیچیده‌تر از حمله اقتصادی نسبت به آنچه قبلاً تصدیق شده بود، قرار دارد. خطر تمرکز استخراج خطی نیست؛ در معرض نقاط اوج استراتژیک است که توسط این تحقیق آشکار شده است. نظارت بر رفتار استخر و زمان‌های انتشار شبکه به یک متریک امنیتی حیاتی تبدیل می‌شود.

در نتیجه، این مقاله فقط یک بهبود آکادمیک بر کار پیشین نیست؛ یک تغییر پارادایم است. بحث را از "آیا یک استخر بزرگ می‌تواند تقلب کند؟" به "استراتژی بهینه هر کس، در یک شبکه ناقص، چگونه به‌طور مداوم انگیزه‌های پروتکل را تحت فشار قرار می‌دهد؟" منتقل می‌کند. متأسفانه پاسخ "به‌طور قابل توجهی" است. بار اثبات اکنون بر عهده مدافعان است تا نشان دهند که اجماع ناکاموتو، در شکل فعلی آن، می‌تواند واقعاً سازگار با انگیزه ساخته شود.