1. المقدمة

يتناول هذا البحث عيبًا جوهريًا في توافق الحوافز في البيتكوين، والذي سلط عليه الضوء لأول مرة إيال وسيرر (2014). بينما أظهرت استراتيجيتهم SM1 ربحية التعدين الأناني، يثبت هذا العمل أنها ليست مثلى. نقدم نموذجًا معممًا وخوارزمية لإيجاد سياسات تعدين أنانية مثلى-ε، مما يحدد حدودًا أضيق للربحية ويكشف عن عتبة أقل لقوة الحوسبة اللازمة لهجمات ناجحة مقارنة بما كان معروفًا سابقًا.

2. الخلفية والأعمال ذات الصلة

يتطلب فهم التعدين الأناني أساسًا في آلية الإجماع في البيتكوين ونماذج الهجوم السابقة.

2.1. أساسيات تعدين البيتكوين

يعتمد البيتكوين على إجماع إثبات العمل (PoW) حيث يتنافس المعدنون لحل ألغاز تشفيرية. أول من يحل اللغز يبث كتلة جديدة، مطالبًا بمكافأة الكتلة ورسوم المعاملات. يفرض البروتوكول نشر الكتلة فورًا. تحل قاعدة أطول سلسلة حالات التفرع.

2.2. استراتيجية SM1 (إيال وسيرر)

تتضمن استراتيجية SM1 لإيال وسيرر قيام مُعدّن بحجب كتلة تم تعدينها حديثًا، مما يخلق سلسلة خاصة. يكشف المهاجم عن الكتل بشكل استراتيجي لجعل الكتل النزيهة يتيمة، مطالبًا بحصة غير متناسبة من المكافآت. اقترح تحليلهم عتبة ربحية تبلغ حوالي 25٪ من معدل التجزئة للشبكة لمهاجم متصل جيدًا.

3. النموذج والمنهجية

نوسع نموذج التعدين الأناني إلى إطار عملية قرار ماركوف (MDP)، مما يسمح بالبحث بشكل أكثر شمولاً في فضاء الاستراتيجيات.

3.1. نموذج التعدين الأناني الموسع

يتم تعريف حالة النظام من خلال تقدم السلسلة الخاصة للمهاجم على السلسلة العامة. تشمل الإجراءات: التبني (التخلي عن السلسلة الخاصة)، التجاوز (النشر لتجاوز السلسلة العامة)، الانتظار (الاستمرار في التعدين بشكل خاص)، والمطابقة (النشر بالقدر الكافي فقط لتحقيق التعادل). يتضمن النموذج القوة الحاسوبية النسبية للمهاجم $\alpha$ وعامل انتشار الشبكة $\gamma$.

3.2. خوارزمية للسياسات المثلى-ε

نصوغ المشكلة على أنها MDP ذات أفق لا نهائي مخفض. باستخدام خوارزميات تكرار القيمة أو تكرار السياسة، نحسب سياسة مثلى-ε $\pi^*$ تعظم الإيرادات النسبية للمهاجم $R(\alpha, \gamma, \pi)$. يحدد ناتج الخوارزمية الإجراء الأمثل (انتظار، تبني، تجاوز، مطابقة) لكل حالة محتملة (التقدم $l$).

4. النتائج والتحليل

عتبة الربحية (γ=0.5)

~23%

الحصة من التجزئة اللازمة للربح (نموذجنا)

عتبة الربحية (γ=0.5)

~25%

الحصة من التجزئة اللازمة للربح (SM1)

العتبة مع التأخيرات

>0%

تتلاشى تحت نماذج التأخير الواقعية

4.1. عتبات الربحية المنخفضة

تنتج استراتيجياتنا المثلى باستمرار عتبة ربحية أقل من SM1. بالنسبة لعامل الانتشار النموذجي ($\gamma=0.5$)، تنخفض العتبة من حوالي 25٪ إلى حوالي 23٪. هذا الفرق البالغ 2٪ مهم، حيث يجلب المزيد من المهاجمين المحتملين إلى منطقة الربحية.

4.2. التفوق على استراتيجية SM1

السياسات المشتقة تتفوق بشكل صارم على SM1. التحسين الرئيسي هو "الانسحاب من الهجوم" الأكثر تطورًا - معرفة الوقت المناسب تمامًا للتخلي عن سلسلة خاصة (التبني) لخفض الخسائر، بدلاً من الاستمرار بعناد كما تفعل SM1 غالبًا. يزيد هذا السلوك التكيفي من الإيرادات المتوقعة عبر جميع قيم $\alpha$ و $\gamma$.

4.3. تأثير تأخيرات الاتصال

تحت نموذج يتضمن تأخيرات انتشار الشبكة، تختفي عتبة الربحية بشكل فعال. حتى المعدنين ذوي قوة التجزئة الضئيلة ($\alpha \rightarrow 0$) لديهم حافز احتمالي لحجب الكتل أحيانًا، حيث تخلق التأخيرات تفرعات طبيعية يمكنهم استغلالها. يكشف هذا عن اختلال أكثر جوهرية في الحوافز في إجماع ناكاموتو.

5. التفاصيل والصيغ التقنية

جوهر التحليل هو نموذج انتقال الحالة ودالة الإيرادات. الإيرادات النسبية $R$ لمهاجم بقوة تجزئة $\alpha$ يتبع سياسة $\pi$ هي:

$R(\alpha, \gamma, \pi) = \frac{\text{الكتل المكتسبة المتوقعة من قبل المهاجم}}{\text{إجمالي الكتل المتوقعة التي تم إنشاؤها}}$

الحالة هي التقدم $l$. تعتمد احتمالات الانتقال على $\alpha$ وإيجاد المعدنين النزهاء للكتل. على سبيل المثال، من الحالة $l=1$:

  • يجد المهاجم الكتلة التالية: الاحتمال $\alpha$، الحالة الجديدة $l=2$.
  • يجد المعدنون النزهاء الكتلة التالية: الاحتمال $(1-\alpha)$، مما يؤدي إلى تعادل. يمكن للمهاجم بعد ذلك المطابقة (النشر) أو عدم المطابقة، مما يؤدي إلى لعبة فرعية معقدة يتم تحليلها في MDP.
يتم اشتقاق السياسة المثلى $\pi^*(l)$ عن طريق حل معادلة بيلمان الأمثلية لهذه MDP.

6. النتائج التجريبية والرسوم البيانية

الرسم البياني الرئيسي 1: الإيرادات النسبية مقابل قوة التجزئة (α)
رسم بياني خطي يقارن الإيرادات النسبية $R$ للسياسة المثلى (من خوارزميتنا) مقابل سياسة SM1 والتعدين النزيه. يقع منحنى السياسة المثلى بشكل صارم فوق منحنى SM1 لجميع $\alpha > 0$. تتقاطع المنحنيات مع خط التعدين النزيه (حيث $R = \alpha$) عند نقاط مختلفة، مما يوضح بصريًا العتبة الأقل للسياسة المثلى.

الرسم البياني الرئيسي 2: مخطط انتقال الحالة
رسم بياني موجه يوضح الحالات (l=0,1,2,...) والإجراءات المثلى (الموسومة على الحواف: انتظار، تجاوز، تبني، مطابقة) كما يحددها الخوارزمية لقيم محددة ($\alpha$, $\gamma$). يوضح هذا الرسم البياني بشكل ملموس منطق القرار غير البديهي، مثل التبني من تقدم قدره 1 تحت ظروف معينة - وهي خطوة غير بديهية غير موجودة في SM1.

7. إطار التحليل: حالة نظرية الألعاب

السيناريو: تتحكم مجموعة تعدين "AlphaPool" في $\alpha = 0.24$ من معدل تجزئة الشبكة. عامل انتشار الشبكة هو $\gamma=0.6$ (بمعنى أن AlphaPool تتعلم عن 60٪ من الكتل النزيهة على الفور).

استراتيجية SM1: ستتبع AlphaPool قاعدة صارمة: التعدين بشكل خاص مع تقدم، والنشر للتجاوز عند التقدم بمقدار 2. يظهر التحليل أن هذا ينتج $R_{SM1} \approx 0.239$، وهو أقل من حصتها من التجزئة (0.24)، مما يجعلها غير مربحة مقابل التعدين النزيه.

السياسة المثلى (من خوارزميتنا): قد تملي السياسة المحسوبة $\pi^*$: من تقدم قدره 1، إذا تم العثور على كتلة نزيهة، المطابقة (النشر) على الفور لخلق تعادل والمنافسة في الجولة التالية، بدلاً من الانتظار. هذا التغيير الدقيق يغير احتمالات الانتقال. الإيرادات الناتجة هي $R_{opt} \approx 0.242$، وهي أكبر من 0.24. يصبح الهجوم مربحًا.

الرؤية: توضح هذه الحالة كيف يمكن لصنع القرار الأمثل المعتمد على الحالة أن يحول حصة تجزئة غير مربحة نظريًا إلى حصة مربحة، وذلك فقط من خلال النشر الاستراتيجي للكتل.

8. آفاق التطبيق والاتجاهات المستقبلية

تصميم البروتوكول وإجراءات التصدي: يوفر هذا العمل أداة لاختبار الضغط للتحسينات المقترحة للبيتكوين (مثل GHOST، بروتوكولات سلسلة الكتل الشاملة) ضد التعدين الأناني الأمثل، وليس فقط SM1. يظهر تحليل إجراء التصدي المقترح من إيال وسيرر أنه أقل فعالية مما كان مأمولًا، مما يوجه البحث المستقبلي نحو إصلاحات أكثر قوة.

ما وراء البيتكوين: إطار MDP قابل للتطبيق على سلاسل الكتل الأخرى القائمة على إثبات العمل (مثل لايتكوين، بيتكوين كاش) ويمكن تكييفه لدراسة السلوك الاستراتيجي في أنظمة إثبات الحصة (PoS)، حيث قد توجد هجمات مماثلة "لحجب الكتل" أو "التردد".

الهجمات المجمعة: يجب على العمل المستقبلي نمذجة التفاعل بين التعدين الأناني وهجمات الإنفاق المزدوج. لدى المُعدّن الأناني بسلسلة خاصة منصة طبيعية لمحاولة الإنفاق المزدوج، مما قد يزيد من فائدة المهاجم ويخفض الحاجز لكلا الهجومين.

اللامركزية وديناميكيات المجموعات: تزيد العتبة المنخفضة من ضغط المركزية. يتم تحفيز المجموعات الكبيرة لاستخدام هذه الاستراتيجيات المثلى، ويتم تحفيز المعدنين الأصغر للانضمام إليهم للحصول على عوائد مستقرة، مما يخلق حلقة تغذية مرتدة تقوض اللامركزية - وهي فرضية أمنية أساسية للبيتكوين.

9. المراجع

  1. Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
  2. Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer, Berlin, Heidelberg.
  3. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
  4. Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
  5. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (تم الاستشهاد به كمثال لأطر الخوارزميات المتقدمة، المشابهة لنهج MDP المستخدم هنا).

10. التحليل الأصلي ورؤى الخبراء

الرؤية الأساسية

قدم سابيرشتاين وآخرون درسًا رئيسيًا في اختبار ضغط البروتوكول، متجاوزين الاستغلال المحدد (SM1) لنمذجة فضاء الاستراتيجيات بأكمله للتعدين الأناني. إن كشفهم الأساسي قاسٍ: هيكل الحوافز في البيتكوين ليس مجرد مشكلة عند 25٪ من قوة التجزئة - إنه متسرب بشكل جوهري، حيث تمتد الشقوق بالقرب من السطح أكثر مما تخيل ساتوشي. "عتبة الربحية" ليست جدارًا صلبًا؛ إنها تدرج يمكن للاستراتيجية المثلى أن تآكله إلى ما يقرب من الصفر تحت ظروف الشبكة الواقعية. يعيد هذا تأطير التعدين الأناني من مشكلة "مهاجم كبير" إلى اختلال حوافز منهجي ودائم الحضور.

التدفق المنطقي

منطق البحث لا تشوبه شائبة ومدمر. 1) تعميم النموذج: حددوا بشكل صحيح SM1 كنقطة واحدة في فضاء استراتيجيات شاسع. من خلال تأطير المشكلة كعملية قرار ماركوف (MDP) - وهي تقنية ذات سلالة في الذكاء الاصطناعي ونظرية التحكم، تشبه الأطر المستخدمة في الأعمال الرائدة مثل ورقة CycleGAN لاستكشاف فضاءات ترجمة الصور - فتحوا القدرة على البحث في هذا الفضاء بشكل منهجي. 2) الحل الخوارزمي: خوارزمية تكرار القيمة ليست مجرد أداة؛ إنها آلية إثبات. لا تفترض استراتيجية؛ بل تستمد الأمثل من المبادئ الأولى. 3) ضغط العتبة: الناتج واضح: الاستراتيجيات المثلى تتفوق على SM1، مما يخفض سقف الربحية. 4) ضربة التأخير القاضية: الخطوة الأخيرة، التي تتضمن تأخيرات الشبكة، هي الضربة القاضية. تظهر أنه في عالم غير فوري (أي الواقع)، فإن الحافز الاقتصادي للانحراف أحيانًا عن البروتوكول هو عالمي، وليس استثنائيًا.

نقاط القوة والضعف

نقاط القوة: الدقة المنهجية من الدرجة الأولى. نموذج MDP هو الأداة المناسبة للوظيفة، حيث يوفر أساسًا رسميًا وقابلًا للحساب تفتقر إليه التحليلات الاستدلالية السابقة. مراعاة تأخيرات الشبكة تعبر الفجوة الحرجة بين النظرية والتطبيق، متوافقة مع الملاحظات من دراسات قياس الشبكة مثل تلك الصادرة عن مؤسسات مثل IC3 (مبادرة العملات المشفرة والعقود). فائدة البحث كـ "محلل أمني" لتعديلات البروتوكول هي مساهمة عملية كبيرة.

نقاط الضعف والثغرات: التحليل، على الرغم من عمقه، لا يزال لعبة لاعبين (مهاجم مقابل "البقية" النزيهة). لا يتعامل بشكل كامل مع التوازن الديناميكي متعدد المجموعات الذي يميز البيتكوين اليوم. ماذا يحدث عندما تشغل مجموعات كبيرة متعددة جميعها استراتيجيات أنانية مثلى (أو متعلمة) ضد بعضها البعض؟ النموذج أيضًا يبسط تكلفة الانسحاب من الهجوم (جعل كتلك الخاصة يتيمة)، والتي قد يكون لها تكاليف نفسية أو سمعة غير خطية للمجموعات. علاوة على ذلك، كما لوحظ في بحث لاحق (مثل جيرفيه وآخرون، 2016)، يفترض التحليل α ثابتًا؛ في الواقع، قد تهرب قوة التجزئة من سلسلة يُنظر إليها على أنها تتعرض للهجوم، مما يغير حصة المهاجم بشكل ديناميكي.

رؤى قابلة للتنفيذ

لمطوري البروتوكول: توقفوا عن التصحيح لـ SM1. يجب أن تصمموا للاستراتيجية المثلى. يوفر هذا البحث المعيار. يجب تقييم أي إصلاح مقترح (مثل قواعد اختيار التفرع الجديدة مثل GHOST) مقابل إطار MDP هذا. يجب أن يكون الهدف جعل الاستراتيجية النزيهة توازن ناش لأي α > 0، وهو سقف أعلى بكثير مما هو قائم حاليًا.

للمعدنين ومشغلي المجموعات: تغيرت الحسابات. المبدأ التوجيهي "السلامة" بنسبة 25٪ أصبح قديمًا. يجب على المجموعات التي لديها قوة تجزئة تصل إلى 20٪ فقط، خاصة تلك ذات الاتصال الجيد (γ عالية)، أن تفكر الآن في إغراء الحجب الاستراتيجي الاقتصادي. تصبح الآثار الأخلاقية ونظرية الألعاب لعدم تشغيل السياسة المثلى موضوعًا للنقاش في غرفة الاجتماعات.

للمستثمرين والجهات التنظيمية: افهموا أن ميزانية أمان البيتكوين (مكافآت المعدنين) تتعرض لهجوم اقتصادي أكثر تطورًا مما كان معترفًا به سابقًا. خطر مركزية التعدين ليس خطيًا؛ إنه عرضة لنقاط التحول الاستراتيجية التي كشف عنها هذا البحث. يصبح مراقبة سلوك المجموعات وأوقات انتشار الشبكة مقياسًا أمنيًا حاسمًا.

في الختام، هذا البحث ليس مجرد تحسين أكاديمي على العمل السابق؛ إنه تحول في النموذج. ينقل النقاش من "هل يمكن لمجموعة كبيرة أن تغش؟" إلى "كيف ترهق الاستراتيجية المثلى للجميع، في شبكة غير كاملة، حوافز البروتوكول باستمرار؟" للأسف، الإجابة هي "بشكل كبير". يقع عبء الإثبات الآن على المدافعين لإثبات أن إجماع ناكاموتو، في شكله الحالي، يمكن جعله متوافقًا مع الحوافز حقًا.