1. परिचय

यह पेपर बिटकॉइन की प्रोत्साहन संगतता में एक गंभीर खामी को संबोधित करता है, जिसे पहली बार एयाल और सिरर (2014) ने उजागर किया था। हालांकि उनकी एसएम1 रणनीति ने लाभदायक स्वार्थी खनन का प्रदर्शन किया, यह कार्य साबित करता है कि यह इष्टतम नहीं है। हम एक सामान्यीकृत मॉडल और ε-इष्टतम स्वार्थी खनन नीतियों को खोजने के लिए एक एल्गोरिदम प्रस्तुत करते हैं, जो लाभप्रदता पर सख्त सीमाएं स्थापित करता है और पहले से ज्ञात की तुलना में सफल हमलों के लिए एक कम कम्प्यूटेशनल शक्ति सीमा प्रकट करता है।

2. Background & Related Work

स्वार्थी खनन को समझने के लिए बिटकॉइन की सहमति तंत्र और पूर्व हमला मॉडलों में आधार की आवश्यकता होती है।

2.1. Bitcoin Mining Basics

बिटकॉइन प्रूफ-ऑफ-वर्क (PoW) सहमति पर निर्भर करता है, जहाँ खनिक क्रिप्टोग्राफिक पहेलियाँ हल करने के लिए प्रतिस्पर्धा करते हैं। पहेली हल करने वाला पहला व्यक्ति एक नया ब्लॉक प्रसारित करता है, जिससे ब्लॉक इनाम और लेन-देन शुल्क प्राप्त होता है। प्रोटोकॉल तत्काल ब्लॉक प्रकाशन अनिवार्य करता है। सबसे लंबी श्रृंखला नियम फोर्क्स का समाधान करता है।

2.2. The SM1 Strategy (Eyal & Sirer)

ईयाल और सिरर की एसएम1 रणनीति में एक खनिक द्वारा नए खनन किए गए ब्लॉक को रोककर रखना और एक निजी श्रृंखला बनाना शामिल है। हमलावर ईमानदार ब्लॉकों को अनाथ करने के लिए रणनीतिक रूप से ब्लॉक प्रकट करता है, जिससे पुरस्कारों का एक असंगत हिस्सा प्राप्त होता है। उनके विश्लेषण से पता चला कि एक अच्छी तरह से जुड़े हमलावर के लिए लाभप्रदता सीमा नेटवर्क की हैश दर का लगभग 25% है।

3. Model & Methodology

हम स्वार्थी खनन मॉडल को एक मार्कोव निर्णय प्रक्रिया (एमडीपी) ढांचे में विस्तारित करते हैं, जिससे रणनीति स्थान की अधिक व्यापक खोज संभव होती है।

3.1. Extended Selfish Mining Model

सिस्टम की स्थिति को सार्वजनिक श्रृंखला पर हमलावर की निजी श्रृंखला की अग्रता द्वारा परिभाषित किया गया है। कार्यों में शामिल हैं: अपनाएं (निजी श्रृंखला को त्यागें), ओवरराइड (सार्वजनिक श्रृंखला को पार करने के लिए प्रकाशित करें), प्रतीक्षा करें (निजी तौर पर खनन जारी रखें), और मैच (पर्याप्त प्रकाशित करें ताकि बराबरी हो जाए). मॉडल में हमलावर की सापेक्ष कम्प्यूटेशनल शक्ति $\alpha$ और नेटवर्क प्रसार कारक $\gamma$ शामिल हैं।

3.2. ε-इष्टतम नीतियों के लिए एल्गोरिदम

हम इस समस्या को एक छूटित अनंत-क्षितिज MDP के रूप में सूत्रबद्ध करते हैं। मूल्य पुनरावृत्ति या नीति पुनरावृत्ति एल्गोरिदम का उपयोग करके, हम एक ε-इष्टतम नीति $\pi^*$ की गणना करते हैं जो हमलावर के सापेक्ष राजस्व $R(\alpha, \gamma, \pi)$ को अधिकतम करती है। एल्गोरिदम का आउटपुट प्रत्येक संभावित अवस्था (लीड $l$) के लिए इष्टतम कार्रवाई (Wait, Adopt, Override, Match) निर्धारित करता है।

4. Results & Analysis

लाभ सीमा (γ=0.5)

~23%

लाभ के लिए आवश्यक हैश शेयर (हमारा मॉडल)

लाभ सीमा (γ=0.5)

~25%

Hash share needed for profit (SM1)

Threshold with Delays

>0%

यथार्थवादी विलंब मॉडलों के तहत समाप्त हो जाता है

4.1. कम लाभ सीमाएँ

हमारी इष्टतम रणनीतियाँ SM1 की तुलना में लगातार कम लाभप्रदता सीमा प्रदान करती हैं। एक विशिष्ट प्रसार कारक ($\gamma=0.5$) के लिए, सीमा लगभग 25% से घटकर लगभग 23% हो जाती है। यह 2% का अंतर महत्वपूर्ण है, जो अधिक संभावित हमलावरों को लाभदायक क्षेत्र में लाता है।

4.2. SM1 पर प्रभुत्व

व्युत्पन्न नीतियाँ SM1 पर सख्ती से प्रभुत्व रखती हैं। मुख्य सुधार अधिक परिष्कृत "आक्रमण वापसी" है—नुकसान कम करने के लिए निजी श्रृंखला (अडॉप्ट) को कब छोड़ना है, यह ठीक-ठीक जानना, बजाय इसके कि SM1 की तरह हठपूर्वक जारी रखना। यह अनुकूली व्यवहार सभी $\alpha$ और $\gamma$ मानों पर अपेक्षित राजस्व को बढ़ाता है।

4.3. संचार विलंब का प्रभाव

नेटवर्क प्रसार विलंब को शामिल करने वाले मॉडल के तहत, लाभ सीमा प्रभावी रूप से समाप्त हो जाती है। नगण्य हैश शक्ति ($\alpha \rightarrow 0$) वाले खनिकों को भी कभी-कभी ब्लॉक रोकने की संभाव्य प्रोत्साहन मिलती है, क्योंकि विलंब प्राकृतिक फोर्क उत्पन्न करते हैं जिनका वे लाभ उठा सकते हैं। यह नाकामोटो सहमति में एक अधिक मौलिक प्रोत्साहन असंरेखण को प्रकट करता है।

5. Technical Details & Formulas

विश्लेषण का मूल राज्य संक्रमण मॉडल और राजस्व फलन है। नीति $\pi$ का पालन करने वाले हैश शक्ति $\alpha$ वाले आक्रमणकारी का सापेक्ष राजस्व $R$ है:

R(α, γ, π) = (आक्रमणकारी द्वारा अर्जित अपेक्षित ब्लॉक) / (रचित कुल अपेक्षित ब्लॉक)

राज्य लीड l है। संक्रमण संभावनाएँ α और ईमानदार खनिकों द्वारा ब्लॉक खोजने पर निर्भर करती हैं। उदाहरण के लिए, राज्य l=1 से:

  • आक्रमणकारी अगला ब्लॉक ढूँढता है: संभावना α, नया राज्य l=2.
  • ईमानदार खनिक अगला ब्लॉक ढूंढते हैं: संभावना $(1-\alpha)$, जिससे एक टाई होती है। हमलावर तब मैच (प्रकाशित) कर सकता है या नहीं, जिससे MDP में विश्लेषित एक जटिल उप-खेल उत्पन्न होता है।
इष्टतम नीति $\pi^*(l)$ इस MDP के लिए बेलमैन इष्टतमता समीकरण को हल करके प्राप्त की जाती है।

6. Experimental Results & Charts

Key Chart 1: Relative Revenue vs. Hash Power (α)
A line chart comparing the relative revenue $R$ of the इष्टतम policy (from our algorithm) against the SM1 policy and honest mining. The इष्टतम policy curve lies strictly above the SM1 curve for all $\alpha > 0$. The curves intersect the honest mining line (where $R = \alpha$) at different points, visually demonstrating the lower threshold of the इष्टतम policy.

Key Chart 2: State Transition Diagram
एक निर्देशित ग्राफ जो स्थितियों (l=0,1,2,...) और इष्टतम क्रियाओं (किनारों पर लेबल: Wait, Override, Adopt, Match) को दर्शाता है, जैसा कि किसी विशिष्ट ($\alpha$, $\gamma$) के लिए एल्गोरिदम द्वारा निर्धारित किया गया है। यह आरेख गैर-तुच्छ निर्णय तर्क को ठोस रूप से दर्शाता है, जैसे कि कुछ शर्तों के तहत 1 की बढ़त से अपनाना - एक अप्रत्याशित चाल जो SM1 में नहीं है।

7. विश्लेषण ढांचा: एक गेम थ्योरी केस

परिदृश्य: एक माइनिंग पूल "AlphaPool" नेटवर्क हैश रेट का $\alpha = 0.24$ हिस्सा नियंत्रित करता है। नेटवर्क प्रसार कारक $\gamma=0.6$ है (अर्थात AlphaPool को 60% ईमानदार ब्लॉकों की तुरंत जानकारी मिल जाती है)।

SM1 रणनीति: AlphaPool एक कठोर नियम का पालन करेगा: एक लीड के साथ निजी तौर पर माइन करना, 2 से आगे होने पर ओवरराइड करने के लिए प्रकाशित करना। विश्लेषण से पता चलता है कि इससे $R_{SM1} \approx 0.239$ प्राप्त होता है, जो है से कम इसके हैश शेयर (0.24), जो इसे ईमानदार माइनिंग की तुलना में अलाभकारी बनाता है।

इष्टतम नीति (हमारे एल्गोरिदम से): The computed policy $\pi^*$ might dictate: From a lead of 1, if an honest block is found, immediately मैच (publish) to create a tie and compete in the next round, rather than waiting. This subtle change alters the transition probabilities. The resulting revenue is $R_{opt} \approx 0.242$, which is greater than 0.24. हमला लाभदायक बन जाता है।

अंतर्दृष्टि: यह मामला प्रदर्शित करता है कि कैसे इष्टतम, स्थिति-निर्भर निर्णय लेना, पूरी तरह से रणनीतिक ब्लॉक प्रकाशन के माध्यम से, एक सैद्धांतिक रूप से अलाभकारी हैश शेयर को लाभदायक में बदल सकता है।

8. Application Outlook & Future Directions

Protocol Design & Countermeasures: यह कार्य प्रस्तावित Bitcoin सुधारों (जैसे, GHOST, Inclusive Blockchain protocols) का इष्टतम स्वार्थी खनन के विरुद्ध तनाव-परीक्षण करने के लिए एक उपकरण प्रदान करता है, केवल SM1 के विरुद्ध ही नहीं। Eyal और Sirer द्वारा सुझाए गए प्रतिकार के विश्लेषण से पता चलता है कि यह आशा से कम प्रभावी है, जो भविष्य के शोध को अधिक मजबूत समाधानों की ओर मार्गदर्शन करता है।

Bitcoin से परे: MDP ढांचा अन्य Proof-of-Work ब्लॉकचेन (जैसे Litecoin, Bitcoin Cash) पर लागू होता है और Proof-of-Stake (PoS) प्रणालियों में रणनीतिक व्यवहार का अध्ययन करने के लिए अनुकूलित किया जा सकता है, जहां समान "ब्लॉक वित्होल्डिंग" या "इक्विवोकेशन" हमले मौजूद हो सकते हैं।

संयुक्त हमले: भविष्य के कार्य को स्वार्थी खनन और डबल-स्पेंडिंग हमलों के बीच की परस्पर क्रिया को मॉडल करना चाहिए। एक निजी श्रृंखला वाले स्वार्थी खनिक के पास डबल-स्पेंडिंग का प्रयास करने के लिए एक स्वाभाविक मंच होता है, जिससे संभावित रूप से हमलावर की उपयोगिता बढ़ सकती है और दोनों हमलों के लिए बाधा कम हो सकती है।

Decentralization & Pool Dynamics: कम सीमा केंद्रीकरण के दबाव को बढ़ाती है। बड़े पूल इन इष्टतम रणनीतियों को अपनाने के लिए प्रोत्साहित होते हैं, और छोटे खनिक स्थिर रिटर्न के लिए उनमें शामिल होने के लिए प्रोत्साहित होते हैं, जिससे एक प्रतिक्रिया लूप बनता है जो विकेंद्रीकरण को कमजोर करता है—जो Bitcoin की एक मूल सुरक्षा आधारशिला है।

9. References

  1. Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
  2. Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (पृ. 436-454). स्प्रिंगर, बर्लिन, हीडलबर्ग.
  3. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
  4. Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
  5. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (यहाँ प्रयुक्त MDP दृष्टिकोण के अनुरूप, उन्नत एल्गोरिदमिक ढांचों के उदाहरण के रूप में उद्धृत)।

10. Original Analysis & Expert Insight

मूल अंतर्दृष्टि

Sapirshtein et al. ने प्रोटोकॉल स्ट्रेस-टेस्टिंग में एक उत्कृष्ट प्रदर्शन किया है, जो विशिष्ट एक्सप्लॉइट (SM1) से आगे बढ़कर मॉडल बनाने की ओर अग्रसर है संपूर्ण क्षेत्र

तार्किक प्रवाह

शोधपत्र की तर्कसंगतता अकाट्य और प्रभावशाली है। 1) Model Generalization: वे SM1 को एक विशाल रणनीति स्थान में एक एकल बिंदु के रूप में सही ढंग से पहचानते हैं। समस्या को मार्कोव निर्णय प्रक्रिया (MDP) के रूप में प्रस्तुत करके—एक ऐसी तकनीक जिसकी AI और नियंत्रण सिद्धांत में एक प्रतिष्ठित पृष्ठभूमि है, जो क्रांतिकारी कार्यों जैसे कि CycleGAN पेपर में छवि अनुवाद स्थानों का पता लगाने के लिए उपयोग किए गए ढांचों के समान है—वे इस स्थान की व्यवस्थित खोज करने की क्षमता को अनलॉक करते हैं। 2) एल्गोरिदमिक समाधान: मूल्य पुनरावृत्ति एल्गोरिदम केवल एक उपकरण नहीं है; यह एक प्रमाण तंत्र है। यह किसी रणनीति को स्वीकार नहीं करता; यह प्राथमिक सिद्धांतों से इष्टतम रणनीति प्राप्त करता है। 3) थ्रेशोल्ड कम्प्रेशन: आउटपुट स्पष्ट है: इष्टतम रणनीतियाँ SM1 पर हावी हैं, लाभप्रदता के लिए आवश्यक स्तर को कम करती हैं। 4) द डिले किलशॉट: अंतिम चाल, जिसमें नेटवर्क विलंब शामिल है, वह निर्णायक प्रहार है। यह दर्शाता है कि एक तात्कालिक न होने वाली दुनिया (यानी, वास्तविकता) में, प्रोटोकॉल से कभी-कभी विचलन करने का आर्थिक प्रोत्साहन सार्वभौमिक, असाधारण नहीं है।

Strengths & Flaws

Strengths: The methodological rigor is top-tier. The MDP model is the right tool for the job, providing a formal, computable foundation that previous heuristic analyses lacked. The consideration of network delays bridges a critical gap between theory and practice, aligning with observations from network measurement studies like those from institutions like the IC3 (Initiative for Cryptocurrencies & Contracts)प्रोटोकॉल संशोधनों के लिए एक "सुरक्षा विश्लेषक" के रूप में पेपर की उपयोगिता एक प्रमुख व्यावहारिक योगदान है।

Flaws & Blind Spots: विश्लेषण, हालांकि गहरा है, फिर भी एक दो-खिलाड़ी खेल (हमलावर बनाम ईमानदार "शेष") है। यह आज के बिटकॉइन की विशेषता वाले गतिशील, बहु-पूल संतुलन से पूरी तरह नहीं निपटता है। जब कई बड़े पूल एक-दूसरे के खिलाफ इष्टतम (या सीखने वाली) स्वार्थी रणनीतियाँ चलाते हैं तो क्या होता है? मॉडल हमले की वापसी (अपने स्वयं के ब्लॉक्स को अनाथ करना) की लागत को भी सरल बनाता है, जिसके पूल के लिए गैर-रैखिक मनोवैज्ञानिक या प्रतिष्ठात्मक लागत हो सकती है। इसके अलावा, बाद के शोध (जैसे, Gervais et al., 2016) द्वारा उल्लिखित के अनुसार, विश्लेषण एक स्थिर α मानता है; वास्तविकता में, हैश पावर एक हमले के रूप में मानी जाने वाली श्रृंखला से भाग सकती है, जिससे हमलावर के हिस्से को गतिशील रूप से बदल दिया जाता है।

कार्रवाई योग्य अंतर्दृष्टि

के लिए Protocol DevelopersSM1 के लिए पैचिंग बंद करें। आपको इसके लिए डिज़ाइन करना होगा इष्टतम strategy. This paper provides the benchmark. Any proposed fix (e.g., new fork choice rules like GHOST) must be evaluated against this MDP framework. The goal should be to make the honest strategy a Nash equilibrium for any α > 0, a far higher bar than currently held.

के लिए Miners & Pool Operators: गणना बदल गई है। 25% की "सुरक्षा" दिशानिर्देश अप्रचलित हो गया है। जिन पूलों के पास 20% जितना कम हैश पावर है, विशेष रूप से अच्छी कनेक्टिविटी (उच्च γ) वाले, को अब रणनीतिक रोक (स्ट्रैटेजिक विथहोल्डिंग) के आर्थिक प्रलोभन पर विचार करना चाहिए। इष्टतम नीति न चलाने के नैतिक और खेल-सिद्धांत संबंधी निहितार्थ बोर्डरूम चर्चा का विषय बन जाते हैं।

के लिए Investors & Regulators: यह समझें कि बिटकॉइन का सुरक्षा बजट (खनिक पुरस्कार) पहले स्वीकृत रूप से अधिक परिष्कृत आर्थिक हमले के अधीन है। खनन केंद्रीकरण का जोखिम रैखिक नहीं है; यह इस शोध द्वारा प्रकट किए गए रणनीतिक टिपिंग पॉइंट्स के अधीन है। पूल व्यवहार और नेटवर्क प्रसार समय की निगरानी एक महत्वपूर्ण सुरक्षा मापदंड बन जाती है।

संक्षेप में, यह पेपर पूर्व कार्य पर केवल एक शैक्षणिक सुधार नहीं है; यह एक प्रतिमान परिवर्तन है। यह चर्चा को "क्या एक बड़ा पूल धोखा दे सकता है?" से "एक अपूर्ण नेटवर्क में, हर किसी की इष्टतम रणनीति प्रोटोकॉल के प्रोत्साहनों को लगातार कैसे तनाव में डालती है?" की ओर ले जाता है। दुर्भाग्य से, उत्तर है "काफी हद तक।" अब सबूत का बोझ रक्षकों पर है कि वे दर्शाएं कि नाकामोटो सहमति, अपने वर्तमान रूप में, वास्तव में प्रोत्साहन-संगत बनाई जा सकती है।