1. Pengenalan
Kertas kerja ini membincangkan kelemahan kritikal dalam keserasian insentif Bitcoin, yang pertama kali diketengahkan oleh Eyal dan Sirer (2014). Walaupun strategi SM1 mereka menunjukkan perlombongan mementingkan diri yang menguntungkan, kajian ini membuktikan ia bukan optimum. Kami membentangkan model umum dan algoritma untuk mencari polisi perlombongan mementingkan diri ε-optimum, menetapkan had keuntungan yang lebih ketat dan mendedahkan ambang kuasa pengiraan yang lebih rendah untuk serangan berjaya berbanding yang diketahui sebelum ini.
2. Latar Belakang & Kerja Berkaitan
Memahami perlombongan mementingkan diri memerlukan asas dalam mekanisme konsensus Bitcoin dan model serangan sebelumnya.
2.1. Asas Perlombongan Bitcoin
Bitcoin bergantung pada konsensus Bukti Kerja (Proof-of-Work, PoW) di mana pelombong bersaing untuk menyelesaikan teka-teki kriptografi. Yang pertama menyelesaikan teka-teki menyiarkan blok baharu, menuntut ganjaran blok dan yuran transaksi. Protokol memerlukan penerbitan blok serta-merta. Peraturan rantai terpanjang menyelesaikan garpu (forks).
2.2. Strategi SM1 (Eyal & Sirer)
Strategi SM1 Eyal dan Sirer melibatkan pelombong yang menahan blok yang baru dilombong, mencipta rantai peribadi. Penyerang mendedahkan blok secara strategik untuk menjadikan blok jujur sebagai yatim (orphan), menuntut bahagian ganjaran yang tidak seimbang. Analisis mereka mencadangkan ambang keuntungan kira-kira ~25% daripada kadar hash rangkaian untuk penyerang yang mempunyai sambungan baik.
3. Model & Metodologi
Kami memperluas model perlombongan mementingkan diri ke dalam kerangka Proses Keputusan Markov (Markov Decision Process, MDP), membolehkan pencarian ruang strategi yang lebih komprehensif.
3.1. Model Perlombongan Mementingkan Diri Diperluas
Keadaan sistem ditakrifkan oleh kelebihan rantai peribadi penyerang berbanding rantai awam. Tindakan termasuk: Terima Pakai (Adopt) (tinggalkan rantai peribadi), Atasi (Override) (siarkan untuk mengatasi rantai awam), Tunggu (Wait) (terus melombong secara peribadi), dan Padankan (Match) (siarkan sekadar untuk seri). Model ini menggabungkan kuasa pengiraan relatif penyerang $\alpha$ dan faktor perambatan rangkaian $\gamma$.
3.2. Algoritma untuk Polisi ε-Optimum
Kami merumuskan masalah ini sebagai MDP ufuk tak terhingga terdiskaun. Menggunakan algoritma lelaran nilai atau lelaran polisi, kami mengira polisi ε-optimum $\pi^*$ yang memaksimumkan hasil relatif penyerang $R(\alpha, \gamma, \pi)$. Output algoritma menentukan tindakan optimum (Tunggu, Terima Pakai, Atasi, Padankan) untuk setiap keadaan yang mungkin (kelebihan $l$).
4. Keputusan & Analisis
Ambang Keuntungan (γ=0.5)
~23%
Bahagian hash diperlukan untuk untung (Model Kami)
Ambang Keuntungan (γ=0.5)
~25%
Bahagian hash diperlukan untuk untung (SM1)
Ambang dengan Kelewatan
>0%
Menghilang di bawah model kelewatan realistik
4.1. Ambang Keuntungan Lebih Rendah
Strategi optimum kami secara konsisten menghasilkan ambang keuntungan yang lebih rendah daripada SM1. Untuk faktor perambatan tipikal ($\gamma=0.5$), ambang menurun daripada kira-kira 25% kepada kira-kira 23%. Perbezaan 2% ini adalah signifikan, membawa lebih banyak penyerang berpotensi ke zon yang menguntungkan.
4.2. Dominasi ke atas SM1
Polisi yang diperoleh mendominasi SM1 dengan ketat. Penambahbaikan utama ialah "penarikan balik serangan" yang lebih canggih—mengetahui dengan tepat bila untuk meninggalkan rantai peribadi (Terima Pakai) untuk mengurangkan kerugian, bukannya berterusan secara dogmatik seperti yang sering dilakukan oleh SM1. Tingkah laku adaptif ini meningkatkan hasil yang dijangkakan merentasi semua nilai $\alpha$ dan $\gamma$.
4.3. Kesan Kelewatan Komunikasi
Di bawah model yang menggabungkan kelewatan perambatan rangkaian, ambang keuntungan secara efektifnya menghilang. Malah pelombong dengan kuasa hash yang boleh diabaikan ($\alpha \rightarrow 0$) mempunyai insentif kebarangkalian untuk kadangkala menahan blok, kerana kelewatan mencipta garpu semula jadi yang boleh mereka eksploitasi. Ini mendedahkan ketidakselarasan insentif yang lebih asas dalam konsensus Nakamoto.
5. Butiran Teknikal & Formula
Teras analisis ialah model peralihan keadaan dan fungsi hasil. Hasil relatif $R$ penyerang dengan kuasa hash $\alpha$ yang mengikuti polisi $\pi$ ialah:
$R(\alpha, \gamma, \pi) = \frac{\text{Blok yang diperoleh oleh penyerang secara jangkaan}}{\text{Jumlah blok yang dicipta secara jangkaan}}$
Keadaan ialah kelebihan $l$. Kebarangkalian peralihan bergantung pada $\alpha$ dan pelombong jujur mencari blok. Contohnya, dari keadaan $l=1$:
- Penyerang mencari blok seterusnya: Kebarangkalian $\alpha$, keadaan baharu $l=2$.
- Pelombong jujur mencari blok seterusnya: Kebarangkalian $(1-\alpha)$, menghasilkan seri. Penyerang kemudian boleh Padankan (siarkan) atau tidak, membawa kepada sub-permainan kompleks yang dianalisis dalam MDP.
Polisi optimum $\pi^*(l)$ diperoleh dengan menyelesaikan persamaan optimaliti Bellman untuk MDP ini.
6. Keputusan Eksperimen & Carta
Carta Utama 1: Hasil Relatif vs. Kuasa Hash (α)
Carta garis membandingkan hasil relatif $R$ polisi optimum (daripada algoritma kami) dengan polisi SM1 dan perlombongan jujur. Lengkung polisi optimum terletak ketat di atas lengkung SM1 untuk semua $\alpha > 0$. Lengkung-lengkung ini bersilang dengan garis perlombongan jujur (di mana $R = \alpha$) pada titik berbeza, secara visual menunjukkan ambang lebih rendah polisi optimum.
Carta Utama 2: Gambar Rajah Peralihan Keadaan
Graf berarah menunjukkan keadaan (l=0,1,2,...) dan tindakan optimum (dilabel pada tepi: Tunggu, Atasi, Terima Pakai, Padankan) seperti yang ditentukan oleh algoritma untuk ($\alpha$, $\gamma$) tertentu. Gambar rajah ini secara konkrit menunjukkan logik keputusan bukan remeh, seperti menerima pakai dari kelebihan 1 dalam keadaan tertentu—langkah kontra-intuitif yang tiada dalam SM1.
7. Kerangka Analisis: Kes Teori Permainan
Skenario: Kolam perlombongan "AlphaPool" mengawal $\alpha = 0.24$ kadar hash rangkaian. Faktor perambatan rangkaian ialah $\gamma=0.6$ (bermaksud AlphaPool mengetahui 60% blok jujur serta-merta).
Strategi SM1: AlphaPool akan mengikut peraturan tegar: lombong secara peribadi dengan kelebihan, siarkan untuk mengatasi apabila mendahului 2. Analisis menunjukkan ini menghasilkan $R_{SM1} \approx 0.239$, iaitu kurang daripada bahagian hashnya (0.24), menjadikannya tidak menguntungkan berbanding perlombongan jujur.
Polisi Optimum (daripada algoritma kami): Polisi terkira $\pi^*$ mungkin menentukan: Dari kelebihan 1, jika blok jujur ditemui, serta-merta Padankan (siarkan) untuk mencipta seri dan bersaing dalam pusingan seterusnya, bukannya menunggu. Perubahan halus ini mengubah kebarangkalian peralihan. Hasil yang terhasil ialah $R_{opt} \approx 0.242$, iaitu lebih besar daripada 0.24. Serangan menjadi menguntungkan.
Pandangan: Kes ini menunjukkan bagaimana pembuatan keputusan optimum yang bergantung keadaan boleh mengubah bahagian hash yang secara teori tidak menguntungkan menjadi menguntungkan, semata-mata melalui penerbitan blok strategik.
8. Prospek Aplikasi & Hala Tuju Masa Depan
Reka Bentuk Protokol & Langkah Penangkis: Kajian ini menyediakan alat untuk ujian tekanan penambahbaikan Bitcoin yang dicadangkan (cth., GHOST, protokol Blockchain Inklusif) terhadap perlombongan mementingkan diri optimum, bukan hanya SM1. Analisis langkah penangkis yang dicadangkan oleh Eyal dan Sirer menunjukkan ia kurang berkesan daripada yang diharapkan, membimbing penyelidikan masa depan ke arah pembaikan yang lebih kukuh.
Melangkaui Bitcoin: Kerangka MDP boleh digunakan untuk rantaian blok Bukti Kerja lain (cth., Litecoin, Bitcoin Cash) dan boleh disesuaikan untuk mengkaji tingkah laku strategik dalam sistem Bukti Kepentingan (Proof-of-Stake, PoS), di mana serangan "penahanan blok" atau "ekuivokasi" analog mungkin wujud.
Serangan Gabungan: Kerja masa depan mesti memodelkan interaksi antara perlombongan mementingkan diri dan serangan perbelanjaan berganda (double-spending). Pelombong mementingkan diri dengan rantai peribadi mempunyai platform semula jadi untuk mencuba perbelanjaan berganda, berpotensi meningkatkan utiliti penyerang dan menurunkan halangan untuk kedua-dua serangan.
Penyahpusatan & Dinamik Kolam: Ambang yang lebih rendah meningkatkan tekanan pemusatan. Kolam besar diinsentifkan untuk menggunakan strategi optimum ini, dan pelombong kecil diinsentifkan untuk menyertai mereka untuk pulangan stabil, mencipta gelung maklum balas yang melemahkan penyahpusatan—premis keselamatan teras Bitcoin.
9. Rujukan
- Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
- Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer, Berlin, Heidelberg.
- Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
- Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (Dirujuk sebagai contoh kerangka algoritma maju, analog dengan pendekatan MDP yang digunakan di sini).
10. Analisis Asal & Pandangan Pakar
Pandangan Teras
Sapirshtein et al. telah menyampaikan kelas induk dalam ujian tekanan protokol, melangkaui eksploitasi khusus (SM1) untuk memodelkan keseluruhan ruang strategi perlombongan mementingkan diri. Penemuan asas mereka adalah kejam: struktur insentif Bitcoin bukan hanya retak pada 25% kuasa hash—ia secara semula jadi bocor, dengan retakan berjalan lebih dekat ke permukaan daripada yang pernah dibayangkan oleh Satoshi. "Ambang keuntungan" bukanlah dinding keras; ia adalah kecerunan yang boleh dihakis oleh strategi optimum ke hampir sifar di bawah keadaan rangkaian dunia sebenar. Ini membingkaikan semula perlombongan mementingkan diri daripada masalah "penyerang besar" kepada ketidakselarasan insentif sistematik yang sentiasa ada.
Aliran Logik
Logik kertas kerja ini sempurna dan menghancurkan. 1) Penggeneralisasian Model: Mereka mengenal pasti SM1 dengan betul sebagai satu titik dalam ruang strategi yang luas. Dengan membingkaikan masalah sebagai Proses Keputusan Markov (MDP)—teknik yang mempunyai keturunan dalam AI dan teori kawalan, serupa dengan kerangka yang digunakan dalam kerja-kerja terobosan seperti kertas kerja CycleGAN untuk meneroka ruang terjemahan imej—mereka membuka kunci keupayaan untuk mencari ruang ini secara sistematik. 2) Penyelesaian Algoritma: Algoritma lelaran nilai bukan sekadar alat; ia adalah mekanisme pembuktian. Ia tidak menganggap strategi; ia memperoleh yang optimum dari prinsip pertama. 3) Pemampatan Ambang: Output adalah jelas: strategi optimum mendominasi SM1, menurunkan palang untuk keuntungan. 4) Pukulan Maut Kelewatan: Langkah terakhir, menggabungkan kelewatan rangkaian, adalah coup de grâce. Ia menunjukkan bahawa dalam dunia bukan serta-merta (iaitu, realiti), insentif ekonomi untuk kadangkala menyimpang dari protokol adalah universal, bukan luar biasa.
Kekuatan & Kelemahan
Kekuatan: Ketegasan metodologi adalah tahap tertinggi. Model MDP adalah alat yang tepat untuk tugas ini, menyediakan asas formal dan boleh kira yang kurang dalam analisis heuristik sebelumnya. Pertimbangan kelewatan rangkaian merapatkan jurang kritikal antara teori dan amalan, selaras dengan pemerhatian dari kajian pengukuran rangkaian seperti dari institusi seperti IC3 (Inisiatif untuk Kriptomata & Kontrak). Utiliti kertas kerja sebagai "penganalisis keselamatan" untuk pengubahsuaian protokol adalah sumbangan praktikal utama.
Kelemahan & Titik Buta: Analisis, walaupun mendalam, masih permainan dua pemain (penyerang vs. "selebihnya" jujur). Ia tidak sepenuhnya bergelut dengan keseimbangan berbilang kolam dinamik yang mencirikan Bitcoin hari ini. Apa yang berlaku apabila berbilang kolam besar semua menjalankan strategi mementingkan diri optimum (atau pembelajaran) antara satu sama lain? Model ini juga memudahkan kos penarikan balik serangan (menjadikan blok sendiri sebagai yatim), yang mungkin mempunyai kos psikologi atau reputasi bukan linear untuk kolam. Tambahan pula, seperti yang dinyatakan oleh penyelidikan kemudian (cth., Gervais et al., 2016), analisis menganggap α statik; dalam realiti, kuasa hash mungkin meninggalkan rantai yang dianggap diserang, mengubah bahagian penyerang secara dinamik.
Pandangan Boleh Tindak
Untuk Pembangun Protokol: Berhenti tampal untuk SM1. Anda mesti mereka bentuk untuk strategi optimum. Kertas kerja ini menyediakan penanda aras. Sebarang pembaikan yang dicadangkan (cth., peraturan pilihan garpu baharu seperti GHOST) mesti dinilai terhadap kerangka MDP ini. Matlamatnya haruslah menjadikan strategi jujur sebagai keseimbangan Nash untuk sebarang α > 0, palang yang jauh lebih tinggi daripada yang dipegang sekarang.
Untuk Pelombong & Pengendali Kolam: Kalkulus telah berubah. Garis panduan "keselamatan" 25% sudah lapuk. Kolam dengan kuasa hash serendah 20%, terutamanya yang mempunyai ketersambungan baik (γ tinggi), kini mesti mempertimbangkan godaan ekonomi penahanan strategik. Implikasi etika dan teori permainan untuk tidak menjalankan polisi optimum menjadi perbincangan bilik mesyuarat.
Untuk Pelabur & Pengawal Selia: Fahami bahawa belanjawan keselamatan Bitcoin (ganjaran pelombong) berada di bawah bentuk serangan ekonomi yang lebih canggih daripada yang diakui sebelum ini. Risiko pemusatan perlombongan bukan linear; ia tertakluk kepada titik perubahan strategik yang didedahkan oleh penyelidikan ini. Memantau tingkah laku kolam dan masa perambatan rangkaian menjadi metrik keselamatan kritikal.
Kesimpulannya, kertas kerja ini bukan sekadar penambahbaikan akademik ke atas kerja sebelumnya; ia adalah anjakan paradigma. Ia mengalihkan perbincangan dari "Bolehkah kolam besar menipu?" kepada "Bagaimanakah strategi optimum semua orang, dalam rangkaian tidak sempurna, sentiasa menegangkan insentif protokol?" Jawapannya, malangnya, adalah "secara signifikan." Beban pembuktian kini terletak pada pembela untuk menunjukkan bahawa konsensus Nakamoto, dalam bentuk semasanya, boleh dibuat benar-benar serasi insentif.