Estratégias Ótimas de Mineração Egoísta no Bitcoin: Análise e Implicações

1. Introdução

Este artigo aborda uma falha crítica na compatibilidade de incentivos do Bitcoin, destacada inicialmente por Eyal e Sirer (2014). Embora a estratégia SM1 deles tenha demonstrado mineração egoísta lucrativa, este trabalho prova que ela não é ótima. Apresentamos um modelo generalizado e um algoritmo para encontrar políticas ε-ótimas de mineração egoísta, estabelecendo limites mais rigorosos para a lucratividade e revelando um limiar de poder computacional mais baixo para ataques bem-sucedidos do que se sabia anteriormente.

2. Contexto & Trabalhos Relacionados

Compreender a mineração egoísta requer uma base no mecanismo de consenso do Bitcoin e nos modelos de ataque anteriores.

2.1. Fundamentos da Mineração Bitcoin

O Bitcoin depende de um consenso de Prova de Trabalho (PoW), onde os mineradores competem para resolver quebra-cabeças criptográficos. O primeiro a resolver um quebra-cabeça transmite um novo bloco, reivindicando uma recompensa de bloco e taxas de transação. O protocolo exige a publicação imediata do bloco. A regra da cadeia mais longa resolve bifurcações.

2.2. A Estratégia SM1 (Eyal & Sirer)

A estratégia SM1 de Eyal e Sirer envolve um minerador reter um bloco recém-minerado, criando uma cadeia privada. O atacante revela blocos estrategicamente para orfanar blocos honestos, reivindicando uma parcela desproporcional das recompensas. A análise deles sugeriu um limiar de lucratividade de ~25% da taxa de hash da rede para um atacante bem conectado.

3. Modelo & Metodologia

Estendemos o modelo de mineração egoísta para uma estrutura de Processo de Decisão de Markov (MDP), permitindo uma busca mais abrangente do espaço de estratégias.

3.1. Modelo Estendido de Mineração Egoísta

O estado do sistema é definido pela vantagem da cadeia privada do atacante sobre a cadeia pública. As ações incluem: Adotar (abandonar a cadeia privada), Sobrescrever (publicar para ultrapassar a cadeia pública), Esperar (continuar minerando em privado) e Emparelhar (publicar apenas o suficiente para empatar). O modelo incorpora o poder computacional relativo do atacante $\alpha$ e o fator de propagação da rede $\gamma$.

3.2. Algoritmo para Políticas ε-Ótimas

Formulamos o problema como um MDP de horizonte infinito com desconto. Usando algoritmos de iteração de valor ou iteração de política, calculamos uma política ε-ótima $\pi^*$ que maximiza a receita relativa do atacante $R(\alpha, \gamma, \pi)$. A saída do algoritmo dita a ação ótima (Esperar, Adotar, Sobrescrever, Emparelhar) para cada estado possível (vantagem $l$).

4. Resultados & Análise

Limiar de Lucro (γ=0.5)

~23%

Participação de hash necessária para lucro (Nosso Modelo)

Limiar de Lucro (γ=0.5)

~25%

Participação de hash necessária para lucro (SM1)

Limiar com Atrasos

>0%

Desaparece sob modelos realistas de atraso

4.1. Limiares de Lucratividade Mais Baixos

Nossas estratégias ótimas consistentemente produzem um limiar de lucratividade mais baixo do que o SM1. Para um fator de propagação típico ($\gamma=0.5$), o limiar cai de aproximadamente 25% para cerca de 23%. Essa diferença de 2% é significativa, trazendo mais atacantes potenciais para a zona lucrativa.

4.2. Dominância sobre o SM1

As políticas derivadas dominam estritamente o SM1. A melhoria chave é uma "retirada do ataque" mais sofisticada — saber precisamente quando abandonar uma cadeia privada (Adotar) para cortar perdas, em vez de persistir dogmaticamente como o SM1 frequentemente faz. Este comportamento adaptativo aumenta a receita esperada em todos os valores de $\alpha$ e $\gamma$.

4.3. Impacto dos Atrasos de Comunicação

Sob um modelo que incorpora atrasos de propagação da rede, o limiar de lucro efetivamente desaparece. Mesmo mineradores com poder de hash insignificante ($\alpha \rightarrow 0$) têm um incentivo probabilístico para ocasionalmente reter blocos, pois os atrasos criam bifurcações naturais que eles podem explorar. Isso revela um desalinhamento de incentivos mais fundamental no consenso de Nakamoto.

5. Detalhes Técnicos & Fórmulas

O cerne da análise é o modelo de transição de estado e a função de receita. A receita relativa $R$ de um atacante com poder de hash $\alpha$ seguindo a política $\pi$ é:

$R(\alpha, \gamma, \pi) = \frac{\text{Blocos esperados ganhos pelo atacante}}{\text{Total esperado de blocos criados}}$

O estado é a vantagem $l$. As probabilidades de transição dependem de $\alpha$ e dos mineradores honestos encontrarem blocos. Por exemplo, do estado $l=1$:

Atacante encontra o próximo bloco: Probabilidade $\alpha$, novo estado $l=2$.
Mineradores honestos encontram o próximo bloco: Probabilidade $(1-\alpha)$, resultando em um empate. O atacante pode então Emparelhar (publicar) ou não, levando a um subjogo complexo analisado no MDP.

A política ótima $\pi^*(l)$ é derivada resolvendo a equação de otimalidade de Bellman para este MDP.

6. Resultados Experimentais & Gráficos

Gráfico-Chave 1: Receita Relativa vs. Poder de Hash (α)
Um gráfico de linhas comparando a receita relativa $R$ da política ótima (do nosso algoritmo) contra a política SM1 e a mineração honesta. A curva da política ótima está estritamente acima da curva do SM1 para todo $\alpha > 0$. As curvas cruzam a linha da mineração honesta (onde $R = \alpha$) em pontos diferentes, demonstrando visualmente o limiar mais baixo da política ótima.

Gráfico-Chave 2: Diagrama de Transição de Estado
Um grafo direcionado mostrando estados (l=0,1,2,...) e as ações ótimas (rotuladas nas arestas: Esperar, Sobrescrever, Adotar, Emparelhar) conforme determinado pelo algoritmo para um ($\alpha$, $\gamma$) específico. Este diagrama mostra concretamente a lógica de decisão não trivial, como adotar a partir de uma vantagem de 1 sob certas condições — um movimento contra-intuitivo que não está no SM1.

7. Estrutura de Análise: Um Caso de Teoria dos Jogos

Cenário: Um pool de mineração "AlphaPool" controla $\alpha = 0.24$ da taxa de hash da rede. O fator de propagação da rede é $\gamma=0.6$ (significando que o AlphaPool fica sabendo de 60% dos blocos honestos imediatamente).

Estratégia SM1: O AlphaPool seguiria uma regra rígida: minerar em privado com uma vantagem, publicar para sobrescrever quando estiver à frente por 2. A análise mostra que isso produz $R_{SM1} \approx 0.239$, que é menor que sua participação de hash (0.24), tornando-a não lucrativa em comparação com a mineração honesta.

Política Ótima (do nosso algoritmo): A política calculada $\pi^*$ pode ditar: De uma vantagem de 1, se um bloco honesto for encontrado, imediatamente Emparelhar (publicar) para criar um empate e competir na próxima rodada, em vez de esperar. Esta mudança sutil altera as probabilidades de transição. A receita resultante é $R_{opt} \approx 0.242$, que é maior que 0.24. O ataque torna-se lucrativo.

Insight: Este caso demonstra como a tomada de decisão ótima, dependente do estado, pode transformar uma participação de hash teoricamente não lucrativa em uma lucrativa, puramente através da publicação estratégica de blocos.

8. Perspectivas de Aplicação & Direções Futuras

Design de Protocolo & Contramedidas: Este trabalho fornece uma ferramenta para testar estressadamente as melhorias propostas para o Bitcoin (por exemplo, GHOST, protocolos de blockchain inclusivos) contra a mineração egoísta ótima, não apenas o SM1. A análise da contramedida sugerida por Eyal e Sirer mostra que ela é menos eficaz do que o esperado, orientando pesquisas futuras para correções mais robustas.

Além do Bitcoin: A estrutura MDP é aplicável a outras blockchains de Prova de Trabalho (por exemplo, Litecoin, Bitcoin Cash) e pode ser adaptada para estudar o comportamento estratégico em sistemas de Prova de Participação (PoS), onde podem existir ataques análogos de "retenção de blocos" ou "equivocação".

Ataques Combinados: Trabalhos futuros devem modelar a interação entre mineração egoísta e ataques de gasto duplo. Um minerador egoísta com uma cadeia privada tem uma plataforma natural para tentar gastos duplos, potencialmente aumentando a utilidade do atacante e diminuindo a barreira para ambos os ataques.

Descentralização & Dinâmica de Pools: O limiar mais baixo aumenta a pressão de centralização. Grandes pools são incentivados a empregar essas estratégias ótimas, e mineradores menores são incentivados a se juntar a eles para retornos estáveis, criando um ciclo de feedback que mina a descentralização — uma premissa central de segurança do Bitcoin.

9. Referências

Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2015). Optimal Selfish Mining Strategies in Bitcoin. arXiv preprint arXiv:1507.06183.
Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer, Berlin, Heidelberg.
Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Decentralized Business Review, 21260.
Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (Citado como um exemplo de estruturas algorítmicas avançadas, análogas à abordagem MDP usada aqui).

10. Análise Original & Visão de Especialista

Insight Central

Sapirshtein et al. deram uma aula magistral em teste de estresse de protocolo, indo além da exploração específica (SM1) para modelar todo o espaço de estratégias de mineração egoísta. Sua revelação fundamental é brutal: a estrutura de incentivos do Bitcoin não está apenas rachada aos 25% de poder de hash — ela é intrinsecamente vazada, com as fissuras correndo muito mais perto da superfície do que Satoshi jamais imaginou. O "limiar de lucro" não é uma parede dura; é um gradiente que a estratégia ótima pode erodir para quase zero sob condições realistas de rede. Isso reformula a mineração egoísta de um problema de "grande atacante" para um desalinhamento de incentivos sistêmico e sempre presente.

Fluxo Lógico

A lógica do artigo é impecável e devastadora. 1) Generalização do Modelo: Eles identificam corretamente o SM1 como um único ponto em um vasto espaço de estratégias. Ao enquadrar o problema como um Processo de Decisão de Markov (MDP) — uma técnica com pedigree em IA e teoria de controle, análoga às estruturas usadas em trabalhos inovadores como o artigo CycleGAN para explorar espaços de tradução de imagem — eles desbloqueiam a capacidade de pesquisar esse espaço sistematicamente. 2) Solução Algorítmica: O algoritmo de iteração de valor não é apenas uma ferramenta; é um mecanismo de prova. Ele não assume uma estratégia; deriva a ótima a partir dos primeiros princípios. 3) Compressão do Limiar: O resultado é claro: estratégias ótimas dominam o SM1, baixando a barra para a lucratividade. 4) O Golpe Final do Atraso: O movimento final, incorporando atrasos de rede, é o coup de grâce. Mostra que em um mundo não instantâneo (ou seja, a realidade), o incentivo econômico para ocasionalmente desviar do protocolo é universal, não excepcional.

Pontos Fortes & Falhas

Pontos Fortes: O rigor metodológico é de primeira linha. O modelo MDP é a ferramenta certa para o trabalho, fornecendo uma base formal e computável que as análises heurísticas anteriores careciam. A consideração dos atrasos de rede preenche uma lacuna crítica entre teoria e prática, alinhando-se com observações de estudos de medição de rede como os de instituições como a IC3 (Initiative for Cryptocurrencies & Contracts). A utilidade do artigo como um "analisador de segurança" para modificações de protocolo é uma contribuição prática importante.

Falhas & Pontos Cegos: A análise, embora profunda, ainda é um jogo de dois jogadores (atacante vs. "resto" honesto). Ela não lida totalmente com o equilíbrio dinâmico e multi-pool que caracteriza o Bitcoin hoje. O que acontece quando vários pools grandes executam estratégias egoístas ótimas (ou de aprendizado) uns contra os outros? O modelo também simplifica o custo da retirada do ataque (orfanar seus próprios blocos), que pode ter custos psicológicos ou de reputação não lineares para os pools. Além disso, como observado por pesquisas posteriores (por exemplo, Gervais et al., 2016), a análise assume um α estático; na realidade, o poder de hash pode fugir de uma cadeia percebida como atacada, alterando dinamicamente a participação do atacante.

Insights Acionáveis

Para Desenvolvedores de Protocolo: Parem de corrigir para o SM1. Vocês devem projetar para a estratégia ótima. Este artigo fornece o benchmark. Qualquer correção proposta (por exemplo, novas regras de escolha de bifurcação como GHOST) deve ser avaliada contra esta estrutura MDP. O objetivo deve ser tornar a estratégia honesta um equilíbrio de Nash para qualquer α > 0, um padrão muito mais alto do que o atualmente mantido.

Para Mineradores & Operadores de Pool: O cálculo mudou. A diretriz de "segurança" de 25% está obsoleta. Pools com apenas 20% de poder de hash, especialmente aquelas com boa conectividade (γ alto), devem agora considerar a tentação econômica da retenção estratégica. As implicações éticas e de teoria dos jogos de não executar a política ótima tornam-se uma discussão de diretoria.

Para Investidores & Reguladores: Compreendam que o orçamento de segurança do Bitcoin (recompensas dos mineradores) está sob uma forma mais sofisticada de ataque econômico do que anteriormente reconhecido. O risco de centralização da mineração não é linear; está sujeito a pontos de inflexão estratégicos revelados por esta pesquisa. Monitorar o comportamento dos pools e os tempos de propagação da rede torna-se uma métrica de segurança crítica.

Em conclusão, este artigo não é apenas uma melhoria acadêmica em relação ao trabalho anterior; é uma mudança de paradigma. Ele move a discussão de "Um grande pool pode trapacear?" para "Como a estratégia ótima de todos, em uma rede imperfeita, tensiona constantemente os incentivos do protocolo?" A resposta, infelizmente, é "significativamente". O ônus da prova agora cabe aos defensores para demonstrar que o consenso de Nakamoto, em sua forma atual, pode ser tornado verdadeiramente compatível com incentivos.