Post

AWS US-EAST-1: O apagão de 20 de outubro que deixou o Brasil e o mundo na emergência

Fala galera! Seis tão baum?

Na última segunda-feira, 20 de outubro de 2025, uma falha crítica na região US-EAST-1 da AWS provocou instabilidade em sites e aplicativos por cerca de 15 horas.

Empresas como iFood, Mercado Livre e PicPay no Brasil, além de gigantes globais como Prime Video, Zoom, Duolingo, Snapchat e até jogos como Fortnite, foram afetados.

Segundo a própria AWS, mais de 500 empresas sofreram impactos diretos durante o apagão.

Linha do tempo do incidente

  • 04h11 (horário de Brasília) — A AWS identificou taxas de erro significativas no DynamoDB e em serviços de EC2 na região US-EAST-1 (N. Virginia).
  • Manhã e tarde — O Downdetector registrou picos de reclamações em aplicativos de delivery, bancos digitais, e-commerces e plataformas de streaming.
  • 18h30 — A AWS reportava ainda 76 recursos com instabilidade e 66 já resolvidos em sua página de status.
  • 19h01 (horário de Brasília) — A AWS informou que todos os serviços haviam retornado ao funcionamento normal, encerrando oficialmente o incidente.

O que causou a falha?

A falha ocorreu na região US-EAST-1, o maior e mais antigo grupo de data centers da AWS, localizado no norte da Virgínia (EUA).
A empresa possui atualmente 38 regiões de data centers no mundo, incluindo uma no Brasil.

Principais pontos técnicos:

  • DynamoDB:
    • Foram registradas taxas de erro significativas no serviço de banco de dados NoSQL da AWS.
    • O problema estava ligado ao processo de resolução de DNS, que traduz nomes de domínio em endereços IP.
    • Isso afetou a comunicação entre serviços internos e externos, gerando falhas em cascata.
  • EC2 (Elastic Compute Cloud):
    • Empresas tiveram dificuldades para criar novas instâncias.
    • O EC2, que deveria escalar elasticamente, ficou limitado, impedindo que workloads críticos fossem expandidos.
  • Impacto em cadeia:
    • Serviços como IAM, Cognito, S3 e CloudWatch apresentaram falhas.
    • Pipelines de CI/CD, APIs REST e workloads de produção ficaram paralisados.
    • Segundo a AWS, medidas de mitigação foram aplicadas gradualmente até a recuperação total.

Impacto global

A falha afetou milhões de usuários e centenas de empresas. Alguns exemplos:

  • Brasil: iFood, Mercado Livre e PicPay ficaram fora do ar ou com instabilidade.
  • Global: Alexa, Zoom, Duolingo, Snapchat, Fortnite, Prime Video e Slack relataram falhas.
  • Infraestrutura crítica: pipelines de CI/CD, autenticação de usuários e integrações de APIs ficaram indisponíveis.

Esse incidente reforça como a dependência de uma única região pode gerar efeitos globais em cadeia.

Por que sempre a US-EAST-1?

A região US-EAST-1 (N. Virginia) é a mais antiga e utilizada da AWS. Isso significa:

  • Hospeda serviços core da AWS.
  • É a região default para muitos SDKs e integrações.
  • Possui dependências internas com serviços globais.
  • É usada por milhares de clientes como ponto de entrada.

Essa centralização transforma a US-EAST-1 em um ponto de falha crítico.

Histórico de falhas na US-EAST-1

DataEventoImpacto
Out/2025Falha em DynamoDB e EC2 (DNS)15h de instabilidade global
Dez/2021Problema em rede internaEC2, S3, Lambda ficaram indisponíveis
Nov/2020Falha no KinesisAfetou CloudWatch, Cognito e apps de streaming
Jul/2018Interrupção no S3Sites e apps que usam S3 como backend ficaram fora do ar

Comparando crises: AWS vs. CrowdStrike

É interessante notar como o mercado reage de forma diferente a incidentes de grande escala, dependendo de quem é o responsável e de como a crise é resolvida.

  • Em julho de 2024, a CrowdStrike sofreu uma falha global causada por uma atualização defeituosa.
    • O resultado foi um verdadeiro colapso: computadores travaram no mundo inteiro, gerando a famosa tela azul no Windows.
    • As ações da empresa despencaram mais de 20% em um único dia, e sua reputação levou meses para se recuperar.
  • Já no caso da AWS, apesar do impacto massivo em serviços digitais, o mercado tratou o episódio de forma diferente:
    • A interrupção foi dolorosa, mas indireta para a maioria dos usuários finais.
    • A AWS é vista como “too big to fail” — grande demais para falhar.
    • Investidores assumem que a Amazon sempre se recuperará, pois a economia global depende de sua infraestrutura.

Esse contraste mostra um paradoxo da centralização digital: quanto mais uma empresa se torna essencial para o funcionamento da sociedade, mais imune a consequências de mercado ela parece ser.

Como mitigar esse tipo de falha?

Incidentes como o da US-EAST-1 mostram que não basta confiar apenas no provedor de nuvem. É preciso arquitetar resiliência desde o início. Algumas práticas recomendadas:

Adote estratégias Multi-Region e Multi-Zone

  • Nunca concentre todos os workloads em uma única região.
  • Distribua serviços críticos em múltiplas zonas de disponibilidade ou até em provedores diferentes (multi-cloud).
  • Isso garante alta disponibilidade mesmo quando uma região inteira falha.

Habilite sistemas de failover inteligentes

  • Configure Route 53 com health checks e políticas de failover.
  • Use Global Accelerator para redirecionar tráfego automaticamente.
  • Combine com replicação de dados (S3 Replication, RDS cross-region, DynamoDB Global Tables).
  • O objetivo é manter usuários conectados, mesmo quando uma região está fora do ar.

Invista em monitoramento independente

  • A AWS monitora sua própria infraestrutura, mas você deve monitorar a sua.
  • Use ferramentas como Datadog, New Relic, Grafana ou dashboards customizados.
  • Isso permite detectar falhas antes que os clientes percebam e agir proativamente.

Teste regularmente seus planos de DR

  • Conduza simulações de desastre e pratique chaos engineering.
  • Testes revelam pontos fracos antes que um incidente real os exponha.
  • Defina e valide RTO (Recovery Time Objective) e RPO (Recovery Point Objective) para cada workload.

Comunique-se de forma transparente durante falhas

  • Tenha um playbook de incidentes pronto, com responsáveis e canais de comunicação definidos.
  • Informe clientes e stakeholders com atualizações rápidas e honestas.
  • Transparência preserva a confiança, mesmo em momentos críticos.

Lições aprendidas

Esse incidente reforça que mesmo os maiores provedores de nuvem não estão imunes a falhas.
A diferença entre quedas prolongadas e continuidade de serviço está nas decisões arquiteturais que tomamos:

  • Projetar para resiliência multi-region.
  • Implementar planos de DR testados.
  • Garantir observabilidade independente.
  • Ter playbooks de comunicação claros para incidentes.

Se você ainda depende exclusivamente de uma única região, é hora de repensar sua estratégia.

A nuvem é poderosa, mas só entrega confiabilidade quando usada com boas práticas.

Compartilha esse post com seu time de infraestrutura, DevOps e arquitetura.

Se você tiver alguma dúvida ou comentário, sinta-se à vontade para compartilhá-los conosco na seção abaixo!

Forte abraço!

Este post está licenciado sob CC BY 4.0 e pelo autor.