2025년 어느 월요일 새벽 3시, 버지니아 북부의 한 데이터센터에서 시작된 작은 문제가 불과 몇 분 만에 전 세계로 확산되었습니다. 스냅챗이 멈추고, 영국 세무 당국 사이트가 다운되고, 수많은 기업의 서비스가 일제히 마비되었죠.
여러분도 비슷한 경험이 있을 겁니다. 어느 날 갑자기 자주 쓰던 앱이나 서비스가 전부 먹통이 되어버린 당황스러운 순간 말입니다. 이 사건의 주인공은 바로 아마존 웹 서비스(AWS)였습니다.
클라우드 인프라의 양날의 검
AWS는 자신을 “업계 최고의 클라우드 기능과 전문성을 제공하는” 회사라고 소개합니다. 다소 과장된 표현처럼 들릴 수 있지만, 실제로 AWS는 현대 웹을 떠받치는 핵심 인프라입니다.
쉽게 말해, AWS는 웹을 구동하는 컴퓨터와 데이터센터를 기업들에게 임대하는 사업을 합니다. 스타트업부터 대기업까지, 자체 데이터센터를 구축하는 대신 AWS를 빌려 쓰는 거죠. 필요한 만큼만 사용하고 비용을 지불하는 방식은 효율적이고 편리합니다.
이 모델은 엄청난 성공을 거두었습니다. AWS는 마이크로소프트 애저, 구글 클라우드와 경쟁하는 세계 최대 규모의 클라우드 서비스이며, 현재 아마존 전체 수익의 상당 부분을 책임지고 있습니다. 실제로 AWS는 서비스 이용 약관상 최소 99.99%의 가동률을 보장해야 하며, 대부분의 경우 이를 달성하고 있습니다.
하지만 문제는, 남은 0.01%가 발생했을 때입니다.
인터넷의 전화번호부가 고장 났을 때
이번 장애의 원인은 “인터넷의 전화번호부”로 불리는 도메인 이름 시스템(DNS)과 관련이 있었습니다. 여러분이 브라우저에 www.the-independent.com
같은 주소를 입력하면, DNS가 이를 실제 서버 주소로 변환해줍니다. 마치 전화번호부에서 이름으로 전화번호를 찾듯이 말이죠.
DNS는 원래 분산형 시스템으로 설계되었습니다. 인터넷 개발 초기의 이상주의적이고 공동체주의적인 비전을 반영한 것이죠. 시스템이 전 세계에 분산되어 있어, 한 곳에 문제가 생겨도 다른 곳에서 작동할 수 있도록 설계되었습니다.
그러나 최근 몇 년간 이러한 분산 구조는 점차 사라지고 있습니다.
중앙집중화의 딜레마
현대 웹 인프라의 가장 큰 아이러니는 바로 이것입니다.
효율성을 추구하다 보니, 인터넷의 상당 부분이 소수의 거대 기업에 집중되었다는 점입니다.
자체 인프라를 운영할 만큼 큰 기업조차도 이 문제에서 자유롭지 못합니다. 메타(Meta)의 사례를 보세요. 최근 몇 년간 메타는 페이스북, 인스타그램, 왓츠앱의 백엔드 기술을 통합했습니다. 결과는? 드물게 발생하는 서비스 중단 시 모든 제품이 동시에 다운되는 상황이 벌어졌죠.
작년 크라우드스트라이크(CrowdStrike) 사건도 비슷한 맥락입니다. 하나의 악성 업데이트가 윈도우 컴퓨터에 적용되면서 병원, 항공사, 오프라인 매장 등 전혀 관련 없어 보이는 수많은 서비스가 동시에 마비되었습니다. 모두 동일한 사이버 보안 솔루션을 사용하고 있었기 때문입니다.
규모의 경제 vs 시스템의 취약성
중앙집중화가 나쁜 것만은 아닙니다. 실제로 이러한 구조 덕분에:
- 기업들은 막대한 인프라 투자 없이 글로벌 서비스를 운영할 수 있습니다
- 전문적인 보안과 안정성을 합리적인 비용으로 확보할 수 있습니다
- 혁신적인 스타트업도 처음부터 대규모 인프라를 활용할 수 있습니다
하지만 동시에, 작은 문제가 연쇄적이고 광범위한 피해로 이어질 수 있는 구조적 취약성을 안고 있습니다.
이번 AWS 장애가 보여주는 것은 명확합니다.
현대 인터넷은 놀라울 정도로 회복력이 강하면서도, 동시에 위험할 정도로 취약합니다.
우리는 어디로 가야 할까
여러분은 어떻게 생각하시나요? 효율성과 편의성을 위해 중앙집중화를 받아들여야 할까요, 아니면 초기 인터넷의 분산형 구조로 돌아가야 할까요?
아마도 답은 그 중간 어딘가에 있을 것입니다.
기업들은 단일 클라우드 제공업체에 대한 의존도를 줄이고 멀티 클라우드 전략을 채택해야 합니다. 개발자들은 장애 발생을 전제로 시스템을 설계하고, 복구 계획을 수립해야 합니다. 그리고 정책 입안자들은 핵심 인프라의 과도한 집중을 방지하는 규제를 고려해야 할지도 모릅니다.
결국 이번 사건은 우리에게 중요한 질문을 던집니다. 인터넷이 우리 삶에 깊이 스며든 지금, 우리는 과연 이 복잡한 시스템의 취약성을 충분히 이해하고 있을까요? 그리고 다음 장애가 발생했을 때, 우리는 준비되어 있을까요?
참고 자료: The Independent, “Why is the internet broken? How one small problem can take down the whole web”