데이터 센터의 연결이 끊어진 원인은 무엇입니까?
전형적인 사건 1: 아마존 AWS 는 크리스마스 이브에 인터넷 접속을 끊는다.
실패 원인: 유연한 로드 밸런싱 서비스가 실패했습니다.
201212 월 24 일, 지난 크리스마스 이브에 아마존은 고객들을 너무 안전하게 보내지 않았다. 아마존 AWS 는 미국 동부 1 지역의 데이터 센터에서 고장이 났고, 탄력적인 로드 균형 조정 서비스가 중단되어 인터넷 비행과 Heroku 등의 사이트에 영향을 미쳤다. 이 가운데 Heroku 도 미국 동부 AWS 서비스 고장의 영향을 받았다. 하지만 공교롭게도 인터넷 비행의 경쟁 업체인 아마존 자신의 업무인 아마존 Prime 인스턴트 동영상은 이번 고장의 영향을 받지 않았다. (윌리엄 셰익스피어, 아마존, Northern Exposure (미국 TV 드라마), 스포츠명언)
12 년 2 월 24 일 아마존 AWS 중단 서비스는 처음도 아니고 마지막도 아니다.
2065 438+02 10 월 22 일, 10, 아마존이 북버지니아에서 인터넷 서비스 AWS 를 한 번 중단했습니다. 그 이유는 지난번과 비슷하다. 사고는 Reddit 과 Pinterest 를 포함한 유명 사이트에 영향을 미쳤다. 중단은 탄성 마술 콩 서비스에 영향을 미치고, 그 다음은 탄성 마술 콩 서비스의 콘솔, 관계형 데이터베이스 서비스, 탄성 캐시, 유연한 컴퓨팅 클라우드 EC2, 클라우드 검색이 뒤 따른다. 이 사고로 많은 사람들이 아마존이 북부 버지니아 데이터 센터의 인프라를 업그레이드해야 한다고 생각하게 되었다.
20 1 1 년 4 월 22 일 아마존 클라우드 데이터 센터 서버의 대면적 다운타임은 아마존 역사상 가장 심각한 클라우드 컴퓨팅 보안 사건으로 꼽혔다. 버지니아 북부에 위치한 아마존의 클라우드 컴퓨팅 센터가 다운되면서 Quora, Reddit, Hootsuite, FourSquare 를 포함한 일부 사이트가 영향을 받았습니다. 아마존 공식 보고서에 따르면 이 사건은 EC2 시스템 설계에 허점과 디자인 결함이 있어 EC2 (아마존 ElasticComputeCloud 서비스) 경쟁력을 높이기 위해 지속적으로 수정되고 있다.
20 10 년 6 월, 거의 68,000 명의 Salesforce.com 사용자가 최소 1 시간의 가동 중지 시간을 경험했습니다. Salesforce.com 자체 데이터 센터에서 "시스템 오류" 가 발생하여 백업을 포함한 모든 서비스가 일시적으로 마비되었습니다. 이는 또한 SalesForce.com 이 공개하지 않으려는 잠금 정책을 보여줍니다. PaaS 플랫폼과 force.com 은 Salesforce.com 외부에서 사용할 수 없습니다. 그래서 일단 SalesForce.com 에 문제가 생기면 force.com 에도 문제가 있습니다. 그래서 서비스가 오래 중단되고 문제가 까다로워질 수 있다.
단절의 유인 2: 자연재해
전형적인 이벤트 1: 아마존 베를린 데이터 센터 다운타임.
고장 원인: 번개가 베를린 데이터 센터의 변압기를 쳤다.
20 1 1 년 8 월 6 일 북아일랜드 더블린의 번개로 아마존과 마이크로소프트의 유럽 클라우드 컴퓨팅 네트워크가 데이터 센터 정전으로 인해 대규모로 정전되었다. 번개가 더블린 데이터 센터 근처의 변압기를 쳐서 폭발했다. 폭발로 화재가 발생하여 모든 공공 서비스 기관의 업무가 일시적으로 중단되어 전체 데이터 센터의 가동 중지 시간이 발생했습니다.
이 데이터 센터는 아마존이 유럽에 있는 유일한 데이터 저장 장소입니다. 즉, EC2 클라우드 컴퓨팅 플랫폼 고객은 사고 발생 시 임시로 사용할 수 있는 다른 데이터 센터가 없습니다. 다운타임으로 인해 아마존 EC2 클라우드 서비스 플랫폼을 사용하는 많은 사이트가 이틀 동안 중단되었다.
전형적인 사건 2: 캘거리 데이터 센터 화재 사고
고장 원인: 데이터 센터 화재
20 12 7 월 1 1 캘거리 데이터 센터 화재 사고: 캐나다 통신 서비스 공급업체인 ShawCommunicationsInc 가 캘거리 알버타에 위치한 데이터 센터에서 화재가 발생하여 현지 병원에서 수백 대의 수술이 지연되었습니다. 데이터 센터의 비상 관리 서비스로 인해 화재 사고는 주요 공공 서비스를 지원하는 주요 백업 시스템에 영향을 미쳤습니다. 이 사건은 재해 관리 계획의 도입과 함께 적시에 복구 및 장애 복구 시스템을 확보해야 하는 일련의 정부 기관에 경종을 울렸다.
전형적인 사건 3: 슈퍼 허리케인 샌디가 데이터 센터를 강타했습니다.
장애 원인: 폭풍과 홍수로 인해 데이터 센터가 다운되었습니다.
20 12 10 10 월 29 일 슈퍼 허리케인 샌디: 뉴욕과 뉴저지의 데이터 센터는 이번 허리케인의 영향을 받아 맨해튼 하성 침수, 일부 시설 폐쇄, 주변 지역 데이터 등 나쁜 영향을 미쳤다 허리케인 샌디의 영향은 단일 중단 사고를 뛰어넘어 피해 지역의 데이터 센터 업계에 전례 없는 재난을 가져왔다. 실제로 diesel 은 데이터 센터 복구의 생명선이 되었습니다. 대기 전원 공급 시스템으로서, 그것은 지역 전체의 부하를 인수하여 발전기의 연료를 유지하기 위한 특별 조치를 취하도록 촉구했다. 즉각적인 초점이 점차 재해 복구로 옮겨지면서 데이터 센터의 부지 선정, 엔지니어링 및 재해 복구에 대해 오랜 기간 논의해야 합니다. 이 주제는 수개월 또는 수년 동안 지속될 수 있습니다.
인센티브 3: 인적 요소.
일반 이벤트 1:Hosting.com 서비스 중단 사고.
고장 원인: 서비스 제공업체가 잘못된 회로 차단기 작동 순서를 수행하면 UPS 가 종료됩니다.
Hosting.com 7 월 28 일 정전 20 12: 인적 실수는 일반적으로 데이터 센터 정전의 주요 요인 중 하나로 간주됩니다. 한 가지 예는 7 월 Hosting.com 전력 중단으로 65,438+065,438+000 고객의 서비스 중단이 발생한 경우입니다. 델라웨어주 뉴어크에 위치한 이 회사의 데이터 센터에서 UPS 시스템을 예방 유지 관리하고 있기 때문에 가동 중지 사고가 발생했습니다. "서비스 공급업체의 잘못된 회로 차단기 작동 순서로 인한 UPS 종료는 데이터 센터 키트 시설 손실의 핵심 요소 중 하나입니다." Hosting.com 의 CEO 인 ArtZeile 은 이렇게 말합니다. "중요한 전력 시스템이나 예비 전력 시스템이 고장나지 않은 것은 완전히 인위적인 실수로 인한 것이다."
전형적인 사건 2: Microsoft 에서 BPOS 서비스 중단이 발생했습니다.
실패 원인: Microsoft 는 미국, 유럽, 아시아의 데이터 센터에서 미확정 설정 오류가 발생했습니다.
20 10 년 9 월, Microsoft 는 미국 서부 몇 주 동안 적어도 세 번의 호스트 서비스 중단에 대해 사용자에게 사과했다. 이것은 Microsoft 의 첫 번째 대규모 클라우드 컴퓨팅 활동입니다.
사고 발생 시 사용자가 BPOS (Business Productivity Online Suite) 서비스를 방문할 때 Microsoft 북미 시설을 사용하여 서비스에 액세스하는 고객은 문제가 발생할 수 있으며 고장은 2 시간 동안 지속될 수 있습니다. 마이크로소프트 엔지니어들은 나중에 이 문제가 해결되었다고 주장했지만 근본적인 문제를 해결하지 못해 9 월 3 일과 9 월 7 일 서비스가 다시 중단되었다.
마이크로소프트의 클린트 패터슨 (Clint Patterson) 에 따르면, 데이터 돌파구는 미국, 유럽, 아시아에 있는 Microsoft 데이터 센터의 불확실한 설정 오류로 인해 발생했다. BPOS 소프트웨어의 오프라인 주소록은 "매우 특수한 경우" 무단 사용자에게 제공됩니다. 주소록에는 기업의 연락처 정보가 포함되어 있습니다.
마이크로소프트는 이 실수가 발견된 지 두 시간 만에 해결되었다고 밝혔다. Microsoft 는 데이터를 잘못 다운로드한 사람들과 연락할 수 있는 추적 시설을 갖추고 있다고 주장합니다.
네트워크 단절의 원인: 시스템 고장
일반적인 이벤트 1:go daddy 웹 사이트 DNS 서버 다운타임.
장애 원인: 시스템에 있는 일련의 라우터에 대한 데이터 테이블로 인해 네트워크가 중단되었습니다.
20 12 년 9 월 10, GoDaddy 웹 사이트 DNS 서버 중단: 도메인 거물인 GoDaddy 는 가장 중요한 DNS 서버 공급업체로 500 만 개 사이트, 5 천만 개 이상의 도메인 이름을 관리합니다. 이것이 9 월 10 의 중단사고가 20 12 년 동안 가장 파괴적인 사건이 될 수 있는 이유이다.
일부 투기들은 심지어 6 시간의 다운타임이 서비스 거부 공격의 결과라고 생각하지만, GoDaddy 는 나중에 라우팅 테이블의 데이터 손상으로 인한 것이라고 말했다. "서비스 중단은 외부 영향으로 인한 것이 아니다." 고 굿디 임시 CEO 스콧 바그너 (Scott Wagner) 는 말했다. "이것은 해커 공격이나 서비스 거부 공격 (DDoS) 이 아니다. 서비스 중단은 내부 라우터 시리즈의 데이터 테이블로 인한 네트워크 이벤트 파괴로 인한 것으로 확인되었습니다. "
전형적인 사건 2: 성대한 클라우드 스토리지 단절.
장애 원인: 데이터 센터의 물리적 서버 디스크가 손상되었습니다.
20 12 년 8 월 6 일 오후 8: 10, 성대운은 공식 웨이보에서 클라우드 호스트 고장으로 인한 사용자 데이터 손실 사건에 대한 공개 성명을 발표했다. 8 월 6 일, 성대한 구름이 무석에 있는 데이터 센터는 물리적 서버 디스크 손상으로 인해' 개인 사용자' 데이터가 손실되었다고 밝혔다. Shanda cloud 는 사용자가 데이터를 복구할 수 있도록 최선을 다하고 있습니다.
성대한 클라우드 기술자는 "물리적 서버 디스크 손상" 으로 인해 "개인 사용자" 데이터가 손실되는 상황에 대해 가상 시스템 디스크를 만드는 두 가지 방법, 즉 호스트의 물리적 디스크를 직접 사용하는 두 가지 방법을 설명합니다. 이 경우 호스트의 물리적 디스크에 장애가 발생하면 클라우드 호스트가 데이터 손실을 초래할 수 있습니다. 이것이 바로 이번 사건의 원인입니다. 다른 하나는 원격 스토리지, 즉 성대한 하드 드라이브 제품을 사용하는 것이다. 따라서 사용자의 데이터는 실제로 원격 클러스터에 저장되어 여러 개의 복제본을 동시에 만들 수 있습니다. 호스트에 장애가 발생하더라도 클라우드 호스트의 데이터에는 영향을 주지 않습니다. 물리적 시스템의 손상은 피할 수 없기 때문에 예기치 않은 손실을 방지하기 위해 클라우드 호스트 외에 데이터 백업도 잘 하는 것이 좋습니다.
전형적인 사건 3: 구글 애플리케이션 엔진 인터럽트 서비스.
실패 원인: 네트워크 지연
구글 애플리케이션 엔진: GAE 는 구글이 관리하는 웹 애플리케이션을 개발하고 호스팅하는 플랫폼입니다. 중단시간은 65438+ 10 월 26 일로 4 시간 동안 지속되는데, 갑자기 느려져 오류가 발생했기 때문이다. 이로 인해 GAE 요청의 50% 가 실패했습니다.
구글은 데이터 손실이 없고 복구할 수 있는 애플리케이션 동작의 백업이 있다고 밝혔다. 사과하기 위해 구글은 6 월 1 1 에서 사용자가 네트워크 지연 문제를 해결하기 위해 인터넷 서비스를 강화하고 있다고 발표했다. "트래픽 라우팅 기능을 향상시키고 구성을 조정하면 이러한 문제가 다시 발생하지 않도록 효과적으로 방지할 수 있습니다."
인터넷 차단 인센티브 5: 시스템 버그
일반 이벤트 1: Azure 글로벌 인터럽트 서비스
사고 원인: 소프트웨어 버그로 인해 윤년 시간 계산 오류가 발생했습니다.
20 12 년 2 월 28 일,' 윤년 버그' 로 인해 Microsoft Azure 의 서비스는 전 세계적으로 24 시간 이상 중단되었습니다. Microsoft 는 소프트웨어 버그가 윤년 시간 계산 착오로 인한 것이라고 밝혔지만, 이 사건은 많은 사용자들의 강한 반응을 불러일으켰으며, 많은 사람들이 Microsoft 에 보다 합리적이고 상세한 설명을 요청했다.
일반적인 이벤트 2:2:Gmail 메일의 글로벌 오류.
사고 원인: 데이터 센터의 일상적인 유지 관리 시 새로운 프로그램 코드의 부작용.
2009 년 2 월 24 일 구글 Gmail 사서함이 글로벌 고장을 일으켜 최대 4 시간 동안 서비스가 중단되었다. 구글은 사고의 원인을 설명했다. 유럽 데이터 센터의 일상적인 유지 보수 과정에서 지리적으로 비슷한 데이터를 모든 사람에게 집중시키려는 새로운 프로그램 코드가 부작용을 일으켜 유럽의 또 다른 데이터 센터에 과부하를 초래하여 연쇄효과가 다른 데이터 센터 인터페이스로 확대되어 결국 글로벌 단절을 초래하여 다른 데이터 센터가 제대로 작동하지 못하게 되었다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), Northern Exposure (미국 TV 드라마), 스포츠명언)
일반 이벤트 3: "5.19 네트워크 끊기 이벤트"
사고 원인: 클라이언트 소프트웨어 버그, 인터넷 단말기가 도메인 이름 확인 요청을 자주 시작하여 DNS 정체가 발생합니다.
2009 년 5 월 19 일 2 1: 50, 장쑤, 안후이, 광서, 하이난, 간쑤, 절강 등 6 개 성 사용자는 사이트 방문이 느리거나 액세스할 수 없음을 반영했다. 공신부 관련 기관의 조사에 따르면 전국 6 개 성의 인터넷 중단 사고는 국내 한 회사가 내놓은 클라이언트 소프트웨어에 결함이 있기 때문이라고 한다. 회사 도메인 이름 승인 서버가 제대로 작동하지 않을 경우 소프트웨어가 설치된 인터넷 터미널에서 도메인 이름 확인 요청을 자주 시작하여 DNS 정체가 발생하여 많은 사용자가 웹 사이트에 액세스하는 속도가 느리거나 웹 페이지를 열 수 없게 됩니다.
이 가운데 DN SPod 는 국내 유명 도메인 이름 확인 서비스 업체 중 하나로 여러 유명 사이트의 도메인 이름 확인 서비스를 제공합니다. 이번 공격으로 DN SPod 가 소유한 DNS 이름 확인 서버 6 대가 마비되면서 폭풍 영상을 포함한 여러 네트워크 서비스 업체 이름 확인 시스템이 마비되어 네트워크 정체가 발생하여 많은 사용자가 제대로 인터넷에 접속할 수 없게 되었습니다. 공신부는 이 사건이 도메인 이름 확인 서비스가 현재 네트워크 보안의 약한 부분이 되어 각 부서에 도메인 이름 확인 서비스의 보안을 강화하도록 지시했다고 지적했다.
요약
클라우드 서비스를 사용하는 기업은 이러한 서비스가 편집 가능성과 비용 효율성이 더 높다고 생각합니다. 하지만 이런 고려가 보안 인하를 대가로 한다면 많은 회사 사장들이 동의하지 않을 것으로 예상된다. 끊임없이 등장하는 클라우드 서비스 단절 사건은 클라우드 안전에 대한 우려를 불러일으켰다.
현재는 몇 가지 각도에서 해결할 수 있다. 기업 고객의 경우 클라우드 서비스를 도입하면서 정기적으로 데이터를 클라우드에 백업해야 하는 두 번째 비상 솔루션이 있습니다. 클라우드 서비스 업체에게 각종 인터넷 단절 사건이 불가피한 만큼 대책을 생각해 자신의 사용자 손실을 최소화하고 인터넷 단절 사건에 대한 대응 효율을 높여야 한다.
정부 부처는 감독과 상기시킬 책임이 있다. 클라우드 서비스와 관련된 법률 및 규정이 속속 도입되고 개선되어야 하며, 사용자 100% 신뢰할 수 있는 클라우드 컴퓨팅 서비스가 현재 존재하지 않음을 상기시켜야 합니다.