ページの先頭です

ページ内を移動するためのリンク
本文(c)へ

ここから本文です。

AWSで障害は起こる?障害が発生した際の対策、過去の事例

AWSで障害は起こる?障害が発生した際の対策、過去の事例

システムには障害がつきものです。現在、世界的に広く利用されている世界的に広く利用されているAWSでも障害は発生するのでしょうか。この記事では、AWSにおける障害発生の可能性、実際に障害が発生した場合の対策、障害の事例について解説します。

●AWSで障害は発生するのか

Amazon Web Services(AWS)は、世界中の多くの大手企業やスタートアップなど、さまざまな組織が依存しているクラウドサービスの代表格です。その高い可用性や信頼性によって、多くの重要なアプリケーションやサービスがAWS上で稼働しています。

しかし、どれだけ大規模で信頼性が高いシステムであっても、完全に障害から免れることは難しいという現実があります。実際に、AWSで障害が発生した例はあります。

障害に対して準備が不足している場合、AWSに障害が発生するとビジネスが停止してしまいかねません。そのため、どんなに優れたシステムでも、障害が発生する可能性があることを前提に、適切な対策を講じることが非常に重要です。こうした準備と対策によって、サービスの中断やデータの損失といったリスクを最小限に抑えることができます。

●AWSで障害が発生した際の対策

AWSは高い可用性と信頼性により、ミッションクリティカルなアプリケーション用のシステムとして広く活用されています。しかし、いかに優れたシステムであっても、完全に障害を回避することは難しく、何らかの問題が発生する可能性が常に存在します。したがって、このような障害のリスクを前提に、適切な対策を講じることが非常に重要です。

障害が発生すると、ビジネスの運営に深刻な影響を及ぼすことがあります。例えば、オンラインストアがダウンすると、売上の損失が避けられません。また、BtoBサービスの場合、顧客との間で構築してきた信頼関係が大きく損なわれることがあります。このようなビジネスへの影響を最小限に抑えるためには、障害発生時の対応策を事前に計画し、実行することが欠かせません。

AWS上にあるシステム、およびデータベースには、ビジネスにとって重要な情報が多く含まれています。障害が発生した際にこれらのデータが失われると、ビジネスにとって致命的な打撃となりかねません。そのため、定期的なバックアップやシステムの冗長化といった対策を講じることで、データ損失のリスクを最小化することができます。

さらに、障害が発生した場合には、いかに迅速にシステムを正常な状態に戻すかが重要です。復旧手順を事前に計画し、詳細にドキュメント化しておくことで、障害発生時の混乱を防ぎ、システムをスピーディーに復帰できます。

また、障害が発生した際には、エンドユーザーや顧客に対して、どんなトラブルが発生しているのか、またそれに対してどのように対応しているのかをわかりやすくに伝えることが重要です。これにより、信頼関係の維持につながり、顧客の理解と協力を得ることができます。

このような対応を採ることで、AWSで障害が発生した際の被害を最小限にとどめることができます。なお、コスト面での被害を抑えるためには、事前に障害対策を講じておくのが重要です。例えば、データのバックアップやシステムの冗長性を確保すると、障害からの迅速な回復が可能となり、追加のコストを削減することができます。

AWSのような世界的に評価が高いクラウドサービスでも、障害を完全に回避することはできません。したがって、事前にリスクを評価し、計画的な対策を実施することが、ビジネスの持続性や信頼性を維持するためには不可欠となります。

●AWSで発生した障害の事例

過去に発生したAWSの実際の障害事例について紹介します。以下の2件はいずれも日本で起きた障害の例です。

・冷却システムの障害(2021年2月)

2021年2月、AWSの東京リージョンにおいて冷却システムのトラブルを原因とする障害が発生しています。この障害では、東京リージョン内のAWSデータセンターで、サーバーの冷却システムへの電力供給が適切に行われなくなり、結果としてサーバールームの一部の温度が急上昇しました。この温度上昇により、一部の「Amazon Elastic Compute Cloud (Amazon EC2)」のインスタンスがシャットダウンし、Amazon EC2のストレージの一部でパフォーマンス低下が発生しました。この影響で、オンラインゲームの動作が遅延したり、気象庁の公式サイトへの一時的なアクセス障害が発生したりするなどの問題が報告されました。

・ネットワーク接続機器の故障(2021年9月)

2021年9月には、東京リージョンのAWSデータセンターとサービス利用者を結ぶネットワーク接続機器において、プロトコル処理の潜在的なバグが原因でネットワーク障害が発生しました。この障害の影響は広範囲にわたり、国内の大手銀行、携帯電話キャリア、金融機関、インターネット通信キャリア、航空会社などのシステムに不具合が生じました。具体的には、空港でのチェックイントラブル、コンテンツ配信の障害、データ更新の遅延、サイトへのアクセス困難、スマホ決済の入金トラブルなどが報告されました。

●AWSの障害に備えてできること

AWSの障害に備えるためには、以下のような対策を講じることが重要です。これらの対策を通じて、障害発生時の影響を最小限に抑え、ビジネスの持続性を確保することができます。

・障害を前提とした設計を行う

AWS上でシステムを構築する際には、障害がいつでも発生する可能性を前提に設計を行う必要があります。AWSを利用して提供するサービスの重要度に応じて、インスタンスが突然停止したり、アベイラビリティゾーン(AZ)の1つが完全にダウンしたりしても、システムの稼働を継続できるような高可用性(High Availability, HA)を備えた構成が推奨されます。この考え方を「Design for Failure(障害を前提とした設計)」と呼びます。

・リスクを分散した運用を検討する

リソースを複数のAZに分散配置することや、Amazon S3やAmazon EBSなどのデータを別のリージョンにバックアップすることが重要です。これにより、特定のゾーンやリージョンで障害が発生しても、他のゾーンに配置したサーバーがバックアップとして機能し、無停止または迅速な復旧が可能になります。

・障害に関する情報を集める

障害発生時の迅速な対応には、最新の障害情報やステータスを把握しておくことが不可欠です。ソーシャルネットワークサービスの「X」には、東京リージョンの障害情報を迅速に伝えるアカウントがあります。Dashboardでは、アラート欄でリアルタイムの障害情報を確認可能です。また、公式ホームページにはアップデートの情報が都度公開されるため、頻繁に確認することをおすすめします。

・障害発生に備えて体制を整える

異常を監視するための体制を整える方法として、「Amazon CloudWatch」の活用が非常に有効です。AWSのリソース、アプリケーション、およびサービスのパフォーマンスを統括的に把握することが可能になります。具体的には、ログ、メトリクス、イベントという形式でモニタリングデータや運用データを収集し、これらのデータを自動化されたダッシュボードで可視化することができます。

異常なメトリックや予期しない動作が発生した場合には、リアルタイムでアラームを設定し、メールやSMSなどで通知を受けることができます。これにより、迅速に対応策を講じることが可能です。

・障害発生試験を実施する

障害発生時の対応力を高めるためには、定期的な障害発生試験を実施することが効果的です。システムの各部品やプロセスに対して障害シナリオを設定し、その対応手順やリカバリープロセスをテストすることで、実際の障害発生時に迅速かつ効果的な対応が可能になります。これにより、実際の障害発生時に予想外の問題が発生するリスクを低減することができます。

●AWS障害が起こることを想定して対策しましょう

AWSとオンプレミス、どちらの環境でも、障害を想定した計画と対策が不可欠です。
自社だけで障害対応を万全にすることが難しい場合は、外部のサポートを利用しましょう。障害を見据えた設計 や AWSの利用状況の監視もAWSのプロに相談することができます。運用の負荷を削減し、ビジネスに集中したい場合には、パートナーの利用もご検討ください。



Page Top