技術解説
クラウドでミッションクリティカルなシステムを実現
2018年3月5日
クラウド活用を検討する際に指摘されるのが、「障害発生時の対応」です。いわゆる「止められない」システムにクラウドは使うべきではない……といった意見も、しばしば見受けられます。
しかし、どのようなシステムであっても最大限、障害によりサービスが停止しないことを指針としていますが、有事に備えて障害発生を想定した設計がされています。そしてそれはクラウドも例外ではありません。
本記事をご覧いただいた方向けに、おすすめの記事をまとめました。こちらもあわせてご確認ください。
オンプレミスもクラウドサービスも、障害は等しく想定するべき
止められないシステム、すなわち「ミッションクリティカルシステム」といっても、電力や交通機関などのインフラから、企業の基幹業務システムまで、さまざまです。そこで要求される「止められない」のレベルも、当然異なってきます。
クラウドは、自社ですべてを管理するオンプレミスと違い、自社でコントロールできない部分があるため復旧までに時間がかかるといったような不安の声を聞くことがあります。
しかし、それは両者における本質的な違いではありません。
見落としてしまいがちですが、クラウドでもオンプレミスでも、システムはサーバー上で稼働しています。そのため、サーバー本体はもちろん、ネットワーク機器や電源装置などの物理機器の障害によって稼動が停止するのは、基本的にはどちらにも起こりうる事象と言えます。
また、大規模な停電や通信障害などのインフラのアクシデントが原因だった場合も、やはりクラウドやオンプレミスだから、という違いはありません。
クラウドにしろ、オンプレミスにしろ、防ぐことのできない障害は発生してしまうという前提でシステムを設計し、それに対応できるような復旧の仕組みを事前に策定しておくことが等しく重要です。
SLAにおける「保証」とは
クラウドサービスを利用しているユーザーの中には、クラウドは止まらないと認識している方もいます。その保証がクラウドサービスの稼働率である「SLA」であると指摘されることもありますが、こちらも正確ではありません。
SLAという言葉は「Service Level Agreement(サービスレベル合意)」の略ですから、あくまでも「Agreement(合意)」であって、「Assurance(保証)」ではないことを、しっかりと理解しておく必要があります。
利用者とクラウド事業者が「合意」した内容を実現できるように、クラウド事業者はハードウェアを構成し保守・管理を行い、バックアップのシステムを用意しているのです。
万が一、合意内容を履行できないときは、返金などのペナルティーがクラウド事業者に課せられます。このことからも、クラウドは障害の発生を想定して設計されているとわかります。
SLAの内容はクラウド事業者によって異なりますので、稼働率や返金の条件や金額などは事前に確認しておきましょう。なによりも自社のビジネスとSLAの内容が合致しているかどうかが重要です。
オンプレミスでもクラウドでも、目標としている稼働率とそれを実現するためのコストをきちんと評価しなければ、適切な費用対効果を得ることはできないでしょう。
「止められないシステム」をどう作るか?
では、自社にとっての理想的な稼働率とは、どのように実現すればよいのでしょうか。
従来までの方法では、冗長化により「連続可用性(continuous availability)」を実現する方法などが代表的です。これらを自社ですべてを賄おうとすると、ハードウェアのメンテナンスやデータの同期などにノウハウが必要で、専門技術者やハードウェアなどに大きなコストが必要となります。
しかし、クラウドサービスであれば、ハードウェアやシステムのメンテナンス、冗長化などのコストを抑えながら可用性を高めることができます。
ニフクラをはじめ、自動フェイルオーバー機能(一般的に「HA(High Availability:高可用性)機能」と呼ばれる)を提供しているクラウド事業者もあるので、一般的なSLAでは求める可用性が実現できない場合、これらのサービスを利用するという選択肢もあります。
また、障害発生時の原因切り分けについても、あらかじめ手順を考えておくことが重要です。原因が、
- クラウド側の障害なのか
- 自社システムの障害なのか
- 通信回線の問題なのか
障害の状況を自社の担当者だけでなく、クラウド事業者や通信キャリアなどと共有することで、障害の原因特定や対策・復旧をスムーズに行うことができるようになります。
それでもクラウドが選ばれる理由とは
「クラウドだから/オンプレミスだから」という軸にこだわらず、高可用性のシステムを実現するためには、障害発生を前提にして、壊れたときにどうするのか、壊れる前に何をしておくのか、そのためにはどのような仕組みが必要なのかを把握し、準備しておくことが必要です。
最近は、航空会社や金融機関などでも基幹業務システムにクラウドを活用する例が増えています。グローバル企業の止められないシステムにもクラウドが採用されていることは、クラウドでミッションクリティカルシステムが実現可能なことを示唆しています。
オンプレミスとクラウドを組み合わせたり、クラウドサービス同士を組み合わせる「ハイブリッドクラウド」など、高可用性を実現するための運用方法はさまざまです。
そして、いざ障害が発生してしまった場合には、障害情報を確認しつつ、担当者・事業者間で詳細な共有を行うことで、原因を特定し状況改善を迅速に行うことができます。
- 障害が起きてもすぐに復旧できる
- 冗長化構成が作りやすい
- マルチリージョンによるDR
上記のようなクラウドのメリットは、「止められない」システムの構築にも有効です。クラウド事業を選定する際や、実際に運用するときには、障害発生を前提として検討・運用をしていきましょう。