本文へジャンプします。

TOP
クラウド トップ>クラウドナビ>基礎知識>AIOpsの導入でシステム運用はどう変わるのか

基礎知識

AIOpsの導入でシステム運用はどう変わるのか

2022年2月25日


AIOpsの導入でシステム運用はどう変わるのか

近年、AI(Artificial Intelligence、人工知能)がさまざまな分野で話題となっています。ITシステムの運用においても、AIを活用した「AIOps」が注目されはじめています。本記事では、AIOpsの概要や求められる背景、利用シーンなどを解説します。

AIOpsとは

AIOps(エーアイオプス)とは「Artificial Intelligence for IT Operations」の略で、世界有数のITリサーチ&アドバイザリー企業であるガートナー社によって、2016年にはじめて提唱された概念です。日本語では「IT運用のための人工知能」と呼ばれ、具体的にはAIにビッグデータを分析させて、将来発生する問題の予測や根本原因の特定を行ったり、それらを解決するためのプロセスを自動的に実行することを指しています。

例えば、サーバーのモニタリングデータから将来的なシステム障害の予兆を検知し、自動的に管理者へ通知したり、事前に設定した対応を実施するのは、AIOpsの典型的な例と言えるでしょう。

AIOpsが求められる背景

デジタルトランスフォーメーション(DX)の推進によって、現在のITシステムは拡大し続けています。導入すべき新技術や管理しなければならないデータは増加の一途を辿っていますが、より大きく複雑化するシステムの規模にあわせて、運用を行う人的リソースを適切に増やせるとは限りません。

こうした人の手には余るほどの大規模なシステムを、AIによって管理運用しようというのがAIOpsです。AIの正確さと速さをシステムの運用に取り入れることで、「人的リソースに頼らない運用管理」「属人的な運用からの脱却」「自動化による運用コスト削減」「障害対応などのスピード向上」などが期待できます。

AIOpsの利用シーン

AIOpsの利用シーンとしては、主に以下のようなものが考えられるでしょう。

まずは、システムのパフォーマンスをAIが分析し、問題が起こらないかを監視する「パフォーマンス分析・監視」です。システムを運用し続けていくと、ユーザー数の増加や扱うデータ量の変化といった理由により、稼動当初よりもパフォーマンスが劣化してゆくことがあります。パフォーマンスの劣化は、放置し続けると障害に繋がる可能性があるため、早期に発見して対処しなくてはなりません。従来であれば、CPU使用率やメモリ使用量、データ転送量などモニタリングシステムのメトリックを人間が確認し、分析する必要がありましたが、AIOpsでは監視と分析をAIに任せることが可能になります。

次に、過去の運用実績のデータと比較して、突出して異なる値(外れ値)が発生した際に管理者に異常を知らせる「異常検知」です。大きな変化がなく安定しているシステムの場合、運用中に得られるデータは、一定の法則や周期性を持つのが一般的です。そのため、過去の運用実績と大きく外れる値が検出された場合は、何かしらの異常や予期せぬ事象が発生している可能性が高いと言えるでしょう。前述のパフォーマンス分析と同様に、これもまたAIによる監視が非常に有効です。

また、監視や分析だけでなく、障害時に過去のデータから対処法を検索する「根本原因の分析・対処法の検索」にもAIは有効に機能します。障害発生時には何らかの対処が必要となりますが、そのための原因の切り分けや対処法の決定は、対処する人間の知見に依存する部分が多く存在しました。こうした部分にもAIを活用することで、属人性を排し、よりスムーズで品質の安定したサービスを提供できるようになります。

AIOpsは発生した障害に対処するだけでなく、継続的に改善を行う「ITサービスマネジメント(ITSM)」にも活用できます。AIによって、サービスの問題点やボトルネックを見つけ出し改善することで、いつでも快適なITサービスをユーザーに提供できるようになります。

ニフクラでのAIOpsの取り組み

ニフクラでは、すでにインフラ運用にAIOpsを導入しており、以下のような取り組みを実施しています。

まず、物理サーバーの故障データを蓄積し、分析することで自動で故障の予兆を検知しています。例えば、物理サーバーに故障が予想されるような場合は、その物理サーバー上で動作している仮想マシンを別の物理サーバーに退避し、障害発生を未然に防止しています。

仮想マシンの再配置は、故障による障害の回避だけでなく、パフォーマンスを最適化するためにも実施しています。仮想マシンの過去の稼働データを元に分析を行い、仮想マシンがより高いパフォーマンスで安定して稼働できるよう、適切な物理サーバーを自動的に判断して、定期的な再配置を実施しています。

また、蓄積されたデータからエンドユーザーの仮想マシンの振る舞いを学習し、普段と異なる負荷状況を自動的に検知できる仕組みを導入しています。そのため、エンドユーザーから仮想マシンのパフォーマンスに関する問い合わせがあった場合も切り分けがしやすく、スムーズな回答を実現しています。

  • このエントリーをはてなブックマークに追加