2017年1月30日
日本電信電話株式会社(東京都千代田区、代表取締役社長:鵜浦博夫、以下 NTT)は、NTTグループのAI技術「corevo™」として、人では見出すことの難しかったネットワーク障害における「障害原因」と「装置等から発せられるアラーム」の間の因果関係(以下、ルール)を自律的に導出するネットワーク分野のAI技術を開発しました。これにより、推定精度が継続的に向上するネットワーク障害原因推定のシステム化が可能となります。
本技術は、障害時にネットワーク装置等から発せられるアラーム等のイベントをもとに、その障害特有のイベントの組み合わせを抽出することで、障害原因とイベントのルールを導き出す技術です。本技術を用いた障害原因推定がシステム化されると、これまで数時間から数日かかることもあった分析作業を数秒程度に短縮することができ、スキルフリーで迅速なネットワーク障害対応が可能となります。継続的なルールの生成・修正が行われることにより、あらゆるネットワーク環境において、利用するたびに推定精度が向上するシステムの可能性を今回示すことができました。
NTTは、効率的で低コストでありながら信頼性の高いネットワーク運用を目指し、本技術の実用化に向けてNTTグループ各社とも連携を始めています。2018年度に実サービスでの利用開始を目指すとともに、その後通信以外の分野へ適用拡大を目指します。
「corevo」は日本電信電話株式会社の商標です。
本技術は、NTTグループのAI技術「corevo」の「Network-AI」に位置付けられます。
ネットワーク障害原因推定のデモンストレーションは、2017年2月16日~17日に開催の「NTT R&Dフォーラム2017」にてご覧いただけます。
ネットワークにおける障害対応では、スキルを有する保守者が装置から検出されるアラームとネットワークの構成情報から、アラームを分析することで、障害原因(箇所と事由)の推定を行っていました。また、ルールを固定的に与えて障害を推定する技術はありましたが、保守者が分析した障害対応の履歴などから真の障害原因をシステムに教えることで、ルールそのものを自動的に作り出したり、修正したりする技術はありませんでした。
本技術により、人では見出すことの難しかったルールを瞬時に導き出すことが可能となり、市中のルールエンジン*1を活用することで、精度の高い推定システムを容易に構築することができます(図1)。
図1 本技術の適用イメージ
本技術は、障害時にネットワーク装置等から発せられるアラーム等のイベントから、その障害に特有のイベントの組み合わせを抽出することで、障害原因とイベントのルールを導き出すアルゴリズムです(図2)。さらには、保守者の日々の運用ノウハウを学習することでルールの精度を向上することができます。
本技術は、オープンソースリアルタイム分散機械学習基盤Jubatus*2を用いて実現し、データセンタ等の商用ネットワークの運用データにより、ハード故障、ソフト故障、トラフィック圧迫、ストーム*3発生などのルールが生成、修正されることを確認しました。また、本技術で生成したルールと装置からのイベントをルールエンジンに与えることにより出力される障害原因が正しいことを確認しました。
図2 ルール生成の仕組み
本技術により、これまで数時間から数日要することのあった大規模ネットワークにおける障害原因の分析・切り分け作業を数秒程度に短縮することが期待されます。今後は、システムとしての実用化(図3)を通して、ネットワーク保全の自動化を目指します。さらに、通信以外の分野へ適用拡大を目指します。
図3 システム化のイメージ
※1ルールエンジン
ルールエンジンとは、ルールと呼ばれる条件定義(IF/THEN)にしたがって処理を実行するプログラムのことです。
※2Jubatus http://jubat.us/
Jubatus(ユバタス)とは、NTTソフトウェアイノベーションセンタと株式会社 Preferred Networksが共同開発した、オープンソースのオンライン機械学習向けリアルタイム分散処理基盤です。
※3ストーム
ストームとは、大量なデータ送信によりネットワークの帯域幅を使い切ってしまい、ネットワークが使用不能になる現象です。
本件に関するお問い合わせ先
NTT情報ネットワーク総合研究所
企画部 広報担当
TEL:0422-59-3663
Email:inlg-pr@lab.ntt.co.jp7
ニュースリリースに記載している情報は、発表日時点のものです。
現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。
NTTとともに未来を考えるWEBメディアです。