アット東京、慶應、東大、セコムが機械学習を利用したデータセンター設備の異常検知・運転支援のための実証実験開始

課題
ストレージや計算機を大規模に集積したデータセンターは、確率的に常に故障が起きていると言っても過言ではありません。故障になりそうな状況を早期に発見して適切に対処しなければ、ユーザのサービスを停止したり、大切なデータを消失する場合もあります。
システムの故障確率が例えば0.1%であったとしても、1000台集まると全て同時に稼働できる確率は99.9%の1000乗で36%となってしまいます。故障の確率を下げると同時に、故障の兆候を見つけたら安全に健全なシステムへサーバシステムやデータを移行することは必須です。
原因のはっきりしたよくある故障の兆候だけでなく、レアな事態に対しても異常を検知して、必要であれば対応を取る措置をとらなければ、事業に致命的なダメージを与える可能性があります。
解決方法
株式会社アット東京、慶應義塾大学理工学部情報工学科・松谷宏紀研究室 、東京大学大学院情報理工学研究科システム情報第8研究室・近藤正章准教授、セコム株式会社は、アット東京のデータセンターにおいて、機械学習を利用したデータセンター設備の異常検知および、運転支援技術確立を目的に実証実験を開始します。
機械学習を用いた統計的異常検出手法は、頻度の低い事象を異常と見做すことで、手に入れることが難しい「異常」をそれ自身の教師データ無しで検出することを目指します。古くからある考え方ですが、近年では画像を含む様々なデータに対して
この実証実験に参画する慶應義塾大学と東京大学はIoTデバイス上で逐次学習可能な教師無し異常検知アルゴリズム(OSL-UAD: Online Sequential Learning and Unsupervised Anomaly Detection)を提案しており、この実験にも適用する方針です。また、同様に参画するセコムは変化検知アルゴリズムの成果を適用するとしています。
本実証実験では、アット東京で運用しているデータセンター内の設備稼働状況をモニタリング可能なシステムから得られたデータおよび、IoTデバイスから得られたデータに基づいて異常検知を行います。さらに、中長期的なトレンドの変化検知技術を利用して総合的に分析することで、データセンターの効率的な設備運用を目指します。

どうなったか
約1年間データセンター設備から収集されたデータの分析に取り組んできた結果、従来では発見しづらい、設備故障につながる可能性のある異常の早期検知や、データセンター利用者による機器設置に伴う環境変化の発見など、各組織の技術に一定の効果があることが確認されました。
今後もアット東京の設備稼働状況に関するデータを収集し、機械学習を用いて分析することで、設備故障につながる可能性のある異常検知技術の確立と適用範囲の拡大や、異常検知技術を応用したセンター内の環境変化予測を活用した空調設備をはじめとする設備の運転支援技術を確率し、データセンターサービスの品質と信頼性のさらなる向上を目指します。
まとめ
この記事では、統計的異常検出の手法をデータセンターに適用する実証実験の話題を取り上げました。デジタルシステムの塊であるデータセンターに統計データを扱う異常検出手法を適用することに面白さを感じます。汎用的な技術の適用と同時にデータセンター特有の問題への対処も鍵になりそうです。
参考資料
- アット東京・慶應義塾大学・東京大学・セコム機械学習を利用したデータセンター設備の異常検知および運転支援のための実証実験開始 [PR TIMES]
- Tsukada et al., “A Neural Network Based On-device Learning Anomaly Detector for Edge Devices”, 2019 [arxiv.org]
- Matsutani Lab 研究紹介[慶應義塾大学]
(蒲生由紀子・森裕紀)