今回取り上げるのはNTTデータ子会社である日本電子計算が運営する自治体向けIaaS「Jip-Base」で発生している障害です。12月4日の午前中から発生しており、本日も結局復旧していません。明日で障害発生3日目になります。
以下は日本電子計算のニュースリリースです。
12月4日(水)10時56分頃から当社がサービスを提供する自治体専用IaaSサービス「Jip-Base」について障害が発生しており、同サービス上で稼働しているシステムの一部がご利用いただけない状況が続いております。ご迷惑をおかけしているお客様と主な影響範囲の一覧はこちらです。
本障害は、ストレージに付随するファームウェアの故障が原因であると特定いたしました。現在、復旧方法の検証を行っておりますが、本日中の復旧は困難な状況で、ファームウェア故障起因のため、復旧に時間を要する可能性がございます。よって、引き続き復旧作業を継続し、復旧見通しが判明し次第、本HPにて随時お知らせしてまいります。
なお、本障害は外部からの攻撃などによるものではなく、情報流出/情報漏洩は一切ございません。
ご利用のお客様、また本障害の影響がある自治体の住民の皆様には多大なるご迷惑とご不便をおかけしており大変申し訳ございません。自治体専用IaaSシステム「Jip-Base」の障害について 日本電子計算 2019/12/05
ストレージのファームウエアに関する障害だそうです。怖いですね。インフラ屋(最近はクラウドばかりですが)としては、こういった話を聞くと他人事だとは思えません。対応されている方々の心中をお察しします。お疲れ様です。
まあ、自分もNetAppのストレージがディスク1本死んだだけで停止して、その後のディスクチェックのために3日間くらいオンラインにならなかったことがあります。最近はディスクサイズが大きくなっているためか、こういうときに動くディスクチェックが本当に終わらないんですよね。。。しかし、こうなると待つしかないし、いつ終わるか分からないし、もう開き直るしかないですよね(笑)ちなみにその時RAIDグループが停止したのはファーム不具合でした。
さて、こういった障害が発生すると、やはりシステムを集約するのは良くないのではないか、という話になりがちですが、そうではない、ということを繰り返し述べておく必要があるかと思います。こういった障害に備えつつ、対策を事前に打つ。それがクラウドだとオンプレと比較して容易に実現できるようになっているわけです。まあ、今回障害が発生している「Jip-Base」のような従来仮想基盤の延長のようなタイプだと難しいかもしれませんが、こういったものも、他のクラウドと組み合わせて利用するべきなんです。発注する側も受注する側も、そろそろインフラに対する意識改革する(無敵のサーバを目指すのではなく、程々のサービスを組合せて前提で強くするクラウド的な考え方を持つ)必要があるかと思います。しかしまあ、自治体がこういうの一番遅いんですけどね。
---
2019/12/10追記
現時点でもまだ復旧していないようです。これでもう1週間ですから、かなり長期間に渡る重大障害になっています。
以下は12月9日時点のプレスからの抜粋です。
本障害発生後、IaaSサービス「Jip-Base」の全面復旧を目指して全力を挙げて作業を進めてきました。ストレージのファームウェア不具合が引き起こしたハードウェアの故障は修復したものの、その後の動作確認において各種データへのアクセス処理が正しく動作しない事象が判明し、現時点でもその解消に至っておりません。そのため、当初計画の大幅な見直しが必要であると判断しています。
現在、「Jip-Base」のサービス復旧計画の再策定を行っており、現時点で全面復旧の目途をお知らせすることができません。全力を挙げて事態の収拾に努めると共に、計画を策定次第、速やかにお知らせいたします。自治体専用IaaSサービス「Jip-Base」障害についてのお詫び(2019年12月9日時点) 日本電子計算
ハード復旧はしたけどデータへアクセスできない、というのはどういう状況ですかね?色々と予想はできますが、vSANなどのソフトウエア型のストレージ仮想化製品、もしくは重複排除をガンガンかけるタイプのストレージ装置、といったところでしょうか。vSANなどだとメンテナンス時もきちんと手順を守らないと、ストレージクラスタが一式飛んだりしますからね。。。(勿論手順を守れという話ではあるのですが。)まあ、従来型のストレージ装置でも、同様のことが発生する可能性はあります。かなり昔ですが、IBMの装置で一部領域が読み取りはできるけど書き込みができない状況になりエンジニアに来てもらいましたが、「うーん、ボリュームフォーマットすれば直ります」と言われたことがありました。「いや、直るかもしれないけど、データ消えるよね!?」というやり取りをした、今となっては懐かしい思い出です(笑)
今回の障害を受けて、自治体のクラウドに対する考え方が変わるかもしれません。クラウド化を進めるという大方針は政府の後押しもあるため、崩れることはないとは思いますが。引き続き、続報に注目したいと思います。
---
2019/12/10更に追記
問題になっているストレージ装置ですが、DELL EMCだそうです。報道が出ていました。
2019年12月4日に発生した50自治体のシステム障害について2019年12月10日、不具合を起こした日本電子計算がIaaS「Jip-Base」で利用していたのは米デルテクノロジーズ(Dell Technologies)のストレージ装置「Dell EMC Unity 500」であることが分かった。
日本電子計算によると、このストレージ装置の特定のバージョンのファームウエアを使い、さらに高速に読み書きするための並列処理機能を使う条件がそろったときに不具合が発生したと見ている。不具合を解消するためにストレージメーカーからの修正ファームウエアを適用したが、12月10日午前11時時点で復旧には至っていない。50自治体システム障害続報、不具合は米デルのストレージで発生 日経 xTECH 2019/12/10
EMCジャパンは、12月4日に同社ストレージ装置に故障が発生したことを認めたうえで、「障害発生後から日本電子計算と復旧対応を行ってきた。ファームウエアを修正するなどして12月6日午後10時15分にストレージの修復作業は完了し、日本電子計算へ納品した。現在は日本電子計算で業務復旧作業中であり、当社も復旧へ向け全力で協力している」と述べた。
これに対して日本電子計算は12月10日、「12月6日にストレージ装置のファームウエアの修正は完了したが、いまだに読み書きできないデータがあるのも事実で、復旧に至っていない。その原因箇所がストレージ装置を含めシステムのどこなのか、さらにその内容も調査中で、現状は特定できていない」とコメントした。復旧中の50自治体システム障害、ストレージメーカーがコメント 日経 xTECH 2019/12/10
ストレージ装置としては復旧したが、データとして読み込めてません、ということですね。ここからはもう当事者でないと詳細が分からない世界であるのでなんとも言えませんが...最終手段としてはバックアップからの復旧ですかね。バックアップがないことはないと思いますので。
しかしまあ、ストレージというのは恐ろしい世界です。
---
2019/12/21追記
少し経ってしまいましたが、16日に日本電子計算による記者会見がありました。
プレスも出ています。
「Jip-Base」の障害における復旧状況のご報告 2019年12月16日
様々なニュースサイトでも取り上げられています。
例えば、
33自治体で「一部データが復旧不能」に――日本電子計算のIaaS障害、いまだに復旧見通し立たず ITmedia 2019年12月16日
日本電子計算は9日以降、ストレージやバックアップデータから仮想OSの情報や業務データの復旧作業を行っている。同社の山田英司社長は、16日の段階で「(仮想OSのうち)70%はIaaSとして復旧したが、15%は復旧不可能な状態にある」と明かす。残りの15%は、現在もバックデータからデータが復旧できるか確認している段階だという。
15%(約200個)の仮想OSが復旧できない状態にあるのは、日本電子計算によるバックアップが正常に行われていなかったからだという。一部でバックアップが正常に行われていなかった理由について、Jip-Baseを統括する神尾拓朗部長(公共事業部基盤サービス統括部)は「監視システムに不具合があったため」と、ストレージのファームウェアとは別に原因があったことを明かした。
これにより、33の自治体で今も一部のデータが復旧できていない。これらの仮想OSについては復旧を諦めず、利用事業者と連携してできる限り復旧作業を行うとした。15%が約200台(仮想OS)ということは、今回の障害の被害にあったのは全部で約1350台くらいと言うわけで、そのうち200台は復旧不可能、200台は復旧可能か調査中ということですね。しかし、IaaS側のバックアップが正常に動いていなかった、それは監視システムの不具合ですと言うのはまあ聞く話ではありますが、ひどい話ですよね。
クラウドの機能やサービス内でのバックアップを行っていて、しかしそれがきちんと動作していませんでした、というリスクに対応するとなると、やはり利用しているクラウドサービスとは別の仕組みでバックアップを取得しないとダメですね、となるわけです。最近クラウド型のバックアップサービスも幾つか出てきてはいますが、そういったものが流行るかもしれませんね。特に自治体などでは今回の障害を踏まえて、バックアップについての要件が細かく指定されるようになるかと思います。
プレスによると障害対策本部はNTTデータを含めて200名体制だそうです。12月4日に障害が発生して、まあ1ヶ月はフルで対応する必要があるかとは思いますので、最低でも200人月動いているわけです。計算しやすいように1人月100万だとすると、人件費だけでも2億円以上はかかっているわけです。それ以外にも賠償や今後のサービス提供への影響を考慮すると、とてつもない損害ですね。。。NTTデータグループなので会社がなくなることはないとは思いますが。
まだ対応が終息していないと思いますので先の話かとは思いますが、今回の障害についての振り返りなどは見てみたいと思います。全ては無理でしょうが、可能な範囲で情報が公開されることを期待しています。
---
2020/2/15追記
1月10日に復旧情報についてのプレスが出ていました。
「Jip-Base」の障害における復旧状況のご報告(第3報) 日本電子計算株式会社 2020/01/30
2019年12月4日に発生した自治体専用IaaSサービス「Jip-Base」の障害により、ご利用の自治体の皆様および本障害の影響がある自治体の住民の皆様、その他関係者の皆様に多大なるご迷惑とご不便をおかけし、深くお詫び申し上げます。
IaaSサービス「Jip-Base」の本日時点の復旧状況について以下のとおりご報告いたします。
今回の障害で影響を受けた全1,318の仮想OSのうち、98.1%がIaaSサービスとして復旧を完了いたしました。
また、1.4%が復旧作業中であり、バックアップデータからの復旧、新たなご利用環境の構築などを行っております。
なお、「バックアップデータが特定できないためIaaSサービスとして自社のみでの復旧が困難なもの」については、12月25日時点で4%とご報告いたしましたが、新たに発見できたバックアップデータから復旧したものや新たなご利用環境を構築することで復旧できたものなどあり、現在は0.5%まで減少しております。今後はサービス復旧に向けたデータ確認および作業調整をお客様と個別に実施し、復旧を進めてまいります。
1月時点でなお20台弱のサーバが復旧中というステータスだったんですね。障害の影響が出た自治体については、非常に大きな業務影響が出たと推測されます。
役員人事についてのプレスもいくつか出ているようですし、もう少ししたら今回の障害の総括みたいなものが出るかも知れませんね。
0 件のコメント:
コメントを投稿