日曜日, 1月 06, 2019

年末年始にGMOクラウドでストレージ障害、それに伴う仮想サーバの停止が発生

利用しているわけではないので詳細が分からないのですが、年末年始にGMOクラウドで障害が発生していたようです。
年末年始に「GMOクラウド」大規模ストレージ障害…多数サービスに影響か NAVERまとめ

12/29 15:00~障害発生で、1/4 11:40の更新で仮復旧とあるので、本当に年末年始を跨った障害だったようです。影響を受けた方、対応された中の方、お疲れ様でした。

12/29からの障害というのが公式にないのでよく分からないのですが、1/1発生の公式情報によるとストレージ装置のメモリエラーが発生し、ストレージ装置で読み書きが出来なくなり、その結果サーバが起動しなくなったり接続できなくなったりしたようです。
【発生中/GMO CLOUD/Public】ストレージ障害につきまして
【発生中/GMO CLOUD/ALTUS byGMO】ストレージ障害につきまして
1/2 03:37 更新
お客さま各位
平素はALTUS byGMOをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。
現在も引き続きノードの切り離し作業を継続中となります。
本障害につきまして、お客さまサーバーにSSDディスクを提供するために
利用しているストレージノードのうちの1つに、メモリエラーが発生している
ノードが確認できましたため該当のノードの切り離し作業を実施しております。
大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。
で、問題のあるストレージノードの切り離し後、恐らく仮想サーバ側で仮想ディスクが読み取り専用でマウントしてしまっているため、仮想サーバの再起動を随時かけていったようです。で、1/2 14:55に再起動メンテナンスの完了報告が上がっています。
1/2 14:55 更新
お客さま各位
平素はALTUS byGMOをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。
11:00より実施しておりました再起動メンテナンス作業が完了いたしました。
大変恐縮ではございますが、不具合が継続しているお客さまにつきましては、
下記お問い合わせフォームより別途お問い合わせいただければと存じます。
■お問い合わせ
障害復旧に向け、現在も引き続きノードの切り離し作業を継続中となります。
大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。
しかし、同様の障害が1/2 22:38頃に再度発生してしまいます。
【障害発生・再起動完了/GMO CLOUD/Public】ストレージ障害につきまして
【障害発生・再起動完了/GMO CLOUD/ALTUS byGMO】ストレージ障害につきまして
1/3 1:30 更新
お客さま各位
平素はGMOクラウド Publicをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。
現在発生中の障害につきまして経過をご報告させていただきます。
22時38分にストレージの書き込みが不可能になった原因でございますが
復旧作業の一環で実施させていただきました、ストレージ側の容量が
超過した場合にI/Oを停止する設定を一時的に無効にしておりました。
しかしながら1月2日(水)の22時頃にストレージベンダーのエンジニア側で
再度、I/Oを停止する設定を有効にしてしまったことによりストレージの書き込みが
出来ない状態となりました。現在ストレージベンダーと電話会議をおこない
I/Oを停止する設定を変更する作業を早急におこなうよう指示しております。
大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。
年末年始このような事態となってしまい誠に申し訳ございません。重ねて深くお詫び申し上げます。
なんかストレージベンダー側で完全復旧に向けた事後作業を行っていたと思われますが、その影響のようですね。

その後なんやかんやあり、1/3 12:30に復旧の通達が出ています。
1/3 12:30 更新
お客さま各位
平素はALTUS byGMOをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。
10:00より実施しておりました再起動メンテナンス作業が完了いたしました。
大変恐縮ではございますが、不具合が継続しているお客さまにつきましては、
下記お問い合わせフォームより別途お問い合わせいただければと存じます。
■お問い合わせ
ご迷惑をおかけいたしまして、誠に申し訳ございませんでした。
 現時点の最終通達は1/4 11:40時点で、ストレージは仮復旧とありますので引き続き対応が行われているのかもしれません。

詳細が分からない中でまとめるのもなんですが、この障害からは2つのことが教訓になりますね。
1.障害の早期検知、対応の必要性
12/29時点で本当に障害があったのか分からない部分はありますが、もし12/29に少しずつでも影響がでていたのであれば、今回、年末年始の連休で対応が遅れたから被害が大きくなったんじゃないの?と言われてしまいそうです。(それが事実かどうかはさて置き)
やはり基盤側の障害に関しては早期対応、早期告知が重要だと思います。
2.障害復旧後の対応の難しさ
自分はずっとインフラエンジニアをやっていますので、ストレージ装置の障害は復旧後にも問題が発生するというのは感覚的に分かります。最近物理装置を直接弄ってはいないのですが、やはりSSDになってもそれは変わらないんだな、と思いました。
特にクラウド基盤のような利用者をコントロールできない状態では、復旧アナウンス後に大量の処理が発生する可能性が考えられます。そして、それが2次被害を生む可能性を考慮する必要があります。ましてや仮復旧状態であれば、その状態でいつものピークの負荷(もしくはそれ以上)に耐えられるか、耐えられない場合はどのように負荷を制御するか(システム的に、ユーザの優先度を分けるなどの運用的に)といったことを考慮する必要がありますね。

兎も角、繰り返しになりますが影響を受けた方、対応された方、お疲れ様でした。
今回の障害についての詳細、教訓がどこかの場で発表、共有されることを期待しています。

0 件のコメント: