ニュースで出てましたが、株式会社QTnetで障害発生。
QTnet によると
影響
データセンターご利用お客さまシステム
(楽天カード株式会社、福岡県庁、九州電力株式会社含む約260社)
障害原因
電源設備の取替作業時に、受電用屋内設備の分電盤において、
何らかの理由により過電流検知機能が動作し、
受電系が常用から予備に切り替わり、切替時間(数
秒以内と推定)の間にお客さまのサーバ類が
電源を失って停止致しました。
各サーバ類についてはお客さまのエンジニアが逐次復旧作業中です。
順次復旧しているようですが、大変ですね。
自分も以前、IT業界にいたのでわかりますが、
えらいことです。
復旧に携わるエンジニアの人たちは、24時間対応で
がんばっていることと思います。
身体を壊さないで作業に当たってほしいですね。
何が大変なの? 電源がはいれば、それで大丈夫なのでは?
と思う方がほとんどかと思います。
いかんせん、コンピューターの世界はそんなに甘くはありません。
電源復旧後にどんな作業があるかといいますと、
トランザクションリカバリーとデータ照合が必要なのです。
コンピュータの処理は、1つずつの手順がいくつか合わさって
やっと処理が完了になります。
例えば、カードの支払いだとすると、
・お客様がネットで何かをカードで買う
・サーバーにデータが届く
・サーバーはカードデータベースで購入可能かチェック
・使用額をプラス
・次回の支払い残高にプラス
・ポイントを計算し、ポイント残高を更新
・購入ショップへの支払額更新
・商品購入データがショップへ
ざっと考えてもこんな感じです。
電源が落ちた時点で、このような処理中のデータが、
いったいどのくらいあったのでしょう。
各処理データごとに、どこまで進んでいて、
データベースとの矛盾がないか確認しなければ、なりません。
このように一連のしょりをトランザクションといい、
各トランザクションが矛盾のないように、
終わらないといけないわけです。
いったいどれだけのデータ量になるのでしょうか。
何人ものエンジニアが、24時間頑張って
確認したことでしょう。
その努力のかいもあり、
11月27日(水)13時10分にお客様向けサービスが完全復旧し、現在は正常にご利用いただける状態となっております。
このような発表もされました。
エンジニアのみなさん、お疲れさまでした。