本日、10月1日、東証トラブルに関して記者会見が行われており、それをネットの生中継で見ているところです。
あまり時事ネタについて書かない私ですが....
私は長年、外資系企業で管理部門である社内IT部門でキャリアを重ねてきました。
すでに会社員では無い私ですが、この件については嫌というほど状況が分かるので
書き残しておきたくて、書き始めることにします。
原因のわからないシステムトラブルは起こってしまう
何十年、「電算室」と言われていた時代から社内のシステムを見てきた私。
原因のわからないシステムのトラブルは、残念ながら起こってしまいます。
テストをやって何も問題なく
バックアップの仕組みもあるのに
いざという時、何故だか作動しない。
記者会見でも原因について質問が出ていましたが
リアルな世界では
まず、復旧させ、稼働させることに優先順位を置きます。
(金融、しかも東証となると一般企業とは異なることかもしれませんが)
もちろん、原因究明と再発防止は重要です。
しかしながら。
ビジネスの再開が何より優先されます。
とある会社に勤めていたときに
重度のシステムトラブルが起こり、社内システムが完全に止まり
ビジネスが完全停止してしまいました。
社長から「損失を払え!」と、怒鳴られたことを覚えています。
リカバリーを最小にする方法で
とにかくまずはシステムを立ち上げて、再開をさせることが必須です。
重度なシステム障害で大事なビジネス判断
システム障害が起こった場合、何よりビジネス判断が重要です。
その会社の業態などによると思いますが
- システムの完全停止を行うか?
- 経営層を含む社内への連絡と障害による対応への依頼
- (場合より)取引先への連絡
これを正確な状況とともに、上層部へ速やかに報告し
場合によってはトップに何か決断してもらう必要があります。
今回の場合も再起動するタイミングについて言及がありました。
社内ITの中では
取り敢えず再起動
というお約束があります。
電化製品同様、電源入れ直す=再起動するとなぜか問題なく動き出す、ということは多いのです。
ただ再起動には、リスクがあります。
当然、全ての未処理のデータは消えてなくなります。
またログ(コンピューターが何を行ったかの履歴)が全部飛びます。
原因解析のデータが無くなる、ということです。
例えば
今回は証券売買ですが
私のが勤めていたメーカーだと、それまで受けていた受注が全部ぶっ飛びます。
しかも350台のサーバーです。
一台一台電源を落とし、再立ち上げし、確認することを想像すると....
恐ろしいです。
フェールオーバーという自動切り替えの落とし穴
私も自分のキャリアの中で、二回ほどフェールオーバーが作動せずに
システムが落ちた、ことを経験しました。
長くこの仕事をやってきましたが
絶対大丈夫ということはない
CIOの方が何度かおっしゃっていましたが
「障害が起こるという前提でいる」
これには100%同意です。
どんなにテストしても、二重化していても、です。
日本の証券取引の中枢のシステムですから
私が勤めていた小規模外資系企業のシステムとその規模や
障害時対応のために、かけている金額も桁違いだと思います。
それでも起こります。
障害時に求められるものは?
これも私の経験値であり、個人的な見解です。
有事の時には、その場の対応力です。
企業のシステム部門にはBCP(事業継続プラン)という、とてつもない課題を抱え続けています。
規模もわからない「来るべき」有事について、「想定」し、その対策を行うわけです。
もうすぐ6時になりますが、まだ記者会見は続いています。
質問は似たようなものが繰り返されてきました。
私は常々、金融のシステムはやりたくないと思っていました。
トラブル=社会的インパクト発生ですから。
おそらくシステム担当者、ベンダー(富士通とのこと)は今朝から、今夜、明日の市場再開まで不眠、不休ではないかと思います。
週末もおそらく原因追及などに時間をかけるのではないでしょうか?
私も過去、2日会社に居座ったり、徹夜したこともありました。
いつになく長くなりました。
30年以上自分がやってきたことは、やはり完全に抜けないらしいです。