全銀システム 障害復旧!!
↓ 良かったら過去記事も読んでね。
障害発生から2日間を要した今回の障害。
人が作っているプログラムなので、バグが発生して障害となってしまう場合もあるのは良く分かります。
人間、ミスはつきものですし。
ですが!、いくつか疑問が残る点もあるなー、とは感じたんです。
その所感も含め、記事にしてみました。
全銀システムは過去に障害を起こしたことがある?
ないんです。
稼働開始から50年間、障害を発生させていなかった信頼度が極めて高いと言ってよいシステムだったのです。
日本国内の金融機関がほぼ全てが接続している「全銀ネットの全銀システム」は、運用開始から50年間で障害が一度も出ていない、素晴らしいシステムでした。(残念なことに、もう過去形になってしまいましたね)
恐らくは、気が遠くなるような資金を投入して運営されてきたのでしょう。
ベンダーのNTTデータは、莫大な利益を得たであろうことは想像に難しくない。
その全銀システムが障害を起こしてしまい、一般市民の他行間取引きが不可となる障害が、全銀システム稼働開始から約50年間の歴史で初めて発生してしまったのです。
全銀システムの障害発生経過
2023/10/10 午前8時30分頃
全銀ネットの全銀システムが正常稼働しない障害が発生した。
影響を受けた銀行は以下の通りである。
- 三菱UFJ銀行
- 三菱UFJ信託銀行
- りそな銀行
- 埼玉りそな銀行
- 関西みらい銀行
- 山口銀行
- 北九州銀行
- 日本カストディ銀行
- JPモルガン・チェース銀行
- もみじ銀行
- 商工中金
障害が発生した上記の11行では、他行宛の振込みができない状況になった。
おまけに、自行宛の振込みさえもがされない状況になってしまった。
結果、給与振込口座への振込がされない、引き落とし口座への残高の入金ができない、などの大きな障害が発生してしまったのです。
全銀ネットの理事長は、今回の障害は全銀ネットのRC(中継コンピューター)で使われている、特定のプログラムで発生したと記者会見で説明している。
2023/10/11
障害は以下の件数となっていた。
- 他行への振り込み(「仕向」と呼ぶ)で150万件
- 自行への振込(同「被仕向」)では152万件
さらに以下の障害件数が発生した。
- 仕向で 105万件
- 被仕向で 99万件
10/12 午前8時30分までの段階
新RCのプログラムを臨時改修を実施したことで障害が解消し、通常通りの稼働に復帰した。
全銀ネット障害件数
- 仕向側: 255万件/2日間
- 被仕向: 251万件//2日間
上記取引件数が障害の影響を受けてしまいました。
全銀システムの歴史と情報機器更新
全銀システムと日本のほぼ全ての金融機関はネットワークで接続されており、1973年4月から稼働している。
- 午前8時30分~15時までを「コアタイム」
- それ以外の時間帯の「モアタイム」
上記、2つのシステムから構成されている。
稼働開始から約50年間にわたり、大きな障害発生もなく稼働していた全銀システム。
モアタイムが導入された2018年以降は24時間365日為替取引を処理してきた実績がある。
全銀システムに限った話ではないが、情報設備はハードの部品供給期間が定められていることで定期的にハードの更新が実施されている。
ハードの更新に合わせ、ソフト面での更新も実施するのが通常の情報機器の更新となる。
※ 全銀システムがハード、ソフト、両面の更新がされたのかは明確な発表がないため不明です。
「コアタイムで使われている「RC」(Relay Computer/中継コンピューター)は2017年に更新しており、耐用年数などから順次更改の時期になっていた」とネット記事にあったが、これはハードの更新を示していると思われます。
10/7~9の3連休で、新たなソフトウェアへの最初の更新を実施する予定となっていたようです。
障害発生時、なぜ更新前の機器に切り戻しをしなかったのか
新RCに接続する14行のうち、障害が起きたのは11行。
3行では障害が発生しなかった。
全銀ネットは、障害が発生した11行は、内国為替制度運営費をRC側で計算する仕組みになっていた。
一方、障害が発生しなかった3行は自社システムで手数料を計算していたと全銀ネットの説明であった。
この状況から言うと、今回の障害発生の切り分けとしては全銀ネットの全銀システム 内国為替制度運営費のプログラムの問題だと、障害個所の切り分けが出来る状況である。
切り分けが出来ていると言える状況を把握していた全銀ネットは、復旧策として有効な手段である「システムを更新前に戻す切り戻し」を選択しなかった。
新RCで使用しているバグが発生して正常稼働不能になっているソフトのプログラムの改修が適切だと判断した。
全銀ネットは会見で、新RCには14行が接続しており、不具合発生で旧RCへの切り戻しをしようにも、「成功した3行」も含めて銀行側とも協議ながら切り戻し作業が必要になる。
全銀ネット側をただ元通りに戻せば良いわけではないため、全銀ネットでは切り戻しよりもプログラムの改修の方がリスクは低いと判断した。
これは、接続先の銀行に設置してある新RCをハード・ソフトを切り戻す人手がなかったのか、切り戻して稼働開始をした際に技術者を現地におけるだけの人手が不足していたのか、この点は良く分からなかった。
どう考えても「問題なく稼働していた一つ前のRCに戻す」方が正常稼働に戻る可能性は極めて高い。
なぜなら、そのRCは新RCにする前は「正常に動いていた」のだから!
プログラム改修は「バグ改修後のバグが出る」可能性の方が高い状況だったのではないか。
障害発生から1日が経過し、恐らくほとんど休んでいない情報技術者たち。
眠く、疲労困憊の中でバグが出ないようにプログラム改修をする方が正常に戻る可能性が高い?・・ホントか?
事実、10/11夜時点でも問題が解消しなかった。
「どんな対応が正解だったのか」は確かに結果論でしかないので意味は無いが、プログラムの修正に2回失敗した事実は残っている。
全国で金融機関11行で振り込みが不能になる大規模な障害が2日間に及んでいるのは紛れもない事実なのだ。
所感
もちろん、本番環境での入念なテストはたくさんしてきたであろう。
それだけ、障害が発生した際に与える生活への影響が大きいことは百も承知だったはずだからだ。
今回、本番系とバックアップ系、両方とも同時に更新したと言うことは「冗長性がない」ことを示している。
新RCは問題なく稼働する「だろう」との甘い認識があったことを示しているのではないだろうか。
この「冗長化がない状態で機器更新を許可」されていたわけですが「誰も冗長化されていない事実」に気がつかなかったのだろうか、それとも「NTTデータにお任せ♬」だったのだろうか・・・。
しかも更新した日が商習慣の中で決済が集中すると誰もが知っている「ごとうび(五十日)」だったのだ。
金融業界での「繁忙期」に該当する日に情報機器を更新したのである。
年末年始、航空業界のJAL、ANA、国内東西の公共交通機関の要であるJR東海が、運航系のシステムの情報機器更新をすると思いますか?
絶対にしませんよ、絶対に。
万一に備え、閑散期に情報機器更新をするはずです。
この点は、全銀ネットは大いに反省すべきです。
恐らくですが「NTTデータ」が「大丈夫っすよ、ちょっと端末を入れ替えるだけっす」なんて言ったのではないでしょうか。
誰もがわざと障害を引き起こすなんてことをするわけがありません。
しかしながら、この「油断」が大規模な障害を引き起こす一番の要因な気がします。
気がするだけですけど。笑
インフラに関わるシステムの構築、定期的な情報機器の更新などは成功して当たり前。
失敗したら、あっちこっちからタコ殴りのお祭り騒ぎでマスゴミに煽られます。
非常に厳しい仕事なわけですが、日本国民の生活を支えてくれているNTTデータを含め、関係各社には普段、正常な状況で稼働してくれて感謝せねばなりませんね。
マスゴミは、「全銀ネット、何してんだゴラァ!」と煽るばかりではなくて、もっと原因や不具合内容の詳細を報道したらどうなのかと今回も思った次第です。