2023年10月17日火曜日

全銀ネット障害、メモリー不足が要因

 

こういう騒動をみて、実に基本的なことが障害の要因だと公表されたとき、東日本大震災の東電の事故を想起する。どこか、こういう会社での技術者というものが軽視されている、ないしは「理系の人材の眼の不足」のような印象を感じる。

全銀ネット障害、メモリー不足が要因 事前テスト甘く20231016三菱UFJ銀行など10金融機関で約250万件の送金が滞った全国銀行データ通信システム(全銀システム)の障害は、各金融機関と同システムをつなぐ機器の容量(メモリー)不足が要因だったことがわかった。機器の更新で処理量が増え、想定の容量を超えてパンクした。事前のテストが不十分だった可能性もあり、検証が求められる。関連記事 全銀ネット障害、送金255万件に影 なぜ復旧に丸2日?全銀システムを構築するNTTデータなどは16日までに中継コンピューターのメモリー不足が障害の要因だったと金融機関に説明した。同システムを運営する全国銀行資金決済ネットワーク(全銀ネット)の辻松雄理事長が18日に記者会見し、障害の詳しい原因や再発防止策について説明する予定だ。11月末までに金融庁に報告する。今月10日朝に発生した障害では三菱UFJ銀やりそな銀行など10の金融機関で他の金融機関向けの送金ができなくなった。復旧までに2日間かかり、児童手当や保険金の受け取りなど生活に影響が広がった。全銀ネットは今月79日の3連休中に同システムとそれぞれの金融機関をつなぐ「中継コンピューター」の更新作業を実施。銀行間の送金手数料が適正かチェックする機能に不具合が生じた。今回の更新では一度に処理できる情報量(ビット)を32ビットから64ビットに増やした。ビット数が上がると、メモリーを増やす必要がある。正常な状態であれば、銀行から送られた手数料のデータは中継コンピューターのプログラムで全銀ネットの形式に書き換えられる。書き換えられたデータは共有メモリーと呼ばれる「黒板」に書き込まれ、銀行間手数料をチェックするアプリケーションによって正しい値かチェックされる。連の処理中に異常値が混入し、障害が起きた。国立情報学研究所の佐藤一郎教授は「エラーが発生した真因はわからないが、事前のテストでわかりえたエラーであった可能性が高く、テストが甘かったと言わざるを得ない」と話した。全銀ネットは79日の更新作業を前に計7回のテストを行ったが、網羅的なテストを実施していなかった。テストに必要なデータが足りず、事前の想定が十分だったか検証が求められそうだ。全銀システムは1973年に稼働を始めた。顧客に影響が出るシステム障害は今回初めて。金融庁は全銀ネットに対し、資金決済法に基づく報告徴求命令を13日付で出した。

■コメント

分析・考察IT機器のメモリー容量不足は、予期せぬシステム不具合の原因になりやすいものです。20212月に起きたみずほ銀行の大規模システム障害も、そのきっかけはサーバーのメモリー不足でした。特に設計が古いソフトウエアを使っている場合、メモリーの不足を別の装置(ストレージ)でカバーする仕組みがなく、メモリー不足が即障害につながることがあります。記事中で佐藤教授がコメントしている通り、本番と同規模のデータを使った事前テストで不具合を発見できた可能性はあります。企業の決済処理が増えるゴトウ日の直前になぜシステム更新を実施したのかも含め、手続きの検証が求められます。

ひとこと解説CPUのクロックとか、メモリの容量とか、HDD/SSDの容量とか、どういうこと?と質問を受けることがあります。私はいつもCPUの性能は人間の頭の回転速度、メモリは作業机の広さ、HDD/SSDは本棚の容量に例えます。今回の障害の原因が何かはさておき、どんなに処理能力が高くても作業机が狭いと作業が進まないばかりか、次から次に来る書類でどうしようもなくなるであろうことが想像できます。

本記事は確度の高い情報をもとにされているはずですが、現状、障害時に起きた不具合は徐々にわかりつつあっても、諸要素が多く、特に各不具合の原因に関しては推測しかいえない段階のはず。障害そのものはメモリ不足に起因したとしても、例えばメモリ不足に至った原因は、想定される処理量を見誤ったのか、何らかの異常・不具合がメモリ不足を招いたのか、メモリ管理の問題なのかなど、複数の可能性がありえます。全容がみえない状態ですが、金融を含めた経済新聞として、記事にできる範囲で記事にされたことは意義があったはずですし、今後の追加記事を期待したいです。

<以下、日本人からの反応>

2 ただのメモリー不足か

4 100メガショック

6 Windows118GBで運用してたって感じ?

10 自作でPC組んだことないのを雇うなよ

14 一般人にはとても分からない小難しい原因なのかと思ってました

16 何メガだったの?

17 メモリ256MB

20 ん?ついこの間も似たような障害なかったっけ?容量不足でシステム停止

21 業務用でメモリー不足とかあるのか

23 だから4GBは積んどけとあれほど言ったのに

25 ソフトウェアの修正で直したのではなく、メモリの増設でシステムを直したのか

29 ふう、空きスロットがまだ一つ残ってて助かったわ

33 オンプレミスなんか

34 インフラに関わるプログラマーだけはやりたくねぇな

36 セレロン300A128gbあればたいていの作業はこなせるってのにけちるなよ

37 昔のWindowsは推奨の4倍が最低ラインだったなあ

38 容量が違うのにデュアルチャネルつこうたか

39 なんで日本のITってこんなに遅れてるの?

44 ああ、NTTデータ絡みか、納得

45 メモリ不足という情報を含むエラーを吐くようにしていなかったから復旧に時間がかかったのだろうか?

47 メモリ不足だとどこが賠償責任あるの?

48 WindowsXPでメモリーが4GBとか

50 50年前の設計ならメインメモリ64kbとかかい?

56 電電公社時代に構築されたシステムだってホリエモンが言ってた

57 仮想メモリを使い果たしたのか

59 今どきメモリ不足ってあるのか…

61 みずほ、仲間が出来て良かったな

62 ケチケチ予算野郎がいるとこうなる

66 スターダストメモリー

68 GIGAスクール構想

69 メモリー不足が原因って直ぐにはわからないもんなの?

73 君の敗因はメモリの無駄遣い

77 もう銀行ごとにメモリー分けろよ

78 メモリーに喝入れして逝ったか

83 IT後進国レベル

84 真因は別のところにあるんじゃね?

86 メモリバカ食いテキトープログラムだった可能性も

87しょぼい原因だな。組込でもねぇのに。

88 この程度の知識だとセキュリティも信用できんな

90 負荷試験やってませんでしたってことかな

103 ページメモリは?

104 運用始める前に分かる事じゃないのか

105 こんなアホみたいな言い訳だと本当は別の要因があって隠しているようにも見えるな

111 技術大国と言われてたとはとても思えない様なミスやな

112 今だにCOBOLだからメモリーエラー出たんじゃね?

114 仮想ディスクは?

117メモリ不足に陥った原因は客に説明したくないとか普通にあるからな

118 メモリーも相性とかあったなぁ。今はそんなの皆無なんだろうなぁ。

1. 「メモリが足りないから増設したい? ダメダメ、こんな高いもの買わなくても努力と工夫で何とかするのが君の仕事だろう」

2. メモリ軽視なんでなんだろうな作業机の広さと考えれば重要なのに

3. なーにこれからは「全銀システムみたいになりますよ」でいける

4. 金出す側からしたら32bitOSから64bitOSに変更しますなのでメモリ増設が必要です<-なんでやねん!になるからなで、技術者の言う事は拒否って叩きまくれば良い仕事をすると思い込んでる限りはどうもならん技術者が言ってる以上は金を出さなきゃしょうがないってところまで行かないと問題は起き続ける

5. 念のため、余裕を持って増やしておきましょうが通じないからな。コストの事しか考えてない。

6. もう日本の銀行も米国のように、人材は理系を主軸に採り、今の文系事務員は一刻も早くリストラしないと、また、時代に取り残されるだろう。

-ここまで-