業界人として以前から気になっていたKDDIの大規模通信障害の説明が、7/29日に
ホームページに掲載されていました。記載されていた内容は影響範囲、原因、再発防止、
補填および会見動画であり内容を拝見させていただきました。
この会見で全てが終わったのではなく、これから品質向上および顧客への情報発信
の方法などの改善対応など大変だと思います。陰ながらになりますが心より応援
させていただきたいと感じる内容でした。
説明会見および質疑応答など約1時間50分のご対応をされたKDDIの経営陣および
事前準備などされた関係者の方ご苦労さまでした。
こんな大規模な企業が「au通信障害に関する説明」をYouTubeに流していること
時代も変わったんだなと思い、恣意的に編集されない良いメディアが出来たんだなとも
改めて感じました。
全体的には長時間の説明会見および質疑応答に対して高橋誠社長が誠意をもってしっかり
回答できていること素晴らしいと感じたが、一部のメディア関係者の方々は説明内容や資料に
記載されていることをあまり理解できていないのだと感じました。
IT関連の技術が理解できていないから仕方がないことだと思いますね。
■今回の大規模障害&長期化の4つのポイントのまとめ
障害事象に対する原因内容を技術的な観点で箇条書きで4つにまとめてみると。
①障害の起因と変更承認の不備
ルータの設定変更用定義ファイルの設定値ミス(旧手順書を使ったと説明していた)
変更作業はミスなく行っていたが、悪い手順or(設定値ミスこれは私の想定)を使っていたみたい。
②設計改善点
分散しているVoLTE機器の通信経路の集約ポイントのルータで誤って認証DB向けに
VoLTE交換機からの転送パケットに通信制限をかけてしまったから影響が大きかった。
③性能改善点
認証DBにおける認証が通常時の7倍発生し、処理できなかった。
(2倍までは確認できている。)
④モニタリング考慮不足
脆弱ポイント(認証輻輳)を可視化できるようモニタができていなかった。
2行で障害発生起因の原因と長期間起きた原因要約すると
簡単にいうと設定変更ミスをしてしまったが起こした設定ミスと場所が悪かった。
それにより位置登録要求再送系の輻輳が発生してしまって認証できない。。。
それを起こしている悪いVoLTEをバックアップ後してリセットするも、バックアップ
ファイルが壊れていて状況変わらずが続いた感じですかね。
■会見を通じて感じたこと
高橋社長が本障害で運用のオペレーティングをしている現場に足を運び問題点の
ヒアリングをされており、大企業のトップとしての経営者に重要な視点を持っているし
メディアから質問があったKDDI、グループ会社、協力会社の誰がやったのかという質問に
ついてKDDIグループ全体の問題と自分たちの責任として捉えていところ。
また全ての質問に感謝と自分たちに問題があったという捉え方で回答する姿は私自身
勉強になったし参考になった。
■業界や投資家、世の中の方への提言
運用は下流工程であり、運用コストは下げるのが一般的な経営者の考え方ですね。
そこのコストを下げるということは当該作業にお金をかけないということも気づいて
いただけたら嬉しいですね。結局のところ対応する人はSEやオペレータなのでそのコスト
を下げるとやはり知識や経験が少ない方が集まりますから。
仕組みや手順書を揃えれば何も問題が起きていないときには対応できるが、いざ問題が
起きた時に対応ができなくなることについても経営陣が理解してもらえるといいと
思いました。経営陣の方も約束した利益を出すために追い込まれている状況も理解
できるので世の中の方や投資家も理解しあえると皆が幸せになれますね。
■情報源のお知らせ
検索すればホームページや記者会見動画にたどり着けると思いますがページのリンクを
共有させていただきます。
https://www.kddi.com/important-news/20220729_01/?utm_source=p_gl0&utm_medium=cpc&utm_campaign=cd000bad&utm_term=d11901
■最後に
最後まで読んでいただきありがとうございました。
間違った内容があったらごめんなさい。
パソコンからユーザ登録しなくてもコメントできるようになりまたのでご意見等いただけると
嬉しいです。
Comments