2022年9月20日に発生したシステム障害についてのご報告(2022年10月1日 02:00更新)

2022年10月1日 02:00更新

・サーバーに高負荷を与えるプログラムの改修を行いました。負荷の高い順に改修を行っており、現時点で改善の余地があるプログラムの 60%程度が完了しています。

 

2022年09月29日 19:30更新

・サーバーに高負荷を与えるプログラムの改修を行いました。負荷の高い順に改修を行っており、現時点で改善の余地があるプログラムの 30%程度が完了しています。


2022年09月29日 13:00更新

・9月29日 0時~3時 、再度データベースのメンテナンスを行いました。

・9月28日 画像を処理するサーバーの増強を行いました。

・9月28日 負荷分散装置を追加し処理の分散を行いました。

・9月26日 アプリ用サーバーの増強を行いました。


2022年09月23日更新

・19:00 データベースサーバーに常時過大な負荷を与えるプログラムが発見され修正を行いました。

・05:00 2022年9月23日00時~05時の間で、データベースのメンテナンス作業を行いました。

 


 

平素は格別のご高配を賜り厚く御礼申し上げます。


2022年9月20日、午前7時ごろ~8時20分ごろにかけて、マチコミアプリにログインしにくい状況が発生いたしました。ご利用の皆さまには多大なるご迷惑をおかけしましたこと、深くお詫び申し上げます。


今回の障害については、該当時間帯にアクセスが集中したことにより発生しました。システムのどの箇所が原因で障害が発生したのかについて、現在調査を行っております。

 

 

現時点で判明している調査結果と対応状況について、こちらのページにて随時ご報告させていただきます。


 

1. 発生日時
2022年09月20日07:00頃~ 2022年09月20日 08:20頃


2. 原因
該当時間帯に学校・配信されたメールからのアクセスだけではなく、前日に大量配信されたメールの確認などにより、想定を上回るアクセスが集中し大量のトラフィックが発生しておりました。
上記大量のトラフィックによるシステムパフォーマンス低下によりアクセスエラーが発生し始めた結果、アプリの再起動や再読み込みが行われさらに大量のアクセスが発生する状況になり、応答が返せない現象が起きていました。

 

3.被疑箇所

(1)処理を分散する機器のスペック不足
アクセス集中時の高負荷に対応するため、複数のサーバーに処理を分散する装置、ロードバランサーを導入しています。アクセス数は想定内の数でしたが、想定以上の負荷が発生しアプリへの応答が滞る状況が発生しておりました。
また、通信に失敗したことにより多くのお客様が再接続を行うことになり、接続数が利用者数から想定する数倍から数十倍に増加しました。
    
2022年8月にサーバー群を通信キャリアのクラウドセンターへ移設を行いました。その際、機器の選定が適切ではなかったため大量アクセスを処理できませんでした。

 

対策高スペックな機器への入れ替えを進めています。

 

 

(2)プログラムの最適化不足

一部のプログラムにおいて処理が最適化されていない箇所が見つかりました。

対策各種プログラムの見直しおよび最適化を行います。

 

(3)iPhoneアプリの通信処理の不具合
サーバーからデータを取得する通信処理部分に不具合があることが判明しました。
この不具合が原因で、サーバーからのデータ取得に失敗した際にサーバーとの接続を切断せずに次の接続が行われていたため、結果的に大量の接続が残ることが判明しました。

 

対策iPhoneアプリで使用している通信処理のライブラリに潜在的な不具合があることが判明しました。現在最新のライブラリへ置き換える修正を進めています。2022年9月中に修正およびテストを行い、10月初旬にリリースする予定となっております。

 

4.今後の対応予定


2022年09月23日深夜
 ・データベースサーバーのメンテナンス

2022年09月23日~着手
 ・現状のロードバランサーを廃止し、別の負荷分散構成に切り替え
 ・システムプログラムの最適化
 

緊急時にご活用いただく学校連絡網サービスとして、有事のシステム障害はあってはならないことと今回の件を真摯に受け止め、改善に努めさせていただきます。

 

本件についてご質問などございましたらサポートセンターまでご連絡ください。
【マチコミサポートセンター】support@machicomi.jp