アクセス障害のご報告とお詫び
平素はJunSoftをご利用頂きありがとうございます。
5月29日19時頃から翌30日0時17分頃まで、当サイトにつながりにくい状態が発生していました。ご迷惑をおかけしたことを深くお詫び申し上げるとともに、本件についてご報告します。
障害日時
2007/05/30 18:55頃 ~ 2007/05/30 00:17頃
影響
当サイトへつながりにくい状況となっていました。
原因
JunSoftでは、ご利用の皆様の利便性向上やサーバ攻撃の検出を目的として、定期的にアクセスログの分析を行っています。この処理は負荷がかかるため、通常はWEBサーバとは別のコンピュータで実行しています。このたび、急遽ログの解析を行う必要があったため、当該プログラムをサーバ上で行いましたが、実行した日付が月末に近かったことと、今月のアクセス数が多かったことが重なり、予想外に処理量が大きくなりました。このときサーバ上でスラッシングが発生していたことが、後の分析で判明しています。スラッシングとは、メモリ不足によりハードディスクへの読み書きが高頻度に発生し、処理能力の殆どを機械的な駆動待ちに費やしてしまい、極端にレスポンスが低下する状況を指します。通常スラッシングは一定時間が経過すると解消することが多いのですが、今回はサーバのスペックを大幅に超える処理量であったため、長時間サイトにつながりにくい状態となってしまいました。
対応の遅れについて
JunSoftではサーバの死活監視を行っており、一定時間サーバが無応答となった場合に、管理者の携帯電話に通報する体制としています。しかし、スラッシングが発生するとサイトのアクセスには支障があるものの、死活監視上ではアクセス集中時と同じように見えてしまうことがあり、障害が検知されませんでした。また、原因分析や復旧作業中もサーバ上ではコマンドの受付が困難な状態となっており、復旧作業も遅れてしまいました。
対策
サーバ上では同処理を行えなくするよう、近日中にプログラムを修正する予定です。
経緯
- 【2007/05/29 18:55頃】 サーバが高負荷状態になりました。(障害発生)
- 【2007/05/29 23:15頃】 当該事象が発覚し、原因分析を始めました。
- 【2007/05/29 23:40頃】 異常個所が特定されたため強制終了を試みました。
- 【2007/05/29 23:58頃】 上記が受け付けられないため、サーバの再起動を開始しました。
- 【2007/05/30 00:17頃】 サーバの再起動が完了しました。(障害復旧)
- 【2007/05/30 01:58頃】 本件についてまとめ、このページを掲載しました。

