s25t HDD炎上障害報告
2020年7月28日に social.mikutter.hachune.net(以下s25t)においてサーバーにアクセスができない問題が発生しました。
復旧までに1週間弱かかりましたが、幸いデータの破損等はありませんでした。
障害発生期間
2020/07/28 01:30 ~ 2020/08/01 19:40
障害内容
サーバー内のHDDに使用されていたペリフェラル電源−SATA電源変換ケーブルが焼けました。

https://amzn.to/3k24MeEamzn.to
被害
- 障害期間中、全ユーザーがサーバへアクセスできませんでした
原因
ペリフェラル電源−SATA電源変換ケーブルが焼けたことが原因です。
上記変換ケーブルを利用していた理由としては、使用していたHDDが3.3V問題を抱えていたため、これを回避するために使用していました。
構成
マストドンでアップロードされた画像等のメディアデータは、先日問題が発生したSSDではなく、HDD上に保存していました。
先月の問題発生によってSSDのバックアップは設定したが、HDDは画像だけだし、そのうちでいいかと思っていたところに、今回の事件が発生しました。
そのことによって、画像等のデータに全てアクセスできなくなるだけでも、事実上サービスを提供できなくなるということが判明しました。
3.3V問題
SATA3.2規格のHDDで、3.3Vの電源入力があると動作しないHDDがあります。
今回問題となったHDDは、もともと外付けHDDとして販売されていたものをバラして内蔵HDDとして転用したもので、この問題によって動作しませんでした。
マシン構築当時は、ペリフェラル電源−SATA電源変換ケーブルでは3.3Vのピンがないことを利用して、この問題を回避していました。
対応
対応経緯
| 月日 | 時分 | 事象 |
|---|---|---|
| 7/28 | 01:30 | ケーブルが焼ける |
| 01:50 | サーバー管理者がインシデントに気づく。この時点でサーバーの設置部屋と廊下がダイオキシンの匂いが充満していた。 | |
| 02:00 | 配線が焼けているのを発見した。この時点で電源は落ちていた。電源ケーブルをコンセントから抜く。 | |
| 07:00 | 起床して夢じゃないことを確認 | |
| 21:40 | HDDを @sushi に郵送 | |
| 7/29 | 19:40 | 交換用の電源ユニットを発注@sushi |
| 7/30 | 21:30 | @ahiruからHDDが届き初期診断 |
| 22:00 | 今回は焼けたHDDから直接データを取り出す方針とし、まずは焼損部分の除去を開始 | |
| 23:13 | 除去後には電源投入でき、HDDの全データをコピー開始 | |
| 7/31 | 18:30 | 電源ユニットが@ahiruの元に到着 |
| 20:20 | 全データのコピー完了を確認できた | |
| 20:45 | HDDを @ahiru に郵送 | |
| 8/1 | 09:55 | @sushi によって復旧されたHDDが到着 |
| 14:00 | 電源ユニットとHDDの交換作業開始 | |
| 17:40 | HDDの3.3Vのピンの除去作業 | |
| 19:40 | 復旧完了 | |
| 20:00 | フリージア をかけて復旧を祝う |
Appendix.A データサルベージ
焼けた状態のHDDが到着し、まずは初期診断を実施

焼損部分は変換ケーブル側の12V付近とHDDの電源コネクタに限られたため、下記の道具を用意し焼けたコネクタの除去を行いました。
- 無水エタノール
- 歯ブラシ
- ペンチ
- マイナスドライバー
- カッターナイフ

その後は用意していた同容量HDDにデータをすべて移し替えました。

Appendix.B 3.3V問題の解決
- 根本的問題解決のため@sushi の指導の下、HDDの3.3Vのピンを切除しました。

3.3Vピン切除後
謝辞
前回の障害に引き続きs25tユーザーの皆様におかれましては、サーバの復旧を待っていただきありがとうございました。