以下の内容はhttps://nasrinjp1.hatenablog.com/entry/2021/03/08/100546より取得しました。


障害対応のふりかえりとその後の取り組み

こんにちは、那須です。 システム運用していると必ずついてまわるのが障害対応ですね。 障害発生した時にどう対応するか、その後再発させないためにはどうすればいいか、などをこれを読まれている運用担当の方は常に考えられていると思います。 私たちも同じで、onedog のサービスを利用して得られる価値をユーザのみなさまに継続的に届けられるように運用しています、、と思い込んでいました。

少し前になりますが、2021/2/6(土) と 7(日) のそれぞれ夕方に onedog のサービス提供ができなくなる障害が発生しました。 今思い返してみると、2 月時点ではインフラ観点でみるとあまりいい運用ができていなかったと思います。 その時の障害対応の振り返りだと思って、障害原因の確認と復旧対応、そしてその後の同じ障害を再発させないための取り組みについて公開することにしました。 まだまだ完全な形には程遠いですが、少しずつ運用の姿を進化させていきたいと思っています。

↓note に書いてますので、よかったらご覧ください!

note.com




以上の内容はhttps://nasrinjp1.hatenablog.com/entry/2021/03/08/100546より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14