Rancherクラスタの障害 (2018-02-17 ~ 2018-02-18)

Created on 2018-02-18
Modified on 2018-02-19


先日は、触ったら壊れる日だった。 進捗0なのにすごい疲れた。

ネットワーク障害にzabbixサーバも巻き込まれた問題は、なんとかしたほうが良さそう。 今回は幸いコンパネでいじっている最中に起こったのですぐ気づいたものの、何もしてないときだったら、これ気づくのが遅れていたかもしれない。

障害1: ネットワーク障害

障害内容:

新しいノードを追加したところ、一部のノードのIPsecが切れてノード間通信が出来ない状況となった。 コントロールパネルからは、ipsecスタックのipsecサービスが再起動を繰り返していることが確認できた。

やったこと:

補足:

GitHubにはIssueが立ってたけど、原因わかってないよねこれ。

障害2: schedulerサービスが落ちた

障害内容:

schedulerスタックのschedulerサービスが、こんなエラーを吐いて停止した。 schedulerが止まり、新しいコンテナの配備や構成変更などが機能しない状態となった。

Invalid Date Invalid Date grabbing logs: EOF

やったこと:

このpullreqで修正されているので、masterブランチでは治っているようだ。 全ノードのdockerを、c5e7537d2305c1855f95422f08ca844d05a17aa2をビルドしたものに置き換えたら問題が解消した。

障害3: 必要なAレコードを削除

Cattleのコントローラのアドレスをドメイン名で指定しているのだが、それを誤って削除してしまった。 なんか一部のサービスがダウン (詳細な記録が残ってない) してたと思う。

同じ日にソフトウェアのバグを2回も踏んで障害起こしたので、またソフトウェアを疑ってた。 けどバグってたのは俺だった。