Created on 2018-02-18
Modified on 2018-02-19
先日は、触ったら壊れる日だった。 進捗0なのにすごい疲れた。
ネットワーク障害にzabbixサーバも巻き込まれた問題は、なんとかしたほうが良さそう。 今回は幸いコンパネでいじっている最中に起こったのですぐ気づいたものの、何もしてないときだったら、これ気づくのが遅れていたかもしれない。
障害内容:
新しいノードを追加したところ、一部のノードのIPsecが切れてノード間通信が出来ない状況となった。 コントロールパネルからは、ipsecスタックのipsecサービスが再起動を繰り返していることが確認できた。
やったこと:
補足:
GitHubにはIssueが立ってたけど、原因わかってないよねこれ。
障害内容:
schedulerスタックのschedulerサービスが、こんなエラーを吐いて停止した。 schedulerが止まり、新しいコンテナの配備や構成変更などが機能しない状態となった。
Invalid Date Invalid Date grabbing logs: EOF
やったこと:
このpullreqで修正されているので、masterブランチでは治っているようだ。
全ノードのdockerを、c5e7537d2305c1855f95422f08ca844d05a17aa2
をビルドしたものに置き換えたら問題が解消した。
Cattleのコントローラのアドレスをドメイン名で指定しているのだが、それを誤って削除してしまった。 なんか一部のサービスがダウン (詳細な記録が残ってない) してたと思う。
同じ日にソフトウェアのバグを2回も踏んで障害起こしたので、またソフトウェアを疑ってた。 けどバグってたのは俺だった。