Rancherクラスタの障害 (2018-02-17 ~ 2018-02-18)

Created on 2018-02-18
Modified on 2018-02-19

先日は、触ったら壊れる日だった。進捗0なのにすごい疲れた。

ネットワーク障害にzabbixサーバも巻き込まれた問題は、なんとかしたほうが良さそう。今回は幸いコンパネでいじっている最中に起こったのですぐ気づいたものの、何もしてないときだったら、これ気づくのが遅れていたかもしれない。

障害1: ネットワーク障害

障害内容:

新しいノードを追加したところ、一部のノードのIPsecが切れてノード間通信が出来ない状況となった。コントロールパネルからは、ipsecスタックのipsecサービスが再起動を繰り返していることが確認できた。

やったこと:

rancher/serverコンテナを再起動
→ 復旧せず
rancher/agentコンテナが動いている全ホストを再起動
→ 全ノードのIPsecセッションが切れた (症状悪化)。相変わらずipsecサービスが再起動を繰り返している。 rancherクラスタの上に乗っているzabbixも死んだ….（´・ω・｀）
rancher/server:v1.6.15-rc4にバージョンアップ & Dockerを17.12.0-ceにバージョンアップ & Linux Kernelを4.4.0-112-genericにバージョンアップ → 問題は解消した模様。原因分からず。

補足:

GitHubにはIssueが立ってたけど、原因わかってないよねこれ。

障害内容:

schedulerスタックのschedulerサービスが、こんなエラーを吐いて停止した。 schedulerが止まり、新しいコンテナの配備や構成変更などが機能しない状態となった。

Invalid Date Invalid Date grabbing logs: EOF

やったこと:

このpullreqで修正されているので、masterブランチでは治っているようだ。全ノードのdockerを、c5e7537d2305c1855f95422f08ca844d05a17aa2をビルドしたものに置き換えたら問題が解消した。

Cattleのコントローラのアドレスをドメイン名で指定しているのだが、それを誤って削除してしまった。なんか一部のサービスがダウン (詳細な記録が残ってない) してたと思う。

同じ日にソフトウェアのバグを2回も踏んで障害起こしたので、またソフトウェアを疑ってた。けどバグってたのは俺だった。