インフラの可用性を向上させる¶

k8s Master の冗長化¶

API受付をするマスタ系のノードやetcdやkubernetesサービスの高可用性も担保しましょう。

また、障害設計をどの単位(DC単位、リージョン単位）で行うかも検討をしましょう。

標準のkubectlだとログが追いづらいときがあるため以下のツールの検討をします。

監視する対象として、メトリクス監視、サービス呼び出し、サービスメッシュなど分散環境になったことで従来型のアーキテクチャとは違った監視をする必要があります。簡単にスケールアウトできる＝監視対象が動的というような考え方をします。

また、分散環境では１つのアプリケーションでも複数のサービス呼び出しがおこなわれるため、どのようなサービス呼び出しが行われているかも確認できる必要があります。

Helmで提供されているGrafana+Prometheusをデプロイし監視することにチャレンジしてみましょう。

Prometheusは長期保管はできないため長期保管の際は別途保管が必要です。

大きく以下のバックアップ対象が存在します。

kubernetes の構成情報が保存されているetcdのバックアップをどうするかについてわかりやすいドキュメントが公開されています。基本方針としては、etcdctlのスナップショットを定期的にとる、またはストレージ機能でとるという２つの大きな方針です。

参考までに etcdctl を使ったサンプルを提示します。

ETCDCTL_API=3 etcdctl --debug --endpoints https://ip_address:2379 --cert="server.crt" --key="server.key" --cacert="ca.crt" snapshot save backup.db

この実行内容をCronJob等で定期的に取得し保管するという方法が取れます。

基本方針として永続化するデータは外部ストレージに保管するという方針でいくと、ストレージ側でバックアップを取得するのが比較的容易にバックアップ可能です。

ご参考までに、trident ではストレージスナップショットを定期的に取得するよう設定可能です。 1サイトでのバックアップは簡易的に可能ですが、遠隔地保管等をする場合は後述の「DRをどうするか？」で言及します。

上記２つとは考え方が違うものになります。クラウドのサービスを使う上では可用性や冗長性はSLAに従うことになり、ユーザ側で意識することはあまりありません。プライベートレジストリを利用する場合は、ダウンしてしまうと新たにアプリケーションがデプロイできないという自体になってしまいます。

例えば、脆弱性があった場合の対処方法はどうすればよいか。

アプリケーションのポータビリティはコンテナで実現。別クラスタで作成されたPVはそのままは参照できないので以下の方法を検討する。

Dynamic ProvisioningされたPVCのPod障害時の動作については以下のような動作になります。 PVCはTridentを使ってデプロイしたものです。

Stateful Set を使い、MongoDBを複数ノードで構成し上記の検証を行った結果が以下のリンク先で確認できます。