本記事では、システムに初めてアクセスする際のCloud Alertの使い方について簡単に説明します。
Cloud Alertとは、アプリ、サービス、ワークフローの全てを1か所に統合する強力な自動化プラットフォームです。また、拡張可能で柔軟性があり、DevOpsとChatOpsのために愛を込めて構築されています。
1. 動作の仕組み
Cloud Alertのコアコンポーネントは、イベントトリガー、イベントコレクター、ルールエンジン、ChatOps、Runbookです。
イベントトリガー
トリガーはCloud Alertにこれから来るイベントを識別するCloud Alertコンストラクトです。ルールはトリガーで機能するように記述されています。例えば、Cloud Alertに登録されている一般的な webhook トリガーがあります。
イベントコレクター
イベントコレクターは、Amazon CloudWatch、Azure Monitor、Datadog等のアラートソース(またはイベントトリガー)からイベントを取得するリスナーとして機能します。
ルールエンジン
ルールエンジンは、ユーザーが自分で基準に対してルールを簡単に定義し、対応するRunbookアクションを生成するための柔軟な方法を提供します。
ルールからトリガーがある場合、Cloud Alert はトラブルシューティング、既知の問題の対応、必要に応じて人間へのエスカレーションを行うこと等、Tier 1としてのサポートを機能できます。「ディスク領域不足時にログをクリーンアップする」、RabbitMQスプリットブレイン」からの復旧、MySQLマスターの移行、またはOpenStackやCassandraのトラブルシューティングガイドの自動化等、ナンセンスだがよくあることである。Facebook、LinkedIn等どから学んだことは自動化しないと死ぬというのもある。
Cloud Alertは次の3つのアクションタイプをサポートしているので、ルール設定のアクションを定義できます。
(1) Runbook
よくある問題に対しては、Runbookアクションを定義して自動的に是正することができます。Runbookは複数のアクションのあるワークフローのようです。
ICloud Alertでは、Apache AirflowがRunbookモジュールとして使用されます。詳細については 、こちら をご参照ください。
(2) ChatOps(コラボレーションツール)
重大な問題に対しは、ユーザーは、Slack、Skype等のChatOpsチャネルを介してメッセージをすぐに送信するように定義できます。
ChatOpsは自動化とコラボレーションを統合し、DevOpsチームを変革して、物事をより良く、より速く、スタイリッシュに行います。次のような利点が得られます。
- 人にやさしいエイリアスを介してアクションを公開する
- ルールとワークフローから通知を受け取る
(3) その他の問題
その他の問題に対しては、チケットシステムにリクエストをService Nowとして記録できます。
2. 使い始めるには?
Cloud Alertを使い始めるには、
- ユースケースとシナリオを準備する
- event sources (Amazon Event Bridge, Data Dog) を構成する
- インテグレーション設定でChatOpsチャネル (MS Team, Slack) を設定します。
- ルールを定義し、関連するアクションを設定する
- アクションログ を表示し、重大な問題に対応する
3. 主な機能
Dダッシュボード
- アクション数をカテゴリ別に表示する
- 最近の上位10件のアクションを表示する
- イベントソースを設定する: プライマリフィールドまたは一致フィールド別にイベントソースを表示するように設定します。
- アラートソース: アラートを特定のソースからCloud Alertへトリガーする方法を構成します。
ルール
- ルールの設定方法: ルールの基準と関連するトリガーアクションを設定する
- ルールの基準の設定方法: ルールに一致する基準を定義する
アクションログ: 期間(1時間、1日、1週間、1か月)ごとにアクションログを表示する
ChatOps: メッセージを特定のコラボレーションチャネルに送信する
Runbook: setup & configure runbook, matching runbook wRunbookの設定と構成を行い、RunbookとAirflowを統合する
Uユーザー
- ユーザーを招待する
- Azure ADを統合する(SSO/SAML)
ロール
- ロールの設定