Mackerelで他のオーガニゼーションのアラート状況もまとめて把握したかった
午前2:30くらいにCPU100%のアラートが来て
しばらくしても戻らなかったので
のそのそと布団から這い出て確認するとstealが100%になってました
t2.microでCPUのstealが100%でググるといっぱいでてくるから割りとあることみたいなので
本番環境じゃなくてよかったなぁって思いつつ
インスタンス再起動を待ちながら所属するオーガニゼーションをフラフラと巡ってた
メインで見ているオーガニゼーションは
いつも通りのアラートが出ていて(アカン)
ああ、明日なんとかしよう・・と思って見なかったことにして(ちゃんと今日対応しました!)
サブのオーガニゼーションたちを見ると
そこにもアラートがちらほらしていてこれって誰か検知してるの?という状態でした
さすがに他のオーガニゼーションのアラート数を取得するというアグレッシブ機能はなくて
MackerelのAPI経由でアラート数を取得して投稿したらいいんじゃない?っていう声が近くからしたのでやってみました
今回はshellがあまりにも雑なので割愛します
アラートを意図的に起こしてslackを騒がせたのでグラフもとても賑やかです😊
19時あたりは意図的に起こしたアラートをすべてクローズしたのに
0になっていない図となりました
来週やるぞ😵