SREがいないチームの「なんとなく」でない「監視」の始め方 rejected

Abstract

「入門監視」の発売を機に、サービスの監視や安定稼働に関する関心が高まっていると思います。
書籍の内容は素晴らしく、理想のように感じました。

しかし、それと同時に、大抵の場合は「我々のいる現実」と「本に書いてある理想」の隔たりが存在するのではないでしょうか。
特に、スタートアップや、専任SREチームや技術基盤担当がいない場合に、組織として「監視」のレベルを上げていくのは大変なチャレンジがあると思います。

私自身、自分のいるチームに対して、数名レベルの小さなときの感覚のまま、属人化・暗黙的なHowに依存したままの状態に危機感を感じました。「監視が役割になっている」という危機感です。

専任のSREや技術基盤チームのない組織で、実際に行った取り組みを取り上げながら、「監視のできる組織を作る」という話をさせていただきたいと思います。

これは以前に職場で書いたブログ記事の、後日談でもあります。
入門監視を読んで、「監視の民主化」に本気で向き合おうと思った話 - コネヒト開発者ブログ

こんな人のお役に立てれば

  • 監視や障害対応を「ベテラン」「強い人任せ」になってしまっているチーム
  • 「入門 監視」を読み、共感したものの、明確な監視体制を作れるかの手がかりを掴めていないチーム
  • 比較的スモールなチームで、「誰かが監視を引っ張っていかないとな」という危機感があるチーム

topic

  • アプリケーションエンジニアだからできること
  • 「障害」に対する意識をどう揃えていくか
    • 障害対応に対する苦手意識はどこからくるのか
    • 過去と現状の分析を進める
    • サービスレベルのデザインを行う
  • 「対応者」を増やすために何から取り組むか
    • 形式知化を進めるべき項目
    • トレーニングを行う

Session Information
Starts On N/A
Room
Session Duration 20 min session
Spoken Language Japanese
Interpretation Unavailable
Slide Language Japanese