Webサービスの品質とは何か?アラート地獄と監視の失敗、サービスレベル目標設計から学んだ3つの答え accepted

Abstract

概要

このセッションでは、Webアプリケーションシステム運用エンジニアが抱えるパフォーマンスや可用性などの要求に対するアプローチとして、サービス品質の定義と目標設定指針、そしてこれを達成するための実用的監視設計およびスケーリング戦略と自己修復的アーキテクチャの実例についてお話します。

問題提起

Webサービスのパフォーマンスや可用性など非機能要件への要求は年々高まっています。また、それに呼応するように各種モニタリングサービス等の発展は著しく、システムの状態を正確に把握するためのエコシステムはすでに十分整っていると言えます。

しかし、システムの状態を正確に数値として収集できていることと、それら各種メトリクスを適切に監視しアラートを鳴らし、サービス品質要求に24時間365日応えられるようにするのは別次元の難しさがあります。

毎日アラートは流れてるけど何も対応してない(できない)という状況が続くと、それに慣れてしまった開発者はシステムの異常と正常が区別できませんし、アラートはそもそもサービス品質向上につながらなければ開発者を疲弊させるだけの存在になっていまいます。

また、事業を運営する組織としては、目標設定ありきでそこへの逆算で課題を解決していくべきです。では、我々システム運用者が設定すべきサービス品質・非機能要件の目標とはどうあるべきなのでしょう?どのように定量化し、何を目標にすべきなのでしょうか。また、目標を達成するための監視設計とアーキテクチャはどうあるべきなのでしょうか。

アジェンダ

  • 非機能要件の目標設定の難しさ
  • 検知可能と対応可能の違いとは
  • 品質を守る実用的Webサービス監視設計の事例紹介
  • 自己修復的アーキテクチャとスケーリング戦略の紹介

Video
Session Information
Confirmed confirmed
Material Level Beginner
Starts On 9/7/18, 3:30 PM
Room Multi-Purpose Room 2
Session Duration Regular Session (30min)
Spoken Language Japanese
Interpretation Unavailable
Slide Language Japanese