SRE — Site Reliability Engineering Principles

Site Reliability Engineering balances innovation with reliability through data-driven practices.

Introduction

SRE applies engineering principles to operations, emphasizing reliability, automation, and continuous improvement.

Measurable aspects of service:

SLI = successful_requests / total_requests * 100

Targets for SLIs:

Resources available for failures:

Error Budget = (1 - SLO) * Time Period
100% - 99.9% = 0.1% = 43 minutes per month

Use budget to prioritize features vs reliability.

Alert when → SLI approaching SLO violation
Don't alert on → predicted violations beyond error budget

Identify repetitive operational tasks and automate:

Manual deployments → CI/CD pipeline
Manual scaling → Auto-scaling
Manual backups → Automated backups

After incidents:

Q: What's a reasonable SLO? A: Depends on service. Typical: 99% (critical), 99.5% (important), 95% (internal).

Q: How do I reduce toil? A: Track manual tasks, prioritize high-frequency items, automate progressively.