sre

sre

sre 是什么?

什么是SRE?

站点可靠性工程(SRE)是一种用于 IT 运维的软件工程方案。SRE团队使用软件作为工具,来管理系统、解决问题并实现运维任务自动化。

SRE 执行的任务以前通常是由运维团队手动执行,或者交给使用软件和自动化来解决问题和管理生产系统的工程师或者团队执行。

工作职责

SRE 工程师是一个独特的岗位,要么必须具备系统管理员背景、或者有运维经验的软件开发人员,要么是有软件开发经验的 IT 运维人员。

SRE 团队根据服务水平协议(SLA)确定新功能的推出,并利用服务水平指标(SLI)和服务水平目标(SLO)定义系统需要的可靠性。

SLI

提供服务水平的特定方面。关键 SLI 包括请求延迟性、可用性、错误率和系统吞吐量。

SLO

根据 SLI 而指定的服务水平的目标值或者范围。

支持 SRE 的技术

SRE 要在应用的整个生命周期中确保日常运维任务的自动化和标准化。 Ansible自动化平台 是一个全面的集成平台,可以帮助 SRE 团队实现速度、协作和增长的自动化,从而为企业的技术、 运维和财务职能提供安全性和支持。


最后修改 December 25, 2024: 菜单更新 (a57fa7d)