文章目录

sre概述

2024年7月5日

| sre

| 阅读

SRE，全称 Site Reliability Engineering（站点可靠性工程），是一种结合了软件工程和系统运维的专业实践，主要用于确保大规模网络服务的可靠性、性能和可扩展性

SRE（site reliability engineer 站点可靠性工程师）

sre的职责是保障网站的可用性，是一种认知共识，一套方法论、一种系统化的思维方式。从故障预防->故障处理->故障复盘，形成闭环

sre做到：

数据不丢(数据冗余设计)
网站不倒(高并发处理能力)
用户体验好(低时延、友好交互体验)
安全运行(防止攻击)

alt text

sre职责

系统监控与报警: 监测服务健康状态、设定阀值触发告警、及时响应异常情况
性能优化: 分析并改进系统性能、减少延迟、提高响应速度
容量规划: 预测和规划系统未来的需求，确保资源能及时到位，避免服务中断
故障排除与恢复: 快速定位和修复故障，实施灾难恢复计划
自动化：开发维护自动化脚本及工具，减少手动操作,提高效率
服务架构设计：参与服务架构设计及重构，确保整体架构上可扩展及可用性
代码审查及与部署：进行代码审查及持续集成和持续部署(CICD)
文档和知识分享：编写和维护技术文档，促使团队间信息共享

SRE不仅关注运维层面，还深度参与到软件开发的各个环节中，与开发团队紧密合作，推动DevOps文化的形成。 SRE的目标是通过工程化的手段，让服务在面对高流量、高并发的情况下依然保持稳定运行，同时也要保证服务的高效性和成本效益。

相关文章

sre