SRE,全称 Site Reliability Engineering(站点可靠性工程),是一种结合了软件工程和系统运维的专业实践,主要用于确保大规模网络服务的可靠性、性能和可扩展性

SRE(site reliability engineer 站点可靠性工程师)

sre的职责是保障网站的可用性,是一种认知共识,一套方法论、一种系统化的思维方式。从故障预防->故障处理->故障复盘,形成闭环

sre做到:

  • 数据不丢(数据冗余设计)
  • 网站不倒(高并发处理能力)
  • 用户体验好(低时延、友好交互体验)
  • 安全运行(防止攻击)

alt text

sre职责

  • 系统监控与报警: 监测服务健康状态、设定阀值触发告警、及时响应异常情况
  • 性能优化: 分析并改进系统性能、减少延迟、提高响应速度
  • 容量规划: 预测和规划系统未来的需求,确保资源能及时到位,避免服务中断
  • 故障排除与恢复: 快速定位和修复故障,实施灾难恢复计划
  • 自动化: 开发维护自动化脚本及工具,减少手动操作,提高效率
  • 服务架构设计: 参与服务架构设计及重构,确保整体架构上可扩展及可用性
  • 代码审查及与部署:进行代码审查及持续集成和持续部署(CICD)
  • 文档和知识分享: 编写和维护技术文档,促使团队间信息共享

SRE不仅关注运维层面,还深度参与到软件开发的各个环节中,与开发团队紧密合作,推动DevOps文化的形成。 SRE的目标是通过工程化的手段,让服务在面对高流量、高并发的情况下依然保持稳定运行,同时也要保证服务的高效性和成本效益。