sre概述
SRE,全称 Site Reliability Engineering(站点可靠性工程),是一种结合了软件工程和系统运维的专业实践,主要用于确保大规模网络服务的可靠性、性能和可扩展性
SRE(site reliability engineer 站点可靠性工程师)
sre的职责是保障网站的可用性,是一种认知共识,一套方法论、一种系统化的思维方式。从故障预防->故障处理->故障复盘,形成闭环
sre做到:
- 数据不丢(数据冗余设计)
- 网站不倒(高并发处理能力)
- 用户体验好(低时延、友好交互体验)
- 安全运行(防止攻击)
sre职责
- 系统监控与报警: 监测服务健康状态、设定阀值触发告警、及时响应异常情况
- 性能优化: 分析并改进系统性能、减少延迟、提高响应速度
- 容量规划: 预测和规划系统未来的需求,确保资源能及时到位,避免服务中断
- 故障排除与恢复: 快速定位和修复故障,实施灾难恢复计划
- 自动化: 开发维护自动化脚本及工具,减少手动操作,提高效率
- 服务架构设计: 参与服务架构设计及重构,确保整体架构上可扩展及可用性
- 代码审查及与部署:进行代码审查及持续集成和持续部署(CICD)
- 文档和知识分享: 编写和维护技术文档,促使团队间信息共享
SRE不仅关注运维层面,还深度参与到软件开发的各个环节中,与开发团队紧密合作,推动DevOps文化的形成。 SRE的目标是通过工程化的手段,让服务在面对高流量、高并发的情况下依然保持稳定运行,同时也要保证服务的高效性和成本效益。