ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

运维职责的定义

2021-10-18 14:59:26  阅读:171  来源: 互联网

标签:职责 运维 单机 系统 业务 故障 容灾 组件 定义


应用运维团队的职责:

对标一线互联网企业的运维团队

懂业务&懂技术架构,是某个业务系统的技术与架构专家
负责业务系统的部署与变更
负责业务系统的异常发现与故障诊断,确保服务连续性
负责业务系统的高可用架构设计与实现
负责业务系统的性能分析与容量规划

初级:
部署
根据单机故障容灾的原则,对业务进行生产部署。包括新系统上线和现有系统扩容
对业务系统进行容灾能力评估和评审,确保具备单机故障容灾能力。如果开发提供的系统不满足单机故障容灾,则需要提出整改要求和建议
针对核心系统要考虑两地三中心的容灾架构
标准化与一致性,降低维护成本
在标准化的前提下,考虑实现自动化部署

变更
变更风险的评估
变更方案的制定,包括操作过程、验证方案、回退方案。
变更执行,以及过程及结果的全流程记录,确保可追溯
变更效率及质量的闭环管理机制,定期回顾。

服务
协助开发查询生产信息。随着工具化及平台建设,尽量减少这部分工作量

中级:

监控告警
对自己所负责的业务系统,设计并实现硬件与操作系统、技术组件、应用、业务指标4层监控与告警。
确保应用运维是业务系统服务异常的第一发现人和处理人,将故障消灭在隐患阶段
对告警的覆盖度、准确性进行长期跟踪和管理

故障诊断
凭借良好的监控和告警设计,数量掌握监控工具
对网络,代码,数据库,负载均衡等基础技术组件的服务质量和性能指标有足够了解。
有能力对故障进行快速和基本的原因定位,例如网络,代码,数据库,Java中间件,负载均衡等
基于原因定位,采取快速恢复措施,隔离故障点或者要求相关团队进行有针对性的处理(例如数据库主从切换)
回顾高可用设计的缺陷,加强自动容灾能力(例如单台服务器故障,主动摘出生产流量)

单机故障容灾
对业务系统实现单机故障级别的自动容灾设计并实现。
新业务上线进行高可用架构和容灾能力评审

定义:单机故障自动容灾当单台服务器发生故障时,无需人工干预,1分钟内系统自动隔离故障点,并恢复服务)

数据中心级别容灾
熟练掌握双活、主备等容灾设立理念,负责数据中心级别的容灾设计
编写灾备恢复预案,并定期演练。

性能分析
对自己所负责的技术组件的性能有充分了解
对核心性能指标进行有效监控
理解技术组件的关键性能瓶颈点
有能力对技术组件的性能进行优化

容量规划
在充分性能调优的前提下,理解当前部署情况下的集群处理容量
根据业务指标的增长,对集群吞吐量进行评估
制定解决方案,应对常规和突发的流量增长

应用架构师 高级:

业务方面
掌握整个业务系统(如信用卡)内的各个子系统的相关依赖关系
掌握整个业务系统的核心业务指标与次要业务指标的相关性
对业务处理流程和数据流充分掌握

技术方面
从APP到存储的全栈技术能力
了解每个技术组件的关键健康指标、性能指标、高可用方案、故障处理方案
负责整个业务系统的数据中心级别的容灾规划
负责整个业务系统的压力测试、容量评估、业务与技术指标的模型建立

标签:职责,运维,单机,系统,业务,故障,容灾,组件,定义
来源: https://blog.csdn.net/chaodaibing/article/details/117528596

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有