17zwd一起做网站广州新塘,望城经济建设开区门户网站,衡水做阿里巴巴网站,专业建设内涵包括哪些内容一#xff0c;【基础运维检查】或叫 例行检查 或叫 例行巡检mail cacti1.理解例行检查列表的内容、检查项的含义以及可能引发的问题。2.按照例行检查表#xff0c;定期检查系统状态#xff0c;发现异常立即通报并推进解决。3.定期检查线上服务模块#xff0c;排除可疑进程,…一【基础运维检查】或叫 例行检查 或叫 例行巡检mail cacti1.理解例行检查列表的内容、检查项的含义以及可能引发的问题。2.按照例行检查表定期检查系统状态发现异常立即通报并推进解决。3.定期检查线上服务模块排除可疑进程, 发现问题及时通报。4.理解监控和统计报表的各项含义每天定时检查报表发现异常立即通报并推进解决。5.制定服务例行检查要点和方法部署执行并不断完善避免检查的盲点。工作清单参考1.在预期的时间内根据执行手册保质保量完成产品线既定的例行检查工作。2.通过技术方式提高例行检查的效率。3.有能力发现潜在问题制定或者补充合理的检查清单和检查方式保证基础运维有效进行。4.进行问题和追查并解决可能的隐患。具体检查项举例机器性能idle60%memfree60%io30MB/snic90MB/sdisk_used80%模块日志请求次数800次/s 耗时300ms/次日志fatal|error|warnning条数系统日志查检内核日志是否有异常输出 (I/O error|EXT2-fs error|ERROR on|Medium Error|error recovery|disk error|Illegal block|Out of Memory|dead device|readonly)数据报表前一天用户访问量报表前一天用户提交量报表各地域访问服务流量情况和耗时情况非正常用户(网页抓取)访问量情况备份检查检查夜间的数据备份是否正常。如在排查过程中遇到问题需要及时跟进凭估问题影响及时通报跟进问题定位问题提出解决方案经确认后执行解决方案最后通报问题已解决 并 给出如何让此类问题不再次发生。二【整理预案】工作清单参考1.根据服务稳定性和部署现状整理服务执行预案。2.将服务分级别分层次整理不同重要性的应急预案。3.定期进行预案演练每季度进行一次大规模预案演练但如有重要级别的服务可以加快预案练习频率(每月演练一次)4.记录预案执行时间人员操作耗时影响服务时间服务恢复时间最后整理整个预案演习的时间和真正影响服务时间。5.根据预案演练发现的问题记录问题原因并更新预案如果有遗漏的监控应在预案演练后及时添加监控。6.优化预案执行过程预案执行自动化降低影响服务的时间。三【故障处理】1.熟悉服务日常故障处理方法和预案执行要点。2.对已知线上故障能按流程进行通报并按预案执行。3.及时处理并回复相关的服务报警信息。4.能透彻分析报警原因,并推动报警问题解决。5.能发现服务隐患总结处理方法和提出预案改进建议。四【数据备份】1.根据服务类型将需要备份的数据划分重要级别理解什么数据需要全量备份什么时候需要增量备份并且需要确认数据需要保留天数。2.编写数据恢复预案定期演练包含但不限于每季度的数据恢复测试3.根据服务调整、机器迁移等服务变更须及时更新备份方案五【机器管理】1.熟悉服务器资源状况机房分布情况并能做到批量管理自动化管理。2.合理使用服务器资源根据不同服务的需求安排不同配置的服务器。3.保证服务器正常运行对服务器硬件添加或变更来解决资源不足问题。4.熟悉服务器上下架、上下线、搬迁相关流程。六【服务管理】服务与服务间的关联关系。线上服务操作注意事项。及时发现服务上的问题并及时跟进、推动解决。整理运维文档记录每个服务的问题或潜在问题和这个服务的特殊点。七【技术审核】1.编制或审核上线步骤、回滚方案。2.按流程高质量地完成上线、操作包括上线后的检查复核以及紧急情况下的回滚操作。3.用脚本和自动化的方法实现上线和操作,改进上线/操作过程。具体审核点1.评估变更对运维影响(如资源、接口、平台)产出评估影响以及应对策略。2.评估变更对业务的影响(如流量、收入、网页数等)3.变更执行3.1变更时间、地点、参与3.2变更方案(含 执行方案、预案)3.3变更执行3.4变更check(业务和运维)3.5变更回顾4.对所做的变更进行回顾和总结4.1变更问题总结和改进4.2改进措施与实施4.3改进对业务推动4.4改进对运维推动