作为一个长期的运维岗,我想做点事情帮助大家学习运维。都是干货,没卖过。
1.什么是运维工程师?
运营工程师,负责维护和保证整个服务的高可用性,并不断优化系统架构提高部署效率,优化资源利用率,提高整体ROI(百度百科)。总的来说,我们是园丁,制度是花园。只有爱护好园内的花草,整个园林才能吸引长期稳定的流量。
二、运维工程师的工作内容
顾名思义,运维工程师的主要内容就是运维。运维主要是保证一个系统长期稳定的工作。主要有以下几点:
1.问题发现:当系统出现异常时,需要尽快恢复业务,保证系统的可用性。在这里,借助监控平台和报警平台,我们可以通过短信和邮件告知自己系统出现故障。
2.问题处理:设计和开发一些处理工具。当系统出现故障时,该工具可以快速自动解决这些故障,从而恢复系统。
3.问题跟踪:通过故障发生时的一些表象(日志、监控、告警)找到问题的根源,找到开发修复的发展,修改配置原因的配置,第三方原因找到第三方。
4.配置管理:一个系统将有多个模块和版本。我们可以通过配置管理工具来管理这些不同模块和版本的配置,保证这些配置发布到生产环境后,系统能够正常运行。
三。容量要求
我们来看看某 *** 网站对运维工程师的岗位要求。
之一
1.计算机专业,全日制大专以上学历,2年以上相关工作经验;
2.了解Linux系统原理,掌握Linux操作系统常用命令,有常见HA集群故障排除经验(HA Proxy/KeepLived/NGNIX/Apache/Tomcat/Redis等。)的Linux
3.了解Tomcat/Apache/ActiveMQ/Kafka等中间件、Web服务器和消息队列产品;
4.熟悉至少一种Zabbix/Nagios/Catci监控工具,并使用该工具进行初步的问题定位和故障分析;
第二
1.大专以上学历。2.1年以上Linux操作系统运维经验;3.熟悉linux,docker,以及Tomcat,Mysql,Redis,Nginx,ELK等的安装部署。4.熟悉常用命令、Shell脚本编程和docker容器的使用;5.熟悉Linux系统高可用性技术、负载均衡、集群等技术解决方案;
第三
1.2年以上系统运维、监控运维等工作经验。2.精通Linux系统操作。3.熟悉常用监测测井工具的使用,如Zabbix、Prometheus、ELK等。有APM使用经验者优先。4.较强的沟通、协调和语言能力,善于团队合作,工作细致谨慎。
分为Linux基础、容器、监控工具和数据库。除了这些,我觉得还需要了解Shell/Python等编程语言和 *** 知识。除了技术能力,还要有责任心、细心、主动、安全意识等软素质。
四。Linux基金会
Linux基础包括对Linux的整体理解和命令的使用。
了解Linux:推荐鸟哥的Linux私厨:基础学习。我个人认为这是一本适合小白的入门书。
命令:运维中常用的命令一般涉及CPU、设备驱动、DRAM、IP、端口、应用、DB等。
动词 (verb的缩写)容器
常见的容器有Apache、Tomcat、Nginx、Weblogic、docker等。我建议可以设置一套当地的环境来练手。Tomcat在我参与的项目中被广泛使用。这里推荐鸟哥的Linux私厨:服务器设置。
不及物动词监控工具
目前有Zabbix,Catci,Nagios,Puppet等。是常用的。这个可以根据情况有选择的知道。我参与过的几个项目使用的监控工具都不一样,基本都是换个药,监控CPU、内存、日志、吞吐量等信息。
七。数据库ˌ资料库
常用的数据库有MySQL、Oracle、PgSQL、MSSQL等。作为运维,不能只是简单的增删查,还要参与安装、巡检、性能调优、备份等。不同的数据库语法都差不多,记住对应的关键词就行了。比如查当前时间,MySQL用now,oracle用sysdate。
八。程序设计语言
学习编程语言是为了更快地定位和解决系统故障。比如我曾经参与过一个项目,就是开放服务系统。当系统向外部网元发送打开指令时,需要外部网元回复成功或失败。当外网元回复第三种情况(实际回复成功,格式改变)时,我们的系统无法识别。这时会报错,工单无法完成。当时我用python写了一个工具,定时扫描出这种工单,模拟通知成功,让工单正常完成。
九。 *** 知识
熟练使用数据包捕获工具tcpdump,fiddler等。,了解防火墙,IP,端口等。,并推荐TCP/IP协议的详细解释。
X.软质量
一个好的运维,软质量是必不可少的。
责任:意识到自己负责的工作的主人,之一时间响应报警,而不是等着别人来处理;如果你处理不了,尽快同时请求援助。我对下面兄弟的要求是10分钟回应,30分钟解决,2小时汇报。运维岗位会有很多工作,尤其是现场运维,但是要记住客户是上帝,客户的问题之一。可以先回应,再解决。不要给客户一种你不重视他的感觉。当问题超过2小时无法解决时,需要向领导汇报,由领导协调售前团队安抚客户,售后团队提供解决方案。
小心:运维可以直接操作生产环境,你的任何操作都可能造成系统故障,从而影响业务。所以每次操作前,都要小心翼翼,反复确认。无论你敲单多快,都会节省一点时间。一旦出了问题,就会产生持久的影响。比如2017年某省某项目上线,因为命令敲得快,没有目录确认执行,主备数据全部清空空,导致当地业务中断2小时,手机根本没有信号。
进取性:运维所需技能广泛,需要不断学习,提升自己。遇到问题,做好分析和记录。好的记忆胜过糟糕的书面记忆。录音也是一个自我提升的过程。
安全意识:运维的权限非常大,通常包括服务器的root权限,一个api的私钥等等。对于这些数据,更好加密存储在本地,一定不能存储在 *** 云盘中。生产环境高于一切。
XI。结束语
以上观点为个人观点。如有不正确之处,请指正。接下来的几页,我会详细介绍技术的学习,比如Linux的常用命令,容器的加固等。,并收集一些与大厂相关的面试问题。
本文地址:百科生活频道 https://www.neebe.cn/live/943186.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们删除,谢谢!