发布日期:2016-08-02 12:46:07 +0000
友情提醒,本文为软文,如有不适烦请关闭。
很多人都好奇,我到底以前是做什么的,似乎什么都懂一点,似乎什么都会谈一点。那么,这个历史说来话长,今天只讲一部分吧,我跟系统运维的一些渊源。
先从上个世纪说起,1996或1997年,记不清了,还是读书的时候,在清华校园网,无聊翻bbs的各种帖子,找到了台湾黑客coolfire的一本教材(话说15年后在微博看到了他!)照猫画虎的用一个CGI信息泄露漏洞,拿到了清华计算中心某服务器的shadow文档,然后,用一个破解程序去尝试,解开了不少密码,其中就有管理员帐号,并且顺利的完成了登录操作,当然,也没敢做什么事情,但想说一点,即便如此,对shadow文档是什么,系统的文件目录都有什么含义,管理员帐号的权限是怎样的,以及这个cgi漏洞的触发机理是什么,完全的,一窍不通。
简单说就是无知小白,照本宣科的做了一次自己完全不能理解的操作。但我认为,这是我第一次,去接触和试图了解所谓服务器系统。
1998年第一份工作是做一些web研发,期间把公司的一个人才网站系统从windows +asp +access 改为linux +php+mysql,我大概是国内最早做php开发的程序员了,这期间还用sniffer在内网嗅探到了经理telnet登录公司服务器的root密码,然后发给经理炫耀,然后对方就没再限制我的root权限。但这个时候,比之前的理解,也多点有限,基本上知道了web服务,数据库服务,动态脚本的协作模式,也知道了所谓系统账号权限,目录权限,passwd文档,shadow文档是怎么回事。除此之外,依然是空白。
1999年第一次创业,当时跟中公网合作,还是谢文老师给的资源,自己会写一些程序,美术设计找网友外包的还是,放在中公网服务器,运维是对方的人,开始没啥请求量,也没关心运维的事情,后来转做广告交换,突然就爆发了,请求激增,服务器各种撑不住,谢文老师当时也离开了中公网,当时就打算自己拿出来做,找绿盟科技的沈老板借了2万8,买了世纪互联的主机托管,那时候主机托管真的贵啊。然后请之前中公网的运维兼职协助维护服务器。
后来,毕竟是别人家的工程师,有时候出问题打扰总是不方便,每次自己心急火燎,等对方回复不知道要多久,于是就开始请教各种问题,让对方给一些资料过来,能自己解决就自己解决,然后逐渐学会了装各种系统,优化调整参数,最早还不知道用搜索引擎,后来学会搜索引擎后,掌握的东西就更多了。然后也开始得瑟自己如何一台服务器每天支撑千万次动态脚本请求(十五年前的廉价服务器,在当时而言算很不错了吧),如何的稳定一年不停机。
到2004年底做统计的时候,又面临新的挑战,系统相对于以前的更复杂,响应请求频次也更高,而且程序和服务层的结合更紧密,包括缓存管理,包括定时任务,包括守护进程,各种诡异的故障也更多,这时候只靠系统参数优化已经解决不了问题了,只好自己去编写更多的针对应用层的监控脚本,试图记录错误信息以及出问题前的系统状态,来回放故障和问题点。不过当时每台统计服务器都是独立支撑业务,虽然服务器很多,但其实并没有集群化,所作的一切还都属于单机优化的范畴。
然后有几年不太碰运维,直到2009年进入4399,开始搭建社区平台,当时厦门公司刚起步,招到的本地运维人员之前都没有应对并发的概念,而我们也不是大手大脚的那种暴发户,只能回到技术优化的老路上,随着访问量的激增,服务器的扩展,由于业务数据必须保持统一和一致,开始理解集群,中间件,负载均衡,读写分离,分库等各种架构问题,依然是不断摸索不断前进,不断踩坑不断教学费,然后自己写各种监控分析脚本来寻求问题回放和定位,有些经验我以前文章也提到了。
比如,从这里可以看到整个系列文章。
直到后来,我也开始帮很多朋友分析和解决负载优化的问题,也开始挂着架构师的头衔出席于一些架构师大会,并做一些分享,可以说,虽然技术不咋地,但是总算处理过不少中小公司常见的问题,算是坑坑绊绊走出来的经济适用架构师。
罗嗦这些,想说一点,幸而时代不断进步,先是硬件的提升,解决了大量之前苦恼的单机问题;之后云服务的诞生,每个牛逼的云服务提供商背后都有一堆牛逼的运维工程师和架构师,这不是一般中小型公司可以聘用的起的,什么参数优化,安全优化,各种方案,服务人家都集成好了,而且自由拓展资源,很多之前头疼琐碎的事情现在点点鼠标就搞定了,说真的,真是中小公司的福音,我经历和见证了太多中小创业公司,在业务高速发展的情况下,因为运维乏力而无法持续的案例,我自己也有太多次,为一些很小的,从今天看来很微不足道的一个技术细节冥思苦想,彻夜难眠,很长时间才得以解决。
我们一直说技术的价值,我们能够自己去理解和领悟核心技术,去把握技术细节,固然很值钱;但是技术的分支和领域数不胜数,有谁可以能面面俱到?有谁又可以把技术的技能树全点满?在这种现实情况下,能够正确的选择合适的技术工具和技术方案,从而极大简化和降低技术成本,本身也是一种技术,也具有极高的价值,特别是对于企业来说,这个价值可能让你节省非常多的研发预算,以及极大提升运营效率。
那么回过头来说,我们用了云主机,用到了云服务,是不是就可以高枕无忧的专心研发了?很抱歉,并不是。
很多时候,我们所遇到的系统问题来自于我们自己研发的应用,比如内存泄露,比如数据库的链接未释放,等等等等;这时候,我们需要对我们的应用,做更深入和更定制化的跟踪和分析,从而去定位瓶颈点,或者故障点,这就需要在云服务的基础上,我们还要做定制化的跟踪和分析,也是以前我常做的,写监控脚本,并保存各种对分析有用的信息,然后在遇到故障和问题后,不断的分析日志,定位和调整我们的问题。
然而,时代依然在发展,所幸的是,这样的工作也被极大改进了,这就是APM技术,(应用性能管理)。我们完全可以未雨绸缪的发现问题点,而不是等着崩溃后去反思,我们完全可以有更宽裕的时间和计划来解决问题,而不是在出现问题后狼狈不堪彻夜通宵的去紧急处理,并祷告在补觉的时候千万不要复发。
如果你还不知道这些,我觉得你可能要走我以前走过的路,讲真,我实在不想重新再来一次,那半夜服务器崩溃被客服电话叫醒的时刻,我已经经历太多。
今年8月18日,APMCon2016,中国第一届应用性能管理
整个会议设置包含了:性能可视化、服务端应用监控实践、
具有代表性的讲师包括但不限于如下
Java/JVM性能咨询专家,
多次参加DevOps,OSCon,JAX,PHP UK等技术大会演讲的jClarity CEO Martijn Verburg;
热爱历史和唐诗宋词的LinkedIn Staff Software Engineer 庄振运;
在大规模数据挖掘和大数据机器学习方面经验丰富的AppDyna
阿里巴巴高级无线技术专家 陈武;
腾讯社交多媒体业务负责人 梁定安;
Oracle ACE总监 盖国强;
热爱马拉松的听云CTO Wood;
民生银行信息科技部高级质量管理经理 陈绍英;
工行银行测试部高级经理 李雁南;
携程框架研发部高级研发经理 魏晓军;
《Oracle DBA工作笔记》作者 杨建荣;
清华大学计算机系副教授 裴丹;
相关议题均为各大一线互联网公司实战解决方案,任何一个方案,只要对你的企业应用场景有契合度,都可以说是价值千金。
优惠码
"
APM_caoz
"
进入阅读原文购票,
在8折基础上