多年从事于监控系统、部署系统、缓存系统的研发工作,热衷于自动化运维理念,独立完成公司部署系统的设计和研发,多次参与中国移动等竞标缓存系统的设计工作。
加入小米后,专注于小米监控的设计和研发工作,对于监控系统的应用场景和实践有较深入的理解。
从2011年到2014年,小米经历了快速成长,随着机器数量增加,IDC 环境越来越复杂,原有的监控系统已经无法满足需求,我们因此设计小米监控,追求易用、高可用,力求全程自动化。
小米每天都有百余台服务器交付或下线,上千次的业务变更,如果这些都靠 SRE 进行人工维护,将会消耗大量人力,管理效率低下的同时也容易出现遗漏、配错等问题。
本次分享将向大家介绍,小米监控系统是如何融入自动化体系,与各个系统协作,在业务运维的全生命周期中进行全自动管理。