专题演讲嘉宾 :周小帆

阿里巴巴 高级技术专家

8年金融+电商+中间件工作经验,目前就职于阿里巴巴中间件技术部,整体负责中间件的监控与数据化运营工作,同时为阿里商品、菜鸟、安全、国际站等多个业务部门提供了完整监控方案。

参与了阿里近五年来监控体系的建设及演进。阿里云“业务实时监控(ARMS)”技术负责人。

兴趣是业务架构、分布式计算与数据存储技术。

演讲:全链路稳定性背后的数字化支撑:阿里巴巴鹰眼技术解密

时间:07月07日 16:35
地点:爱晚亭
所属专题:运维新挑战

阿里的电商业务系统基于微服务框架构建,其变更频繁,业务变化快,系统依赖关系错综复杂。基于全链路的稳定性保障、容量规划、性能优化、压测演练、业务故障排查定位等运维手段也逐步系统化、常态化。

从2010年的第一代“鹰眼”系统诞生以来,阿里的全链路监控系统不断升级、演进与创新,为 DevOps 和 SRE 在阿里的实际落地提供了行之有效的数字化支撑。

最新一代的阿里全链路监控系统鹰眼3.0,同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪;技术层面,鹰眼3.0日均处理万亿级别的分布式调用链数据,针对海量实时监控的痛点,对底层的流计算、多维时序指标与事件存储体系等进行了大量优化,同时引入了时序检测、根因分析、业务链路特征等技术,将问题发现与定位由被动转为主动。

演讲提纲

  • 分布式链路追踪技术原理、基础功能以及在阿里巴巴的使用场景。
  • 阿里全链路监控平台技术架构演进,计算引擎、存储技术细节介绍,教你如何构建一个大规模监控系统。
  • 精细化监控 - 监控系统如何满足多变的业务监控场景。
  • 由被动转为主动 - 如何“玩”好监控数据。

听众受益

  • 从监控指标的收集与清洗技术、流计算平台、海量运维指标与事件的存储技术到预警技术的全面剖析,听众可以了解到建设大型IT监控系统时的架构、技术痛点与解决方案;
  • 了解如何体系化构建自己的全链路监控平台;
  • 基于应用拓扑结构、时间序列数据挖掘的异常检测与离群点检测、基于海量业务非结构化数据的智能诊断,了解阿里监控体系的技术创新与探索。

本专题下其他演讲

关注主办方(InfoQ)

InfoQ Qcon

交通指南

© 2019 Baidu - GS(2018)5572号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方