2010年加入阿里,高级技术专家,阿里云数据平台架构师,Aliyun StreamCompute(galaxy) 架构师兼核心开发。一直从事数据平台与分布式系统设计与研发工作。
现负责网易大数据平台建设、团队建设、人才培养,负责整体架构设计、自研系统研发与开源组件功能扩展与集成、大数据产品化输出。
网易历经了20年的发展,各业务线沉淀了丰富的数据。大数据平台在满足各业务线数据存储、计算的任务,同时承担着整合集团数据,为客户提供全方位的大数据服务。
在满足业务需求的过程中,对 Hadoop 各组件进行了定制优化(如分时调度,权限控制,元数据管理,Spark 多租户,Spark 高可用,流计算相关)。
同时,围绕大数据底层技术平台也孵化出了猛犸大数据开发平台,网易有数敏捷数据分析平台等产品。本次演讲重点介绍网易基于 Flink 研发的流计算服务化平台,以 SQL 为主要开发方式,支持 DDL,支持丰富的 DML,如 Stream join, Window,支持 UDF,提供丰富的 connector。为网易各业务线提供一站式的流计算解决方案。
a.网易数据平台架构
b.数据平台如何去支持各种产品线
c.Netease Hadoop 创新与改进
a.什么是增量计算
b.增量计算与流计算的关系
c.为什么需要使用增量计算的方式去处理流计算
d.Sloth 是如何 build 增量计算模型
a.业务背景
b.Sloth 整体架构
c.Streaming SQL 上是创新
a.统一计算模型,Apache Beam
b.离线在线混部
c.新硬件的应用,FPGA,GPU
d.TensorFlow on Hadoop