现任 Airbnb 数据基础架构组资深工程师,长期从事大数据平台技术的研发。
曾任领英(LinkedIn)分布式数据平台组的高级软件工程师,是 Espresso 系统的主要贡献者之一;
参与研发微软大规模数据处理平台 Cosmos/SCOPE;并在 IBM 中国研究院担任过研究员,参与研发高并发度处理器及相关操作系统。
此前在中科院计算所获得计算机系统博士学位。
Airbnb 目前的大数据平台支撑了整个公司对数据收集和处理的需求,我们需要应对每天100亿条新增日志信息,350TB 新增数据,来自公司所有部门的10多万次大数据分析查询,而且还在快速增长中。
本演讲从数据处理需求、性能、系统容错以及服务等级协议(SLA)等各方面入手,重点讲解我们遇到的挑战和随之而生的平台解决方案,介绍我们研发的 ReAir 跨机群同步服务,AirStream 流处理平台以及实时数据注入和查询平台等。
a. 规模
b. 存在的问题
a. 数据流水线批处理
b. 即席(ad-hoc)查询
a. 多机群架构 (Gold/Silver)
b. 低延时跨机群数据同步 - ReAir
c. 采用 Spark Streaming/HBase 的 AirStream 流数据处理平台
d. 实时数据注入(data ingestion)
e. 实现 Presto/HBase connector 进行实时数据查询
f. HDFS + S3 混合存储架构
a. 加速 S3 元数据访问
b. 联合集群 (Federated Clusters)