专题演讲嘉宾 :曾洪博

Airbnb 资深工程师

现任 Airbnb 数据基础架构组资深工程师,长期从事大数据平台技术的研发。

曾任领英(LinkedIn)分布式数据平台组的高级软件工程师,是 Espresso 系统的主要贡献者之一;

参与研发微软大规模数据处理平台 Cosmos/SCOPE;并在 IBM 中国研究院担任过研究员,参与研发高并发度处理器及相关操作系统。

此前在中科院计算所获得计算机系统博士学位。

演讲:Airbnb 数据仓库架构实践

时间:07月07日 15:35
地点:大宴会厅1
所属专题:大数据框架

Airbnb 目前的大数据平台支撑了整个公司对数据收集和处理的需求,我们需要应对每天100亿条新增日志信息,350TB 新增数据,来自公司所有部门的10多万次大数据分析查询,而且还在快速增长中。

本演讲从数据处理需求、性能、系统容错以及服务等级协议(SLA)等各方面入手,重点讲解我们遇到的挑战和随之而生的平台解决方案,介绍我们研发的 ReAir 跨机群同步服务,AirStream 流处理平台以及实时数据注入和查询平台等。

演讲大纲

  • 过去的数据平台:

    a. 规模

    b. 存在的问题

  • 数据处理需求:

    a. 数据流水线批处理

    b. 即席(ad-hoc)查询

  • Airbnb 的数据仓库:

    a. 多机群架构 (Gold/Silver)

    b. 低延时跨机群数据同步 - ReAir

    c. 采用 Spark Streaming/HBase 的 AirStream 流数据处理平台

    d. 实时数据注入(data ingestion)

    e. 实现 Presto/HBase connector 进行实时数据查询

    f. HDFS + S3 混合存储架构

  • 数据仓库的未来优化:

    a. 加速 S3 元数据访问

    b. 联合集群 (Federated Clusters)

本专题下其他演讲

关注主办方(InfoQ)

InfoQ Qcon

交通指南