Antkillerfarm Hacking V7.0

Flink, Beam, Parquet, ORC, Apache Arrow, Ceph

2019-07-15

Flink

Flink是一个流计算引擎。

Flink的关键算法即Chandy-Lamport分布式快照算法,参见《数据库(一)》的“分布式算法”一节。

官网:

https://flink.apache.org

参考:

https://mp.weixin.qq.com/s/MrcBcdGIT4ESPUL0_sI3oQ

流数据处理,Streaming Data,219页pdf

https://mp.weixin.qq.com/s/WNcs0P5baLclZFBmEH3CCA

Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?

https://mp.weixin.qq.com/s/_DLKTRI_IytYkPlMZ3eDCQ

流计算框架Flink与Storm的性能对比

https://mp.weixin.qq.com/s/NvD-NSR-aE8HTADR2LSSjA

基于Flink流处理的动态实时超大规模用户行为分析

https://mp.weixin.qq.com/s/UFzFuHFqsXl6ynKyYoOnRA

容错和高性能如何兼得: Flink创始人谈流计算核心架构演化和现状

https://mp.weixin.qq.com/s/qhiX62dALXd3owYYP9KsEQ

支持流式处理ACID事务!Flink团队开源新作Streaming Ledger

https://mp.weixin.qq.com/s/AoSDPDKbTbjH9rviioK-5Q

阿里巴巴为什么选择Apache Flink?

https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651749037&idx=1&sn=4a448647b3dae50779bc9ec0e9c10275

美团点评基于Flink的实时数仓建设实践

https://mp.weixin.qq.com/s/Jkd-FykUEKZZeVizRoTeJQ

一文读懂Apache Flink技术

https://mp.weixin.qq.com/s/rsJlZEP_oVG3NiFRyeS8gw

Apache Flink干货合集打包好了,速来下载

https://mp.weixin.qq.com/s/vVwBEzPyXAX1ObZ6IU8XeQ

Flink如何取代JStorm,成为字节跳动流处理唯一标准?

https://mp.weixin.qq.com/s/zeIcY_JknIo9-hR7UTxvrA

从Storm到Flink:大数据处理的开源系统及编程模型

https://mp.weixin.qq.com/s/ZkVK9S-BSoQTo09ALBI9aA

从Storm到Flink,有赞五年实时计算效率提升实践

https://mp.weixin.qq.com/s/hm_1A5Mu_6R0ygZPsspV8g

开源的Blink和Spark3.0,谁将称霸大数据领域?

https://mp.weixin.qq.com/s/DPLJA8Q2gDXLZF17FOcczw

OPPO数据中台之基石:基于Flink SQL构建实数据仓库

https://mp.weixin.qq.com/s/tbnl4a8lhamCQ-KDRYYhVA

Blink有何特别之处?菜鸟供应链场景最佳实践

https://mp.weixin.qq.com/s/zIp_14_hgRRa0sKCW4Vejw

腾讯基于Flink的实时流计算平台演进之路

https://mp.weixin.qq.com/s/15QDKqcMAuS0zXpqEDDw-Q

非Flink不可?构建实时数据集成平台,这4个因素怎能不注意!

https://mp.weixin.qq.com/s/Zz63igCUvWf1B3X4jJYTyQ

Flink与Storm协议级对比

https://mp.weixin.qq.com/s/WWCkdF1N6vXZKvw5fAq7iA

寻找数据统治力:比较Spark和Flink

https://mp.weixin.qq.com/s/BghNofoU6cPRn7XfdHR83w

日均处理万亿数据!Flink在快手的应用实践与技术演进之路

https://mp.weixin.qq.com/s/qRPquDgb2M8xptZWapajDg

Flink SQL功能解密系列——流式TopN挑战与实现

https://mp.weixin.qq.com/s/oBmRhRA-52CLRLXp6sZwEw

Apache Flink零基础入门(一):基础概念解析

https://mp.weixin.qq.com/s/nLHjYUCx2mOGBSFS4_uu_g

Apache Flink零基础入门(二):DataStream API编程

https://mp.weixin.qq.com/s/noD2Jv6m-somEMtjWTJh3w

Apache Flink零基础入门(三):开发环境搭建和应用的配置、部署及运行

https://mp.weixin.qq.com/s/KfuAZv2G0682NNzHv0iFfQ

Apache Flink零基础入门(四):客户端操作的5种模式

https://mp.weixin.qq.com/s/B0aAexdqmvX8WwjS_VEdOA

Apache Flink和Apache Pulsar的批流融合

https://mp.weixin.qq.com/s/1ssipS4vseDf1cgXQHxBRw

Apache Flink零基础入门(六):状态管理及容错机制

https://mp.weixin.qq.com/s/B2-WT3gSui4ylmWK92aQng

Apache Flink零基础入门(七):Table API编程

https://mp.weixin.qq.com/s/QUaJJtB5A9vyAB3d_Vg6bA

Apache Flink零基础入门(八):SQL编程实践

https://mp.weixin.qq.com/s/2VMsTvCW9eshEnB-Ak_cIw

时间属性深度解析

https://mp.weixin.qq.com/s/sVdI61Un8C8ycArdrwgmTg

Flink on Yarn/K8s原理剖析及实践

https://mp.weixin.qq.com/s/pj2iVvNcQH-4O03nmw0vzg

从Storm到Flink,汽车之家基于Flink的实时SQL平台设计思路与实践

https://mp.weixin.qq.com/s/c9HvC2PTlOH92iRY4cpiNg

一文搞懂Flink的Exactly Once和At Least Once

https://mp.weixin.qq.com/s/FziI1YyaccuRLQAURWLnUw

数据类型和序列化

https://mp.weixin.qq.com/s/kWUu6X_Ghj-qTNKB_Ew6Qw

日均百亿级日志处理:微博基于Flink的实时计算平台建设

https://mp.weixin.qq.com/s/WvplA4tsHUBNG8iIdRDYGw

Flink流式计算在节省资源方面的简单分析

https://mp.weixin.qq.com/s/7wrmyfu5hh6_6C0Z8Vi3hQ

Flink State有可能代替数据库吗?

https://mp.weixin.qq.com/s/RaEm3lqMZY2rdY3vX4s5ow

如何分析及处理Flink反压?

反压(backpressure)意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。

https://mp.weixin.qq.com/s/7PAumCJ-RfMcUG7Ean-WnQ

阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低HDFS压力?

https://mp.weixin.qq.com/s/qzYuhlZKn-G16fhpVtFNGA

从开发到生产上线,如何确定集群大小?

https://mp.weixin.qq.com/s/C2Uft-IuzgiKa1aDlROIng

Flink如何支持特征工程、在线学习、在线预测等AI场景?

https://blog.csdn.net/CoderPai/article/details/104862303

流处理介绍

https://blog.csdn.net/CoderPai/article/details/104898891

数据清洗

https://mp.weixin.qq.com/s/nV9KuEDgLRqRr-rd8OKh1Q

Flink的Hello World,我用三种方式实现

https://mp.weixin.qq.com/s/AZW_qEvUPdhYSj0SzAka6Q

从零搭建实时数据分析系统

https://mp.weixin.qq.com/s/l3J8FK2p1V0ySLPPXl0t2Q

基于Flink的流式数据实时去重

https://mp.weixin.qq.com/s/GTq-xV0-RC7-kt2QucGBYw

基于Flink实时计算商品订单流失量

https://mp.weixin.qq.com/s/sA8ZNsxNkmvft-ln9-6zjA

如何生成Flink作业的交互式火焰图?

https://mp.weixin.qq.com/s/mOdq33TfAYZRFgyTciqqXQ

深入解析Flink的算子链机制

https://mp.weixin.qq.com/s/wBuE76WAY6dgVTQfTBxpRg

Alink:基于Flink的机器学习平台

https://mp.weixin.qq.com/s/nlW0Ds7ZlSZUiOIMNHHxxg

Flink实时数据分析系列1. 有状态流处理简介

https://mp.weixin.qq.com/s/57eqekksna9sV5vIAtzhZA

Flink实时数据分析系列2. 流处理基本概念

https://mp.weixin.qq.com/s/K2LOrLLq5Qt2BvxIqknWQQ

字节跳动单点恢复功能及Regional CheckPoint优化实践

https://mp.weixin.qq.com/s/xAlf3_EgJQbYvVDwUYCDoA

Flink执行引擎:流批一体的融合之路

Beam

Apache Beam是一个数据处理的通用引擎,集成了多个处理数据框架(包括Cassandra、Elasticesarch、Hadoop-file-system、Hadoop-hbase、Jdbc、Kafka等)。Beam SDK给上层应用的开发者提供了一个统一的编程接口,开发者不需要了解底层的具体的大数据平台的开发接口是什么,直接通过Beam SDK的接口就可以开发数据处理的加工流程,不管输入是用于批处理的有界数据集,还是流式的无界数据集。

参考:

Apache Beam实战指南:大数据管道(pipeline)设计及实践

Parquet

Parquet是由Cloudera和Twitter共同开发的一种供Hadoop使用的列式存储格式。

参考:

http://blog.csdn.net/dc_726/article/details/41777661

从NSM到Parquet:存储结构的衍化

http://blog.csdn.net/dc_726/article/details/41143175

几张图看懂列式存储

https://mp.weixin.qq.com/s/z9xpjhL5gS9w9ZpcZWee3g

大数据列式存储Parquet和ORC简介

ORC

2013年初的时候,Hortonworks和Facebook一起开发出ORC用来替代Hive中的RCFile文件格式。

相比ORC,Parquet有两个优点:

  • Parquet能够更好地支持嵌套类型,Parquet能够通过使用definition level和repetition level来标识复杂类型的层数等信息。

  • Parquet的编码类型比ORC也更多一些,其支持plain、bit-packing以及浮点数等编码方式,所以Parquet在某些数据类型的压缩率上比ORC更高。

缺点:

  • Parquet读取速度较慢。

参考:

https://mp.weixin.qq.com/s/aVLBXS-eiWVpvIbeE2JVIw

阿里巴巴如何打造“EB级计算平台存储引擎”?

Apache Arrow

Apache Arrow设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。

参考:

https://www.cnblogs.com/smartloli/p/6367719.html

Apache Arrow内存数据

https://mp.weixin.qq.com/s/5UtpFg7Zmm6WY0OOxzeueQ

TensorFlow与Apache Arrow数据集搭配最佳实践

https://mp.weixin.qq.com/s/2LTu4wIFnkfiQE8bgJ5wOg

Apache Arrow:一种适合异构大数据系统的内存列存数据格式标准

Ceph

Ceph是一种为提高性能、可靠性和可扩展性而设计的统一的、分布式的存储系统。

参考:

https://mp.weixin.qq.com/s/KBaagb1zrkAmLyVgmkzJ3A

ceph基本架构及数据分布原理

Clickhouse

Clickhouse是俄罗斯yandex公司于2016年开源的一个列式数据库管理系统,可提供超越hive sql和spark sql的查询性能的OLAP引擎。

参考:

https://mp.weixin.qq.com/s/5ws-sT-AYswdx3xQuqmPqQ

Clickhouse的实践之路

Fork me on GitHub