Antkillerfarm Hacking V8.5

AI » Flink, Beam, Parquet, ORC, Apache Arrow, Ceph, Zookeeper

2019-07-15 :: 6503 Words

Flink
Beam
Parquet
ORC
Apache Arrow
Ceph
Clickhouse
Zookeeper

Flink

Flink是一个流计算引擎。

Flink的关键算法即Chandy-Lamport分布式快照算法，参见《数据库（一）》的“分布式算法”一节。

官网：

https://flink.apache.org

参考：

https://mp.weixin.qq.com/s/MrcBcdGIT4ESPUL0_sI3oQ

流数据处理，Streaming Data，219页pdf

https://mp.weixin.qq.com/s/WNcs0P5baLclZFBmEH3CCA

Spark比拼Flink：下一代大数据计算引擎之争，谁主沉浮？

https://mp.weixin.qq.com/s/_DLKTRI_IytYkPlMZ3eDCQ

流计算框架Flink与Storm的性能对比

https://mp.weixin.qq.com/s/NvD-NSR-aE8HTADR2LSSjA

基于Flink流处理的动态实时超大规模用户行为分析

https://mp.weixin.qq.com/s/UFzFuHFqsXl6ynKyYoOnRA

容错和高性能如何兼得: Flink创始人谈流计算核心架构演化和现状

https://mp.weixin.qq.com/s/qhiX62dALXd3owYYP9KsEQ

支持流式处理ACID事务！Flink团队开源新作Streaming Ledger

https://mp.weixin.qq.com/s/AoSDPDKbTbjH9rviioK-5Q

阿里巴巴为什么选择Apache Flink？

https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651749037&idx=1&sn=4a448647b3dae50779bc9ec0e9c10275

美团点评基于Flink的实时数仓建设实践

https://mp.weixin.qq.com/s/Jkd-FykUEKZZeVizRoTeJQ

一文读懂Apache Flink技术

https://mp.weixin.qq.com/s/rsJlZEP_oVG3NiFRyeS8gw

Apache Flink干货合集打包好了，速来下载

https://mp.weixin.qq.com/s/vVwBEzPyXAX1ObZ6IU8XeQ

Flink如何取代JStorm，成为字节跳动流处理唯一标准？

https://mp.weixin.qq.com/s/zeIcY_JknIo9-hR7UTxvrA

从Storm到Flink：大数据处理的开源系统及编程模型

https://mp.weixin.qq.com/s/ZkVK9S-BSoQTo09ALBI9aA

从Storm到Flink，有赞五年实时计算效率提升实践

https://mp.weixin.qq.com/s/hm_1A5Mu_6R0ygZPsspV8g

开源的Blink和Spark3.0，谁将称霸大数据领域？

https://mp.weixin.qq.com/s/DPLJA8Q2gDXLZF17FOcczw

OPPO数据中台之基石：基于Flink SQL构建实数据仓库

https://mp.weixin.qq.com/s/tbnl4a8lhamCQ-KDRYYhVA

Blink有何特别之处？菜鸟供应链场景最佳实践

https://mp.weixin.qq.com/s/zIp_14_hgRRa0sKCW4Vejw

腾讯基于Flink的实时流计算平台演进之路

https://mp.weixin.qq.com/s/15QDKqcMAuS0zXpqEDDw-Q

非Flink不可？构建实时数据集成平台，这4个因素怎能不注意！

https://mp.weixin.qq.com/s/Zz63igCUvWf1B3X4jJYTyQ

Flink与Storm协议级对比

https://mp.weixin.qq.com/s/WWCkdF1N6vXZKvw5fAq7iA

寻找数据统治力：比较Spark和Flink

https://mp.weixin.qq.com/s/BghNofoU6cPRn7XfdHR83w

日均处理万亿数据！Flink在快手的应用实践与技术演进之路

https://mp.weixin.qq.com/s/qRPquDgb2M8xptZWapajDg

Flink SQL功能解密系列——流式TopN挑战与实现

https://mp.weixin.qq.com/s/oBmRhRA-52CLRLXp6sZwEw

Apache Flink零基础入门（一）：基础概念解析

https://mp.weixin.qq.com/s/nLHjYUCx2mOGBSFS4_uu_g

Apache Flink零基础入门（二）：DataStream API编程

https://mp.weixin.qq.com/s/noD2Jv6m-somEMtjWTJh3w

Apache Flink零基础入门（三）：开发环境搭建和应用的配置、部署及运行

https://mp.weixin.qq.com/s/KfuAZv2G0682NNzHv0iFfQ

Apache Flink零基础入门（四）：客户端操作的5种模式

https://mp.weixin.qq.com/s/B0aAexdqmvX8WwjS_VEdOA

Apache Flink和Apache Pulsar的批流融合

https://mp.weixin.qq.com/s/1ssipS4vseDf1cgXQHxBRw

Apache Flink零基础入门（六）：状态管理及容错机制

https://mp.weixin.qq.com/s/B2-WT3gSui4ylmWK92aQng

Apache Flink零基础入门（七）：Table API编程

https://mp.weixin.qq.com/s/QUaJJtB5A9vyAB3d_Vg6bA

Apache Flink零基础入门（八）：SQL编程实践

https://mp.weixin.qq.com/s/2VMsTvCW9eshEnB-Ak_cIw

时间属性深度解析

https://mp.weixin.qq.com/s/sVdI61Un8C8ycArdrwgmTg

Flink on Yarn/K8s原理剖析及实践

https://mp.weixin.qq.com/s/pj2iVvNcQH-4O03nmw0vzg

从Storm到Flink，汽车之家基于Flink的实时SQL平台设计思路与实践

https://mp.weixin.qq.com/s/c9HvC2PTlOH92iRY4cpiNg

一文搞懂Flink的Exactly Once和At Least Once

https://mp.weixin.qq.com/s/FziI1YyaccuRLQAURWLnUw

数据类型和序列化

https://mp.weixin.qq.com/s/kWUu6X_Ghj-qTNKB_Ew6Qw

日均百亿级日志处理：微博基于Flink的实时计算平台建设

https://mp.weixin.qq.com/s/WvplA4tsHUBNG8iIdRDYGw

Flink流式计算在节省资源方面的简单分析

https://mp.weixin.qq.com/s/7wrmyfu5hh6_6C0Z8Vi3hQ

Flink State有可能代替数据库吗？

https://mp.weixin.qq.com/s/RaEm3lqMZY2rdY3vX4s5ow

如何分析及处理Flink反压？

反压（backpressure）意味着数据管道中某个节点成为瓶颈，处理速率跟不上上游发送数据的速率，而需要对上游进行限速。

https://mp.weixin.qq.com/s/7PAumCJ-RfMcUG7Ean-WnQ

阿里巴巴大规模应用Flink的踩坑经验：如何大幅降低HDFS压力？

https://mp.weixin.qq.com/s/qzYuhlZKn-G16fhpVtFNGA

从开发到生产上线，如何确定集群大小?

https://mp.weixin.qq.com/s/C2Uft-IuzgiKa1aDlROIng

Flink如何支持特征工程、在线学习、在线预测等AI场景？

https://blog.csdn.net/CoderPai/article/details/104862303

流处理介绍

https://blog.csdn.net/CoderPai/article/details/104898891

数据清洗

https://mp.weixin.qq.com/s/nV9KuEDgLRqRr-rd8OKh1Q

Flink的Hello World，我用三种方式实现

https://mp.weixin.qq.com/s/AZW_qEvUPdhYSj0SzAka6Q

从零搭建实时数据分析系统

https://mp.weixin.qq.com/s/l3J8FK2p1V0ySLPPXl0t2Q

基于Flink的流式数据实时去重

https://mp.weixin.qq.com/s/GTq-xV0-RC7-kt2QucGBYw

基于Flink实时计算商品订单流失量

https://mp.weixin.qq.com/s/sA8ZNsxNkmvft-ln9-6zjA

如何生成Flink作业的交互式火焰图？

https://mp.weixin.qq.com/s/mOdq33TfAYZRFgyTciqqXQ

深入解析Flink的算子链机制

https://mp.weixin.qq.com/s/wBuE76WAY6dgVTQfTBxpRg

Alink：基于Flink的机器学习平台

https://mp.weixin.qq.com/s/nlW0Ds7ZlSZUiOIMNHHxxg

Flink实时数据分析系列1. 有状态流处理简介

https://mp.weixin.qq.com/s/57eqekksna9sV5vIAtzhZA

Flink实时数据分析系列2. 流处理基本概念

https://mp.weixin.qq.com/s/K2LOrLLq5Qt2BvxIqknWQQ

字节跳动单点恢复功能及Regional CheckPoint优化实践

https://mp.weixin.qq.com/s/xAlf3_EgJQbYvVDwUYCDoA

Flink执行引擎：流批一体的融合之路

Beam

Apache Beam是一个数据处理的通用引擎，集成了多个处理数据框架（包括Cassandra、Elasticesarch、Hadoop-file-system、Hadoop-hbase、Jdbc、Kafka等）。Beam SDK给上层应用的开发者提供了一个统一的编程接口，开发者不需要了解底层的具体的大数据平台的开发接口是什么，直接通过Beam SDK的接口就可以开发数据处理的加工流程，不管输入是用于批处理的有界数据集，还是流式的无界数据集。

参考：

Apache Beam实战指南：大数据管道（pipeline）设计及实践

Parquet

Parquet是由Cloudera和Twitter共同开发的一种供Hadoop使用的列式存储格式。

参考：

http://blog.csdn.net/dc_726/article/details/41777661

从NSM到Parquet：存储结构的衍化

http://blog.csdn.net/dc_726/article/details/41143175

几张图看懂列式存储

https://mp.weixin.qq.com/s/z9xpjhL5gS9w9ZpcZWee3g

大数据列式存储Parquet和ORC简介

ORC

2013年初的时候，Hortonworks和Facebook一起开发出ORC用来替代Hive中的RCFile文件格式。

相比ORC，Parquet有两个优点：

Parquet能够更好地支持嵌套类型，Parquet能够通过使用definition level和repetition level来标识复杂类型的层数等信息。
Parquet的编码类型比ORC也更多一些，其支持plain、bit-packing以及浮点数等编码方式，所以Parquet在某些数据类型的压缩率上比ORC更高。

缺点：

Parquet读取速度较慢。

参考：

https://mp.weixin.qq.com/s/aVLBXS-eiWVpvIbeE2JVIw

阿里巴巴如何打造“EB级计算平台存储引擎”？

Apache Arrow

Apache Arrow设计的目的在于作为一个跨平台的数据层，来加快大数据分析项目的运行速度。

参考：

https://www.cnblogs.com/smartloli/p/6367719.html

Apache Arrow内存数据

https://mp.weixin.qq.com/s/5UtpFg7Zmm6WY0OOxzeueQ

TensorFlow与Apache Arrow数据集搭配最佳实践

https://mp.weixin.qq.com/s/2LTu4wIFnkfiQE8bgJ5wOg

Apache Arrow：一种适合异构大数据系统的内存列存数据格式标准

Ceph

Ceph是一种为提高性能、可靠性和可扩展性而设计的统一的、分布式的存储系统。

参考：

https://mp.weixin.qq.com/s/KBaagb1zrkAmLyVgmkzJ3A

ceph基本架构及数据分布原理

Clickhouse

Clickhouse是俄罗斯yandex公司于2016年开源的一个列式数据库管理系统，可提供超越hive sql和spark sql的查询性能的OLAP引擎。

参考：

https://mp.weixin.qq.com/s/5ws-sT-AYswdx3xQuqmPqQ

Clickhouse的实践之路

Zookeeper

http://zookeeper.apache.org/

bin/zkServer.sh status

http://www.cnblogs.com/lpshou/archive/2013/06/14/3136904.html

zookeeper原理

https://mp.weixin.qq.com/s/WPyJC4nyLQGWk-OQylUHHw

Zookeeper简单介绍

http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/index.html

分布式服务框架Zookeeper–管理分布式环境中的数据

https://mp.weixin.qq.com/s/uMj3JEhgyYw4CaIhP1-GTQ

阿里巴巴为什么不用ZooKeeper做服务发现？

https://mp.weixin.qq.com/s/KFzJAxL_xvrrjhubd7zH-Q

Facebook为何放弃ZooKeeper转用自研配置管理系统？

https://mp.weixin.qq.com/s/DigeE4YxuT55cSeyb1q1tQ

ZooKeeper源码和实践揭秘

https://mp.weixin.qq.com/s/Tb670Jdt4s7CKzGZZQRL_A

用大白话给你解释Zookeeper的选举机制

https://mp.weixin.qq.com/s/BejPSfvEe98nSch81WKgAg

Zookeeper九个问题

https://mp.weixin.qq.com/s/03A4LnDqNhNgQ5bSRIgR_Q

一举拿下高可用与分布式协调系统设计

您的打赏，是对我的鼓励