Flink是一个流计算引擎。
Flink的关键算法即Chandy-Lamport分布式快照算法,参见《数据库(一)》的“分布式算法”一节。
官网:
https://flink.apache.org
参考:
https://mp.weixin.qq.com/s/MrcBcdGIT4ESPUL0_sI3oQ
流数据处理,Streaming Data,219页pdf
https://mp.weixin.qq.com/s/WNcs0P5baLclZFBmEH3CCA
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
https://mp.weixin.qq.com/s/_DLKTRI_IytYkPlMZ3eDCQ
流计算框架Flink与Storm的性能对比
https://mp.weixin.qq.com/s/NvD-NSR-aE8HTADR2LSSjA
基于Flink流处理的动态实时超大规模用户行为分析
https://mp.weixin.qq.com/s/UFzFuHFqsXl6ynKyYoOnRA
容错和高性能如何兼得: Flink创始人谈流计算核心架构演化和现状
https://mp.weixin.qq.com/s/qhiX62dALXd3owYYP9KsEQ
支持流式处理ACID事务!Flink团队开源新作Streaming Ledger
https://mp.weixin.qq.com/s/AoSDPDKbTbjH9rviioK-5Q
阿里巴巴为什么选择Apache Flink?
https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651749037&idx=1&sn=4a448647b3dae50779bc9ec0e9c10275
美团点评基于Flink的实时数仓建设实践
https://mp.weixin.qq.com/s/Jkd-FykUEKZZeVizRoTeJQ
一文读懂Apache Flink技术
https://mp.weixin.qq.com/s/rsJlZEP_oVG3NiFRyeS8gw
Apache Flink干货合集打包好了,速来下载
https://mp.weixin.qq.com/s/vVwBEzPyXAX1ObZ6IU8XeQ
Flink如何取代JStorm,成为字节跳动流处理唯一标准?
https://mp.weixin.qq.com/s/zeIcY_JknIo9-hR7UTxvrA
从Storm到Flink:大数据处理的开源系统及编程模型
https://mp.weixin.qq.com/s/ZkVK9S-BSoQTo09ALBI9aA
从Storm到Flink,有赞五年实时计算效率提升实践
https://mp.weixin.qq.com/s/hm_1A5Mu_6R0ygZPsspV8g
开源的Blink和Spark3.0,谁将称霸大数据领域?
https://mp.weixin.qq.com/s/DPLJA8Q2gDXLZF17FOcczw
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
https://mp.weixin.qq.com/s/tbnl4a8lhamCQ-KDRYYhVA
Blink有何特别之处?菜鸟供应链场景最佳实践
https://mp.weixin.qq.com/s/zIp_14_hgRRa0sKCW4Vejw
腾讯基于Flink的实时流计算平台演进之路
https://mp.weixin.qq.com/s/15QDKqcMAuS0zXpqEDDw-Q
非Flink不可?构建实时数据集成平台,这4个因素怎能不注意!
https://mp.weixin.qq.com/s/Zz63igCUvWf1B3X4jJYTyQ
Flink与Storm协议级对比
https://mp.weixin.qq.com/s/WWCkdF1N6vXZKvw5fAq7iA
寻找数据统治力:比较Spark和Flink
https://mp.weixin.qq.com/s/BghNofoU6cPRn7XfdHR83w
日均处理万亿数据!Flink在快手的应用实践与技术演进之路
https://mp.weixin.qq.com/s/qRPquDgb2M8xptZWapajDg
Flink SQL功能解密系列——流式TopN挑战与实现
https://mp.weixin.qq.com/s/oBmRhRA-52CLRLXp6sZwEw
Apache Flink零基础入门(一):基础概念解析
https://mp.weixin.qq.com/s/nLHjYUCx2mOGBSFS4_uu_g
Apache Flink零基础入门(二):DataStream API编程
https://mp.weixin.qq.com/s/noD2Jv6m-somEMtjWTJh3w
Apache Flink零基础入门(三):开发环境搭建和应用的配置、部署及运行
https://mp.weixin.qq.com/s/KfuAZv2G0682NNzHv0iFfQ
Apache Flink零基础入门(四):客户端操作的5种模式
https://mp.weixin.qq.com/s/B0aAexdqmvX8WwjS_VEdOA
Apache Flink和Apache Pulsar的批流融合
https://mp.weixin.qq.com/s/1ssipS4vseDf1cgXQHxBRw
Apache Flink零基础入门(六):状态管理及容错机制
https://mp.weixin.qq.com/s/B2-WT3gSui4ylmWK92aQng
Apache Flink零基础入门(七):Table API编程
https://mp.weixin.qq.com/s/QUaJJtB5A9vyAB3d_Vg6bA
Apache Flink零基础入门(八):SQL编程实践
https://mp.weixin.qq.com/s/2VMsTvCW9eshEnB-Ak_cIw
时间属性深度解析
https://mp.weixin.qq.com/s/sVdI61Un8C8ycArdrwgmTg
Flink on Yarn/K8s原理剖析及实践
https://mp.weixin.qq.com/s/pj2iVvNcQH-4O03nmw0vzg
从Storm到Flink,汽车之家基于Flink的实时SQL平台设计思路与实践
https://mp.weixin.qq.com/s/c9HvC2PTlOH92iRY4cpiNg
一文搞懂Flink的Exactly Once和At Least Once
https://mp.weixin.qq.com/s/FziI1YyaccuRLQAURWLnUw
数据类型和序列化
https://mp.weixin.qq.com/s/kWUu6X_Ghj-qTNKB_Ew6Qw
日均百亿级日志处理:微博基于Flink的实时计算平台建设
https://mp.weixin.qq.com/s/WvplA4tsHUBNG8iIdRDYGw
Flink流式计算在节省资源方面的简单分析
https://mp.weixin.qq.com/s/7wrmyfu5hh6_6C0Z8Vi3hQ
Flink State有可能代替数据库吗?
https://mp.weixin.qq.com/s/RaEm3lqMZY2rdY3vX4s5ow
如何分析及处理Flink反压?
反压(backpressure)意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。
https://mp.weixin.qq.com/s/7PAumCJ-RfMcUG7Ean-WnQ
阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低HDFS压力?
https://mp.weixin.qq.com/s/qzYuhlZKn-G16fhpVtFNGA
从开发到生产上线,如何确定集群大小?
https://mp.weixin.qq.com/s/C2Uft-IuzgiKa1aDlROIng
Flink如何支持特征工程、在线学习、在线预测等AI场景?
https://blog.csdn.net/CoderPai/article/details/104862303
流处理介绍
https://blog.csdn.net/CoderPai/article/details/104898891
数据清洗
https://mp.weixin.qq.com/s/nV9KuEDgLRqRr-rd8OKh1Q
Flink的Hello World,我用三种方式实现
https://mp.weixin.qq.com/s/AZW_qEvUPdhYSj0SzAka6Q
从零搭建实时数据分析系统
https://mp.weixin.qq.com/s/l3J8FK2p1V0ySLPPXl0t2Q
基于Flink的流式数据实时去重
https://mp.weixin.qq.com/s/GTq-xV0-RC7-kt2QucGBYw
基于Flink实时计算商品订单流失量
https://mp.weixin.qq.com/s/sA8ZNsxNkmvft-ln9-6zjA
如何生成Flink作业的交互式火焰图?
https://mp.weixin.qq.com/s/mOdq33TfAYZRFgyTciqqXQ
深入解析Flink的算子链机制
https://mp.weixin.qq.com/s/wBuE76WAY6dgVTQfTBxpRg
Alink:基于Flink的机器学习平台
https://mp.weixin.qq.com/s/nlW0Ds7ZlSZUiOIMNHHxxg
Flink实时数据分析系列1. 有状态流处理简介
https://mp.weixin.qq.com/s/57eqekksna9sV5vIAtzhZA
Flink实时数据分析系列2. 流处理基本概念
https://mp.weixin.qq.com/s/K2LOrLLq5Qt2BvxIqknWQQ
字节跳动单点恢复功能及Regional CheckPoint优化实践
https://mp.weixin.qq.com/s/xAlf3_EgJQbYvVDwUYCDoA
Flink执行引擎:流批一体的融合之路
Apache Beam是一个数据处理的通用引擎,集成了多个处理数据框架(包括Cassandra、Elasticesarch、Hadoop-file-system、Hadoop-hbase、Jdbc、Kafka等)。Beam SDK给上层应用的开发者提供了一个统一的编程接口,开发者不需要了解底层的具体的大数据平台的开发接口是什么,直接通过Beam SDK的接口就可以开发数据处理的加工流程,不管输入是用于批处理的有界数据集,还是流式的无界数据集。
参考:
Apache Beam实战指南:大数据管道(pipeline)设计及实践
Parquet是由Cloudera和Twitter共同开发的一种供Hadoop使用的列式存储格式。
参考:
http://blog.csdn.net/dc_726/article/details/41777661
从NSM到Parquet:存储结构的衍化
http://blog.csdn.net/dc_726/article/details/41143175
几张图看懂列式存储
https://mp.weixin.qq.com/s/z9xpjhL5gS9w9ZpcZWee3g
大数据列式存储Parquet和ORC简介
2013年初的时候,Hortonworks和Facebook一起开发出ORC用来替代Hive中的RCFile文件格式。
相比ORC,Parquet有两个优点:
Parquet能够更好地支持嵌套类型,Parquet能够通过使用definition level和repetition level来标识复杂类型的层数等信息。
Parquet的编码类型比ORC也更多一些,其支持plain、bit-packing以及浮点数等编码方式,所以Parquet在某些数据类型的压缩率上比ORC更高。
缺点:
参考:
https://mp.weixin.qq.com/s/aVLBXS-eiWVpvIbeE2JVIw
阿里巴巴如何打造“EB级计算平台存储引擎”?
Apache Arrow设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。
参考:
https://www.cnblogs.com/smartloli/p/6367719.html
Apache Arrow内存数据
https://mp.weixin.qq.com/s/5UtpFg7Zmm6WY0OOxzeueQ
TensorFlow与Apache Arrow数据集搭配最佳实践
https://mp.weixin.qq.com/s/2LTu4wIFnkfiQE8bgJ5wOg
Apache Arrow:一种适合异构大数据系统的内存列存数据格式标准
Ceph是一种为提高性能、可靠性和可扩展性而设计的统一的、分布式的存储系统。
参考:
https://mp.weixin.qq.com/s/KBaagb1zrkAmLyVgmkzJ3A
ceph基本架构及数据分布原理
Clickhouse是俄罗斯yandex公司于2016年开源的一个列式数据库管理系统,可提供超越hive sql和spark sql的查询性能的OLAP引擎。
参考:
https://mp.weixin.qq.com/s/5ws-sT-AYswdx3xQuqmPqQ
Clickhouse的实践之路
您的打赏,是对我的鼓励