Antkillerfarm Hacking V7.0

Flink, Beam, Parquet, ORC, Apache Arrow, Ceph, 5G

2019-07-15

Flink

Flink是一个流计算引擎。

Flink的关键算法即Chandy-Lamport分布式快照算法,参见《数据库(一)》的“分布式算法”一节。

官网:

https://flink.apache.org

参考:

https://mp.weixin.qq.com/s/MrcBcdGIT4ESPUL0_sI3oQ

流数据处理,Streaming Data,219页pdf

https://mp.weixin.qq.com/s/WNcs0P5baLclZFBmEH3CCA

Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?

https://mp.weixin.qq.com/s/_DLKTRI_IytYkPlMZ3eDCQ

流计算框架Flink与Storm的性能对比

https://mp.weixin.qq.com/s/NvD-NSR-aE8HTADR2LSSjA

基于Flink流处理的动态实时超大规模用户行为分析

https://mp.weixin.qq.com/s/UFzFuHFqsXl6ynKyYoOnRA

容错和高性能如何兼得: Flink创始人谈流计算核心架构演化和现状

https://mp.weixin.qq.com/s/qhiX62dALXd3owYYP9KsEQ

支持流式处理ACID事务!Flink团队开源新作Streaming Ledger

https://mp.weixin.qq.com/s/AoSDPDKbTbjH9rviioK-5Q

阿里巴巴为什么选择Apache Flink?

https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651749037&idx=1&sn=4a448647b3dae50779bc9ec0e9c10275

美团点评基于Flink的实时数仓建设实践

https://mp.weixin.qq.com/s/Jkd-FykUEKZZeVizRoTeJQ

一文读懂Apache Flink技术

https://mp.weixin.qq.com/s/rsJlZEP_oVG3NiFRyeS8gw

Apache Flink干货合集打包好了,速来下载

https://mp.weixin.qq.com/s/vVwBEzPyXAX1ObZ6IU8XeQ

Flink如何取代JStorm,成为字节跳动流处理唯一标准?

https://mp.weixin.qq.com/s/zeIcY_JknIo9-hR7UTxvrA

从Storm到Flink:大数据处理的开源系统及编程模型

https://mp.weixin.qq.com/s/ZkVK9S-BSoQTo09ALBI9aA

从Storm到Flink,有赞五年实时计算效率提升实践

https://mp.weixin.qq.com/s/hm_1A5Mu_6R0ygZPsspV8g

开源的Blink和Spark3.0,谁将称霸大数据领域?

https://mp.weixin.qq.com/s/DPLJA8Q2gDXLZF17FOcczw

OPPO数据中台之基石:基于Flink SQL构建实数据仓库

https://mp.weixin.qq.com/s/tbnl4a8lhamCQ-KDRYYhVA

Blink有何特别之处?菜鸟供应链场景最佳实践

https://mp.weixin.qq.com/s/zIp_14_hgRRa0sKCW4Vejw

腾讯基于Flink的实时流计算平台演进之路

https://mp.weixin.qq.com/s/15QDKqcMAuS0zXpqEDDw-Q

非Flink不可?构建实时数据集成平台,这4个因素怎能不注意!

https://mp.weixin.qq.com/s/Zz63igCUvWf1B3X4jJYTyQ

Flink与Storm协议级对比

https://mp.weixin.qq.com/s/WWCkdF1N6vXZKvw5fAq7iA

寻找数据统治力:比较Spark和Flink

https://mp.weixin.qq.com/s/BghNofoU6cPRn7XfdHR83w

日均处理万亿数据!Flink在快手的应用实践与技术演进之路

https://mp.weixin.qq.com/s/qRPquDgb2M8xptZWapajDg

Flink SQL功能解密系列——流式TopN挑战与实现

https://mp.weixin.qq.com/s/oBmRhRA-52CLRLXp6sZwEw

Apache Flink零基础入门(一):基础概念解析

https://mp.weixin.qq.com/s/nLHjYUCx2mOGBSFS4_uu_g

Apache Flink零基础入门(二):DataStream API编程

https://mp.weixin.qq.com/s/noD2Jv6m-somEMtjWTJh3w

Apache Flink零基础入门(三):开发环境搭建和应用的配置、部署及运行

https://mp.weixin.qq.com/s/KfuAZv2G0682NNzHv0iFfQ

Apache Flink零基础入门(四):客户端操作的5种模式

https://mp.weixin.qq.com/s/B0aAexdqmvX8WwjS_VEdOA

Apache Flink和Apache Pulsar的批流融合

https://mp.weixin.qq.com/s/1ssipS4vseDf1cgXQHxBRw

Apache Flink零基础入门(六):状态管理及容错机制

https://mp.weixin.qq.com/s/B2-WT3gSui4ylmWK92aQng

Apache Flink零基础入门(七):Table API编程

https://mp.weixin.qq.com/s/QUaJJtB5A9vyAB3d_Vg6bA

Apache Flink零基础入门(八):SQL编程实践

https://mp.weixin.qq.com/s/2VMsTvCW9eshEnB-Ak_cIw

时间属性深度解析

https://mp.weixin.qq.com/s/sVdI61Un8C8ycArdrwgmTg

Flink on Yarn/K8s原理剖析及实践

https://mp.weixin.qq.com/s/pj2iVvNcQH-4O03nmw0vzg

从Storm到Flink,汽车之家基于Flink的实时SQL平台设计思路与实践

https://mp.weixin.qq.com/s/c9HvC2PTlOH92iRY4cpiNg

一文搞懂Flink的Exactly Once和At Least Once

https://mp.weixin.qq.com/s/FziI1YyaccuRLQAURWLnUw

数据类型和序列化

https://mp.weixin.qq.com/s/kWUu6X_Ghj-qTNKB_Ew6Qw

日均百亿级日志处理:微博基于Flink的实时计算平台建设

https://mp.weixin.qq.com/s/WvplA4tsHUBNG8iIdRDYGw

Flink流式计算在节省资源方面的简单分析

https://mp.weixin.qq.com/s/7wrmyfu5hh6_6C0Z8Vi3hQ

Flink State有可能代替数据库吗?

https://mp.weixin.qq.com/s/RaEm3lqMZY2rdY3vX4s5ow

如何分析及处理Flink反压?

反压(backpressure)意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。

https://mp.weixin.qq.com/s/7PAumCJ-RfMcUG7Ean-WnQ

阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低HDFS压力?

https://mp.weixin.qq.com/s/qzYuhlZKn-G16fhpVtFNGA

从开发到生产上线,如何确定集群大小?

https://mp.weixin.qq.com/s/C2Uft-IuzgiKa1aDlROIng

Flink如何支持特征工程、在线学习、在线预测等AI场景?

https://blog.csdn.net/CoderPai/article/details/104862303

流处理介绍

https://blog.csdn.net/CoderPai/article/details/104898891

数据清洗

https://mp.weixin.qq.com/s/nV9KuEDgLRqRr-rd8OKh1Q

Flink的Hello World,我用三种方式实现

https://mp.weixin.qq.com/s/AZW_qEvUPdhYSj0SzAka6Q

从零搭建实时数据分析系统

https://mp.weixin.qq.com/s/l3J8FK2p1V0ySLPPXl0t2Q

基于Flink的流式数据实时去重

https://mp.weixin.qq.com/s/GTq-xV0-RC7-kt2QucGBYw

基于Flink实时计算商品订单流失量

https://mp.weixin.qq.com/s/sA8ZNsxNkmvft-ln9-6zjA

如何生成Flink作业的交互式火焰图?

https://mp.weixin.qq.com/s/mOdq33TfAYZRFgyTciqqXQ

深入解析Flink的算子链机制

https://mp.weixin.qq.com/s/wBuE76WAY6dgVTQfTBxpRg

Alink:基于Flink的机器学习平台

https://mp.weixin.qq.com/s/nlW0Ds7ZlSZUiOIMNHHxxg

Flink实时数据分析系列1. 有状态流处理简介

https://mp.weixin.qq.com/s/57eqekksna9sV5vIAtzhZA

Flink实时数据分析系列2. 流处理基本概念

https://mp.weixin.qq.com/s/K2LOrLLq5Qt2BvxIqknWQQ

字节跳动单点恢复功能及Regional CheckPoint优化实践

https://mp.weixin.qq.com/s/xAlf3_EgJQbYvVDwUYCDoA

Flink执行引擎:流批一体的融合之路

Beam

Apache Beam是一个数据处理的通用引擎,集成了多个处理数据框架(包括Cassandra、Elasticesarch、Hadoop-file-system、Hadoop-hbase、Jdbc、Kafka等)。Beam SDK给上层应用的开发者提供了一个统一的编程接口,开发者不需要了解底层的具体的大数据平台的开发接口是什么,直接通过Beam SDK的接口就可以开发数据处理的加工流程,不管输入是用于批处理的有界数据集,还是流式的无界数据集。

参考:

Apache Beam实战指南:大数据管道(pipeline)设计及实践

Parquet

Parquet是由Cloudera和Twitter共同开发的一种供Hadoop使用的列式存储格式。

参考:

http://blog.csdn.net/dc_726/article/details/41777661

从NSM到Parquet:存储结构的衍化

http://blog.csdn.net/dc_726/article/details/41143175

几张图看懂列式存储

https://mp.weixin.qq.com/s/z9xpjhL5gS9w9ZpcZWee3g

大数据列式存储Parquet和ORC简介

ORC

2013年初的时候,Hortonworks和Facebook一起开发出ORC用来替代Hive中的RCFile文件格式。

相比ORC,Parquet有两个优点:

  • Parquet能够更好地支持嵌套类型,Parquet能够通过使用definition level和repetition level来标识复杂类型的层数等信息。

  • Parquet的编码类型比ORC也更多一些,其支持plain、bit-packing以及浮点数等编码方式,所以Parquet在某些数据类型的压缩率上比ORC更高。

缺点:

  • Parquet读取速度较慢。

参考:

https://mp.weixin.qq.com/s/aVLBXS-eiWVpvIbeE2JVIw

阿里巴巴如何打造“EB级计算平台存储引擎”?

Apache Arrow

Apache Arrow设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。

参考:

https://www.cnblogs.com/smartloli/p/6367719.html

Apache Arrow内存数据

https://mp.weixin.qq.com/s/5UtpFg7Zmm6WY0OOxzeueQ

TensorFlow与Apache Arrow数据集搭配最佳实践

https://mp.weixin.qq.com/s/2LTu4wIFnkfiQE8bgJ5wOg

Apache Arrow:一种适合异构大数据系统的内存列存数据格式标准

Ceph

Ceph是一种为提高性能、可靠性和可扩展性而设计的统一的、分布式的存储系统。

参考:

https://mp.weixin.qq.com/s/KBaagb1zrkAmLyVgmkzJ3A

ceph基本架构及数据分布原理

Clickhouse

Clickhouse是俄罗斯yandex公司于2016年开源的一个列式数据库管理系统,可提供超越hive sql和spark sql的查询性能的OLAP引擎。

参考:

https://mp.weixin.qq.com/s/5ws-sT-AYswdx3xQuqmPqQ

Clickhouse的实践之路

5G

O-RAN是中国移动发起的,中国三大运营商都是成员。

诺基亚和爱立信意识到大势不可阻挡,后来也先后加入了O-RAN。双方的博弈在于运营商要求兼容O-RAN,但是在政治影响下大干快上时也许顾不上。

唯一拒绝O-RAN的是华为。三十多年辉煌的版图扩张使自己颠覆自己的决定太难了。

https://mp.weixin.qq.com/s/F3KRfVyvbtc5x2LZ7wgXuQ

媒体口中的5G和真实的5G区别有多大?


在5G上,中国一直压宝sub-6,而美国和欧洲都压宝毫米波。一方面确实是sub-6技术难点低,成本低,普及快(但传输速度真的和4G没太大差别,正如其他答主所说的,只是一个4.5G的技术,把很多LTE后期技术打包成5G的样子,但后来没想到,为了对比5G的高速,运营商会想出4G降速的方法,真是高)。但另一方面,一旦没了先发优势,欧美开始在毫米波发力,传输能力基本上就吊打sub-6了(当时宣传的5G低延迟高带宽都是基于的毫米波技术)。


https://mp.weixin.qq.com/s/oN-drJHFU34XanBzOKzrUQ

有史以来最强的5G入门科普!

https://www.iyiou.com/p/93766.html

5G将是一个彻底的失败通信技术

https://mp.weixin.qq.com/s/yIJT9D1YXa4rhf-RMBVPLw

1G到5G之争:一部30年惊心动魄的移动通信史

https://mp.weixin.qq.com/s/1un50xpUf0JGIG03M93gZQ

解析5G背后的核心技术:波束成形

https://mp.weixin.qq.com/s/uxuWmcplTmS8cJObd8cfVw

第一次有人把5G核心网讲得如此通俗易懂!

https://mp.weixin.qq.com/s/uYnu7v3w0evrJhTBYjbI_g

啥叫5G超级上行?

https://mp.weixin.qq.com/s/5v1uknmAPfqFR_5meie9GQ

5G基站功耗到底有多可怕?网友惊呼:国家电网或是5G最大赢家!

Fork me on GitHub