flink实战(flink实战派pdf百度网盘)
本篇文章给大家谈谈flink实战,以及flink实战派pdf百度网盘对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
flink实战教程-集群的部署
这种模式我们一般是在用IDE调试程序的时候用到,当我们在本地用IDE开发程序的时候,执行main方法,flink会在本地启动一个包含jobmanager和taskmanager的进程的minicluster,程序运行完成之后,这个cluster进程退出。
这种模式就是直接在物理机上启动flink集群。我们可以通过 {FLINK_HOME}/conf/flink-conf.yaml.
此外,我们可以用 ${FLINK_HOME}/bin/taskmanager.sh start 再启动一个taskmanager。
这时我们通过jps命令查看一下启动的进程
我们看到这时候启动了两个taskmanager
这种部署模式对flink集群的资源管理是flink自己维护的,在生产环境下用的不多,所以我们也不做过多描述.
启动集群的命令如下:
这个命令有很多的参数,可以在后面加 -h 看下,我这里着重介绍一下 -d参数。
加上知昌腔-d之后,指的是隔离模式,也就是启动之后和客户端就断了联系,如果要停止集群,需要通过yarn application -kill {applicationId} 来停止集群.
提交成功之后,我们会在yarn的管理页面看到一个类似的任务
这个启动命令也有很多的参数,我就不一一讲解了,我用大白话讲讲我认为最核心的几个参数。
第二,通过命令行来停止:
这个时候需要指定迅团yarn applicationId和flink job id
第三,通过程序来停止
如果我们做了一个实时平台这样的系搭衫统,就不能手工通过命令行来停止了,可以调用相应的api来停止任务.
这种模式是在flink 1.11 版本中提供的,flink的yarn per job模式启动的时候会把本地的flink的jar和用户的jar都上传到hdfs,这个过程非常的消耗网络的带宽,如果同时有多个人提交任务的话,那么对网络的影响就更大,此外,每次提交任务的时候flink的jar包是一样的,也不用每次都拷来拷去的,所以flink提供了一种新的application模式,可以把flink的jar和用户的jar都预先放到hdfs上,这样就能省去yarn per job模式提交任务的jar包拷贝工作,节省了带宽,加快了提交任务的速度.
具体的命令如下:
-yD yarn.provided.lib.dirs :用来指定存放flink jar的目录
最后一个参数是用户的jar在hdfs上的路径.
说一下题外话,其实我们当时在做实时平台的时候,这个提交慢的问题我也发现了,当时我的想法是先启动一个flink集群,然后再把程序的JobGraph提交到这个yarn集群,不过后来嘛,由于 * %%$$# ^ 的原因,也没弄.
对于把服务容器化,也越来越成为一种趋势,所以k8s部署也越来越受大家的重视。 对于k8s部署flink这块说实话我研究的不是很深,也就不多说了。
我们还可以将程序部署到mesos或者使用docker,这个我没有去实际调研过,但是从flink的邮件列表大家沟通的问题或者是网上查到的资料看,这种模式部署应该不多,所以这里就不详细描述了。
[img]Flink实战之FileSystem-parquet支持ZSTD压缩
ZSTD压缩算法是现在最流行压缩算法了,有着高压缩比和压缩性能强的有点,已经被各大框架所使用。
目前hadoop 3.1.0版本已经支持ZSTD算法。所以敏腔可以使用Flink写HDFS时使用这个算法。具体如何操作请往下看
Flink1.11已经支持hadoop 3.x+版本了,所以Flink依赖型配的hadoop shaded包版本不达标的需要升级。
由于从Flink1.11开始,官方已经不提供hadoop shaded支持,可以使用CLASS_PATH方式 参考 。
但是任然可以自己编译桥租衫hadoop 3.1版本的shaded包,具体步骤如下:
同时hadoop集群版本也要支持ZSTD,升级集群或者将ZSTD功能merge到低版本中。
现在就可以写flink任务了,DDL如下:
原因:线上环境是hadoop2.6版本 还不支持zstd压缩,之后在一个测试环境上进行,该环境还是2.6版本但是将3.1的特性merge了进来。
Flink实战双流join之interval Join
前面学习的Window Join必须要在一个Window中进行JOIN,那如果没有Window如何处理呢?
interval join也是使用相同的key来join两个流(流A、流B),并且流B中的元素中的时间戳,和流A元素的时间戳,有一个时间间隔。也高判就是:流B的元素的时间戳 ≥ 流A的元素时间戳 + 下界,且流B的元素的时间戳 ≤ 流A的元素时间戳 + 上界。
我们来看Flink官方的一张图。
我们看到,流A的每一个元素,都会和流B的一定时间范围的元素进行JOIN。
其中,上界和下界可以是负数,也可以是整戚仔改数。Interval join目前只支持INNER JOIN。将连接后的元素传递给ProcessJoinFunction时,时间戳变为两个元素中最大的那个时间戳。
注意:
Interval Join只支持事件时间。
运行结果:
join() 和 coGroup() 都是基于窗口做关联的。但是在某些情况下,两条流的数据步调未必一致。例如,订单流的数据有可能在点击流的购买动作发生之后很久才被写入,如果用窗口来圈定,很容易 join 不上。所以 Flink 又提供了"Interval join"的语义,按照指定字段以及右流相对左流偏移的时间区间进行关联。interval join 也是 inner join,虽然不需要开窗,但是需戚旁要用户指定偏移区间的上下界,并且只支持事件时间。
按照指定字段以及右流相对左流偏移的时间区间进行关联,即:
right.timestamp ∈ [left.timestamp + lowerBound; left.timestamp + upperBound]
由上可见,interval join 与 window join 不同,是两个 KeyedStream 之上的操作,并且需要调用 between() 方法指定偏移区间的上下界。如果想令上下界是开区间,可以调用 upperBoundExclusive()/lowerBoundExclusive() 方法。
interval join 的实现原理
以下是 KeyedStream.process(ProcessJoinFunction) 方法调用的重载方法的逻辑。
关于flink实战和flink实战派pdf百度网盘的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。