简介
最近由于工作需要,正在研究关于流处理的框架/工具。闲来无事,记录一下。
流处理
对于我来说,首当其冲的疑问就是流处理是什么,为什么要用流处理,流处理他写起来方便吗。 转换一下就是,原理,必要性和开发速度,我称之为开发人员的三把金钥匙(现编的)。
在接触流处理之前,本人时常编写一些数据处理都是所谓的批处理,是对一些有界,或者说有限的数据进行处理。比如,对一个数据集进行去重,爬取部分网页上的内容等。这些工作有一个共同点:数据的量是有限的,在一定的时间后这些处理是会被全部完成的。
有正就有反,在日常接触的数据中还有一些数据在理想环境下是无限产生的,比如服务器的日志数据,网络的流量数据,网上商城的订单数据等。对这类数据进行处理的话,第一时间我能想到的是定时器⏰。在数据堆积到一定数量/时间后进行一次处理。到这里就有点接近我所理解的流处理了:对一个无限产生的数据进行处理。
这里呢,我们把这个无限产生的数据称为 数据流。
好,这不就行了吗。简单写个定时器定时处理数据,还要Flink干什么,本文到此结束。🎊