你现在的位置: > 新闻动态 > 行业资讯行业资讯

两大处理引擎Spark与Flink大比拼

作者:admin  来源:http://www.ddosgf.com/   :2019-04-18  阅读数:

自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始,经过近 10 年的发展,基于 Hadoop 开源生态或者其它相应系统的海量数据处理已经成为业界的基本需求。

但是,很多机构在开发自己的数据处理系统时都会发现需要面临一系列的问题。防劫持CDN从数据中获取价值需要的投入远远超过预期。常见的问题包括:

非常陡峭的学习曲线。刚接触这个领域的人经常会被需要学习的技术的数量砸晕。不像经过几十年发展的数据库一个系统可以解决大部分数据处理需求,Hadoop 等大数据生态里的一个系统往往在一些数据处理场景上比较擅长,另一些场景凑合能用,还有一些场景完全无法满足需求。结果就是需要好几个系统来处理不同的场景。

只是包含了批处理和流处理两种场景,就已经牵涉到至少四五种技术了,还不算每种技术的可替代选择。再加上实时查询、交互式分析、机器学习等场景,每个场景都有几种技术可以选择,每个技术涵盖的领域还有不同方式的重叠。结果就是一个业务经常需要使用四五种以上的技术才能支持好一个完整的数据处发和运行效率低下。因为牵涉到多种系统,每种系统有自己的开发语言和工具,开发效率可想而知。而因为采用了多套系统,数据需要在各个系统之间传输,也造成了额外的开发和运行代价,数据的一致也难以保证。在很多机构,实际上一半以上的开发精力花在了数据在各个系统之间的传输上。

复杂的运维。多个系统,每个需要自己的运维,带来更高的运维代价的同时也提高了系统出问题的可能。

数据质量难以保证。数据出了问题难以跟踪解决。

最后,还有人的问题。在很多机构,由于系统的复杂性,各个子系统的支持和使用落实在不同部门负责。

了解了这些问题以后,对 Spark 从 2014 年左右开始迅速流行就比较容易理解了。Spark 在当时除了在某些场景比 Hadoop MapReduce 带来几十到上百倍的性Spark 的数据模型是弹性分布式数据集 RDD(Resilient Distributed Datasets)。 比起 MapReduce 的文件模型,RDD 是一个更抽象的模型,RDD 靠血缘(lineage) 等方式来保证可恢复性。很多时候 RDD 可以实现为分布式共享内存或者完全虚拟化(即有的中间结果 RDD 当下游处理完全在本地时可以直接优化省略掉)。这样可以省掉很多不必要的 I/O,是早期 Spark 性能优势的主要原因能提升外,还提出了用一个统一的引擎支持批处理、流处理、交互式查询、机器学习等常见的数据处理场景。看过在一个 Notebook 里完成上述所有场景的 Spark 演示,对比之前的数据流程开发,对很多开发者来说不难做出选择。经过几年的发展,Spark 已经被视为可以完全取代 Hadoop 中的 MapReduce 引擎。

正在 Spark 如日中天高速发展的时候,2016 年左右 Flink 开始进入大众的视野并逐渐广为人知。为什么呢?原来在人们开始使用 Spark 之后,海外高防服务器,但并不是每一种都同样好用。数据流的实时处理就是其中相对较弱的一环。Flink 凭借更优的流处理引擎,同时也支持各种处理场景,成为 Spark 的有力挑战者。

 

 

本文转载于:http://www.ddosgf.com/   高防云盾


本文关键词:防劫持CDN    海外高防服务器

 
  • 新濠天地

    自从用了贵公司的云防护以后我们都直接和前来敲诈的说,我们现在和将来都不交任何保护费!

  • 新破晓电影

    云防护的客服很用心的为我们挑选合适的节点组网,现在国内用户反映都打开速度比以前快很多很多!

  • 狂战工会论坛

    论坛一直被CC攻击,造成家族成员无法正常登录,用了云防护以后再也没有出现过类似现象,很好很强大!

  • 射手体育网

    一直在用高防服务器,被忽悠过N回,别家租用的常常一摸就死,封24小时,这里的服务器攻击停了就解封了,基本不用暂停业务

  • 深圳租车网

    一直被同行恶意攻击,阿里云刚解封就进黑洞,加了云防护以后再也不用担心黑洞问题了,网站打开速度也快了,能更好为客户提供服务

  • 一起啃书吧

    小站靠广告费赚得不多,还屡屡被要挟收保护费,没完没了的,用了云防护以后终于可以放心出去去西安旅游了!