pk10免费滚雪球计划:Spark 编程指南

阅读(1030.8k) 收藏 (419)

多端阅读《Spark 编程指南》:

手册简介:

Spark 编程指南简体中文版

手册说明:

Spark

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop成为可能:一个分布式存储框架(Google文件系统),在Hadoop中被实现为HDFS;一个分布式计算框架(MapReduce)。

这两个观点成为过去十年规模分析(scaling analytics)、大规?;餮?machine learning),以及其他大数据应用出现的主要推动力!但是,从技术角度上讲,十年是一段非常长的时间,而且Hadoop还存在很多已知限制,尤其是MapReduce。对MapReduce编程明显是困难的。对大多数分析,你都必须用很多步骤将Map和Reduce任务串接起来。这造成类SQL的计算或机器学习需要专门的系统来进行。更糟的是,MapReduce要求每个步骤间的数据要序列化到磁盘,这意味着MapReduce作业的I/O成本很高,导致交互分析和迭代算法(iterative algorithms)开销很大;而事实是,几乎所有的最优化和机器学习都是迭代的。

为了解决这些问题,Hadoop一直在向一种更为通用的资源管理框架转变,即YARN(Yet Another Resource Negotiator, 又一个资源协调者)。YARN实现了下一代的MapReduce,但同时也允许应用利用分布式资源而不必采用MapReduce进行计算。通过将集群管理一般化,研究转到分布式计算的一般化上,来扩展了MapReduce的初衷。

Spark是第一个脱胎于该转变的快速、通用分布式计算范式,并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型,可以涵盖广泛的工作流,这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能,因此进行交互式分析也足够快速(就如同使用Python解释器,与集群进行交互一样)?;捍嫱碧嵘说惴ǖ男阅?,这使得Spark非常适合数据理论任务,特别是机器学习。

本文中,我们将首先讨论如何在本地机器上或者EC2的集群上设置Spark进行简单分析。然后,我们在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激发更多探索)。最后两节我们开始通过命令行与Spark进行交互,然后演示如何用Python写Spark应用,并作为Spark作业提交到集群上。


拓展资料

Spark官网://spark.apache.org/

Spark下载链接://spark.apache.org/downloads.html


二维码
排列五发现一个规律
二维码
  • 回复@了不起重上井冈山2:然后你连讨饭都省了? 2019-02-19
  • 美帝拉拢人民,才能反对共产党。 2019-02-18
  • 携手创造上合更加美好的未来 2019-02-17
  • Premier de China ofrece rueda de prensa Spanish.xinhuanet.com 2019-02-16
  • 中国电信发布人工智能终端白皮书 2019-02-16
  • 妹妹半个多世纪前嫁到安徽 八旬老人想再见她一面 2019-02-15
  • 2018父亲节送什么礼物好 父亲节送爸爸岳父最好的礼物排行榜top10 2019-02-15
  • 但,其他生活垃圾分类不一定能做到 2019-02-14
  • 分开来吃相当于延长节日气氛对身体也有好处。 2019-02-14
  • 全新一代X6的假想图曝光 基于CLAR打造 2019-02-13
  • 为丰富百姓餐桌提供更多选择(打开对外开放新局面) 2019-02-13
  • 东嘎寺看藏戏文章中国国家地理网 2019-02-12
  • 中国将大幅降低日用消费品进口关税 代购们着急了 2019-02-12
  • 娜扎解锁时尚双封面 猫系执着玩转多重格调 2019-02-11
  • “五星”调解能手张五星 2019-02-11
  • 858| 350| 861| 722| 937| 34| 139| 308| 541| 786|