当前位置:K88软件开发文章中心编程语言SQLSpark → 文章列表
文章标题关闭所有内容预览 | 展开所有内容预览
  • Spark Streaming Checkpointing [内容预览] 0 | 2019-01-19 04:50:28
    由ligaihe创建,路飞最后一次修改2016-02-24SparkStreamingCheckpointing一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等)。为了使这成为可能,SparkStreaming需要checkpoint足够的信息到容错存储系统中,以使系统从故...

    [阅读全文]

  • DStreams缓存或持久化 [内容预览] 0 | 2019-01-19 04:50:27
    由ligaihe创建,路飞最后一次修改2016-02-24缓存或持久化和RDD相似,DStreams也允许开发者持久化流数据到内存中。在DStream上使用persist()方法可以自动地持久化DStream中的RDD到内存中。如果DStream中的数据需要计算多次,这是非常有用的。像reduceByWindow和re...

    [阅读全文]

  • DStream的输出操作 [内容预览] 0 | 2019-01-19 04:50:26
    由ligaihe创建,最后一次修改2016-02-24DStreams上的输出操作输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。目前,定义了下面几种输出操作:OutputOperationMeaningpri...

    [阅读全文]

  • DStream中的转换 [内容预览] 0 | 2019-01-19 04:50:24
    由ligaihe创建,最后一次修改2016-02-24DStream中的转换(transformation)和RDD类似,transformation允许从输入DStream来的数据被修改。DStreams支持很多在RDD中可用的transformation算子。一些常用的算子如下所示:TransformationMe...

    [阅读全文]

  • 输入DStreams [内容预览] 0 | 2019-01-19 04:50:23
    由ligaihe创建,最后一次修改2016-02-24输入DStreams和receivers输入DStreams表示从数据源获取输入数据流的DStreams。在快速例子中,lines表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receiver对象相关联,这个Rece...

    [阅读全文]

  • Spark Streaming离散流 [内容预览] 0 | 2019-01-19 04:50:22
    由ligaihe创建,路飞最后一次修改2016-02-24离散流(DStreams)离散流或者DStreams是SparkStreaming提供的基本的抽象,它代表一个连续的数据流。它要么是从源中获取的输入流,要么是输入流通过转换算子生成的处理后的数据流。在内部,DStreams由一系列连续的RDD组成。DStream...

    [阅读全文]

  • 初始化StreamingContext [内容预览] 0 | 2019-01-19 04:50:21
    由ligaihe创建,最后一次修改2016-02-24初始化StreamingContext为了初始化SparkStreaming程序,一个StreamingContext对象必需被创建,它是SparkStreaming所有流操作的主要入口。一个StreamingContext对象可以用SparkConf对象创建。im...

    [阅读全文]

  • Spark Streaming关联 [内容预览] 0 | 2019-01-19 04:50:20
    由ligaihe创建,路飞最后一次修改2016-02-24SparkStreaming关联与Spark类似,SparkStreaming也可以利用maven仓库。编写你自己的SparkStreaming程序,你需要引入下面的依赖到你的SBT或者Maven项目中<dependency><groupId>org.apach...

    [阅读全文]

  • Spark Streaming基本概念 [内容预览] 0 | 2019-01-19 04:50:19
    由ligaihe创建,路飞最后一次修改2016-02-23SparkStreaming基本概念在了解简单的例子的基础上,下面将介绍编写SparkStreaming应用程序必需的一些基本概念。关联初始化StreamingContext离散流输入DStreamsDStream中的转换DStream的输出操作缓存或持久化Ch...

    [阅读全文]

  • Spark Streaming示例 [内容预览] 0 | 2019-01-19 04:50:18
    由ligaihe创建,路飞最后一次修改2016-02-24一个快速的SparkStreaming例子在我们进入如何编写SparkStreaming程序的细节之前,让我们快速地浏览一个简单的例子。在这个例子中,程序从监听TCP套接字的数据服务器获取文本数据,然后计算文本中包含的单词数。做法如下:首先,我们导入SparkS...

    [阅读全文]

  • Spark Streaming [内容预览] 0 | 2019-01-19 04:50:16
    由ligaihe创建,最后一次修改2016-02-23SparkStreamingSparkstreaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、ZeroMQ、Kinesis等源获取数据,也可以通过由高阶函数m...

    [阅读全文]

  • Spark RDD持久化 [内容预览] 0 | 2019-01-19 04:50:15
    由ligaihe创建,路飞最后一次修改2016-02-24SparkRDD持久化Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)...

    [阅读全文]

  • Spark RDD 操作 [内容预览] 0 | 2019-01-19 04:50:14
    由ligaihe创建,路飞最后一次修改2016-02-24SparkRDD操作RDDs支持2种类型的操作:转换(transformations)从已经存在的数据集中创建一个新的数据集;动作(actions)在数据集上进行计算之后返回一个值到驱动程序。例如,map是一个转换操作,它将每一个数据集元素传递给一个函数并且返回...

    [阅读全文]

  • Spark 外部数据集 [内容预览] 0 | 2019-01-19 04:50:13
    由ligaihe创建,路飞最后一次修改2016-02-24外部数据集Spark可以从任何一个Hadoop支持的存储源创建分布式数据集,包括你的本地文件系统,HDFS,Cassandra,HBase,AmazonS3等。Spark支持文本文件(textfiles),SequenceFiles和其他HadoopInputF...

    [阅读全文]

  • Spark 并行集合 [内容预览] 0 | 2019-01-19 04:50:12
    由ligaihe创建,路飞最后一次修改2016-02-24Spark并行集合并行集合(Parallelizedcollections)的创建是通过在一个已有的集合(ScalaSeq)上调用SparkContext的parallelize方法实现的。集合中的元素被复制到一个可并行操作的分布式数据集中。例如,这里演示了如何...

    [阅读全文]

  • Spark RDDs [内容预览] 0 | 2019-01-19 04:50:11
    由ligaihe创建,最后一次修改2016-02-23弹性分布式数据集(RDDs)Spark核心的概念是ResilientDistributedDataset(RDD):一个可并行操作的有容错机制的数据集合。有2种方式创建RDDs:第一种是在你的驱动程序中并行化一个已经存在的集合;另外一种是引用一个外部存储系统的数据集...

    [阅读全文]

  • Spark 运行程序 [内容预览] 0 | 2019-01-19 04:50:10
    由ligaihe创建,路飞最后一次修改2016-02-24Spark运行程序祝贺你成功运行你的第一个Spark应用程序!要深入了解API,可以从Spark编程指南开始,或者从其他的组件开始,例如:SparkStreaming。要让程序运行在集群(cluster)上,前往部署概论。最后,Spark在examples文件目...

    [阅读全文]

  • Spark Shell [内容预览] 0 | 2019-01-19 04:50:09
    由ligaihe创建,最后一次修改2016-02-24使用SparkShell基础Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习API。它可以使用Scala(在Java虚拟机上运行现有的Java库的一个很好方式)或Python。在Spark目录里使用下面的方式开始运行:./bin/s...

    [阅读全文]

  • Spark 独立应用程序 [内容预览] 0 | 2019-01-19 04:50:07
    由ligaihe创建,路飞最后一次修改2016-02-24独立应用程序现在假设我们想要使用SparkAPI写一个独立的应用程序。我们将通过使用Scala(用SBT),Java(用Maven)和Python写一个简单的应用程序来学习。我们用Scala创建一个非常简单的Spark应用程序。如此简单,事实上它的名字叫Simp...

    [阅读全文]

  • Spark 快速上手 [内容预览] 0 | 2019-01-19 04:50:06
    由ligaihe创建,路飞最后一次修改2016-02-23Spark快速上手本节课程提供一个使用Spark的快速介绍,首先我们使用Spark的交互式shell(用Python或Scala)介绍它的API。当演示如何在Java,Scala和Python写独立的程序时,看编程指南里完整的参考。依照这个指南,首先从Spark...

    [阅读全文]

  • Spark 共享变量 [内容预览] 0 | 2019-01-19 04:50:05
    由ligaihe创建,路飞最后一次修改2016-02-24共享变量一般情况下,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写...

    [阅读全文]

  • 初始化 Spark [内容预览] 0 | 2019-01-19 04:50:04
    由ligaihe创建,最后一次修改2016-02-24初始化SparkSpark编程的第一步是需要创建一个SparkContext对象,用来告诉Spark如何访问集群。在创建SparkContext之前,你需要构建一个SparkConf对象,SparkConf对象包含了一些你应用程序的信息。valconf=newSpa...

    [阅读全文]

  • 引入 Spark [内容预览] 0 | 2019-01-19 04:50:03
    由ligaihe创建,最后一次修改2016-02-24引入SparkSpark1.2.0使用Scala2.10写应用程序,你需要使用一个兼容的Scala版本(例如:2.10.X)。写Spark应用程序时,你需要添加Spark的Maven依赖,Spark可以通过Maven中心仓库来获得:groupId=org.apach...

    [阅读全文]

  • Spark 编程指南 [内容预览] 0 | 2019-01-19 04:50:02
    由ligaihe创建,路飞最后一次修改2016-02-23概论在高层中,每个Spark应用程序都由一个驱动程序(driverprograme)构成,驱动程序在集群上运行用户的mian函数来执行各种各样的并行操作(paralleloperations)。Spark的主要抽象是提供一个弹性分布式数据集(RDD),RDD是指...

    [阅读全文]

  • Spark 快速入门 [内容预览] 0 | 2019-01-19 04:50:01
    由ligaihe创建,路飞最后一次修改2016-11-26设置Spark在本机设置和运行Spark非常简单。你只需要下载一个预构建的包,只要你安装了Java6+和Python2.6+,就可以在Windows、MacOSX和Linux上运行Spark。确保java程序在PATH环境变量中,或者设置了JAVA_HOME环境...

    [阅读全文]

  • Spark 编程介绍 [内容预览] 0 | 2019-01-19 04:49:59
    由ligaihe创建,路飞最后一次修改2016-02-24Spark编程指南简体中文版本书出处:http://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/从这里开始你能够从spark官方网站查看一些spark运行例子。另外,Spark的examp...

    [阅读全文]

 Spark   56   30   2/2页      1   2   尾页   GO