当前位置:K88软件开发文章中心编程语言SQLSpark → 文章列表
文章标题关闭所有内容预览 | 展开所有内容预览
  • Spark GraphX顶点和边RDDs [内容预览] 0 | 2019-01-19 04:51:03
    由ligaihe创建,路飞最后一次修改2016-02-24SparkGraphX顶点和边RDDsGraphX暴露保存在图中的顶点和边的RDD。然而,因为GraphX包含的顶点和边拥有优化的数据结构,这些数据结构提供了额外的功能。顶点和边分别返回VertexRDD和EdgeRDD。这一章我们将学习它们的一些有用的功能。V...

    [阅读全文]

  • Spark GraphX图构造者 [内容预览] 0 | 2019-01-19 04:51:02
    由ligaihe创建,路飞最后一次修改2016-02-24SparkGraphX图构造者GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图。默认情况下,没有哪个图构造者为图的边重新分区,而是把边保留在默认的分区中(例如HDFS中它们的原始块)。Graph.groupEdges:Graph[VD,ED])需...

    [阅读全文]

  • Spark GraphX Pregel API [内容预览] 0 | 2019-01-19 04:51:00
    由ligaihe创建,路飞最后一次修改2016-02-24SparkGraphXPregelAPI图本身是递归数据结构,顶点的属性依赖于它们邻居的属性,这些邻居的属性又依赖于自己邻居的属性。所以许多重要的图算法都是迭代的重新计算每个顶点的属性,直到满足某个确定的条件。一系列的graph-parallel抽象已经被提出来...

    [阅读全文]

  • Spark GraphX图操作符 [内容预览] 0 | 2019-01-19 04:50:59
    由ligaihe创建,路飞最后一次修改2016-02-24SparkGraphX图操作符正如RDDs有基本的操作map,filter和reduceByKey一样,属性图也有基本的集合操作,这些操作采用用户自定义的函数并产生包含转换特征和结构的新图。定义在Graph中的核心操作是经过优化的实现。表示为核心操作的组合的便捷...

    [阅读全文]

  • Spark配置 [内容预览] 0 | 2019-01-19 04:50:58
    由ligaihe创建,最后一次修改2016-02-24Spark配置Spark提供三个位置用来配置系统:Sparkproperties控制大部分的应用程序参数,可以用SparkConf对象或者java系统属性设置Environmentvariables可以通过每个节点的conf/spark-env.sh脚本设置每台机器...

    [阅读全文]

  • Spark GraphX属性图 [内容预览] 0 | 2019-01-19 04:50:57
    由ligaihe创建,路飞最后一次修改2016-02-24SparkGraphX属性图属性图是一个有向多重图,它带有连接到每个顶点和边的用户定义的对象。有向多重图中多个并行(parallel)的边共享相同的源和目的地顶点。支持并行边的能力简化了建模场景,这个场景中,相同的顶点存在多种关系(例如co-worker和fri...

    [阅读全文]

  • 在yarn上运行Spark [内容预览] 0 | 2019-01-19 04:50:56
    由ligaihe创建,最后一次修改2016-02-24在YARN上运行Spark配置大部分为SparkonYARN模式提供的配置与其它部署模式提供的配置相同。下面这些是为SparkonYARN模式提供的配置。Spark属性PropertyNameDefaultMeaningspark.yarn.applicationM...

    [阅读全文]

  • 独立运行Spark [内容预览] 0 | 2019-01-19 04:50:55
    由ligaihe创建,最后一次修改2016-02-24Spark独立部署模式安装Spark独立模式集群安装Spark独立模式,你只需要将Spark的编译版本简单的放到集群的每个节点。你可以获得每个稳定版本的预编译版本,也可以自己编译。手动启动集群你能够通过下面的方式启动独立的master服务器。./sbin/start...

    [阅读全文]

  • Spark GraphX提交应用程序 [内容预览] 0 | 2019-01-19 04:50:54
    由ligaihe创建,路飞最后一次修改2016-02-24SparkGraphX提交应用程序在Sparkbin目录下的spark-submit可以用来在集群上启动应用程序。它可以通过统一的接口使用Spark支持的所有集群管理器,所有你不必为每一个管理器做相应的配置。用spark-submit启动应用程序bin/spar...

    [阅读全文]

  • Spark GraphX例子 [内容预览] 0 | 2019-01-19 04:50:52
    由ligaihe创建,路飞最后一次修改2016-02-24SparkGraphX例子假定我们想从一些文本文件中构建一个图,限制这个图包含重要的关系和用户,并且在子图上运行page-rank,最后返回与top用户相关的属性。可以通过如下方式实现。//ConnecttotheSparkclustervalsc=newSpa...

    [阅读全文]

  • Spark GraphX图算法 [内容预览] 0 | 2019-01-19 04:50:51
    由ligaihe创建,路飞最后一次修改2016-02-24SparkGraphX图算法GraphX包括一组图算法来简化分析任务。这些算法包含在org.apache.spark.graphx.lib包中,可以被直接访问。PageRank算法PageRank度量一个图中每个顶点的重要程度,假定从u到v的一条边代表v的重要性...

    [阅读全文]

  • Spark GraphX开始 [内容预览] 0 | 2019-01-19 04:50:50
    由ligaihe创建,路飞最后一次修改2016-02-24开始开始的第一步是引入Spark和GraphX到你的项目中,如下面所示mportorg.apache.spark._importorg.apache.spark.graphx._//Tomakesomeoftheexamplesworkwewillalsonee...

    [阅读全文]

  • GraphX编程指南 [内容预览] 0 | 2019-01-19 04:50:49
    由ligaihe创建,最后一次修改2016-02-23GraphX编程指南GraphX是一个新的(alpha)SparkAPI,它用于图和并行图(graph-parallel)的计算。GraphX通过引入ResilientDistributedPropertyGraph:带有顶点和边属性的有向多重图,来扩展SparkR...

    [阅读全文]

  • Spark SQL Hive表 [内容预览] 0 | 2019-01-19 04:50:48
    由ligaihe创建,路飞最后一次修改2016-02-24Hive表SparkSQL也支持从ApacheHive中读出和写入数据。然而,Hive有大量的依赖,所以它不包含在Spark集合中。可以通过-Phive和-Phive-thriftserver参数构建Spark,使其支持Hive。注意这个重新构建的jar包必须存...

    [阅读全文]

  • Spark SQL JSON数据集 [内容预览] 0 | 2019-01-19 04:50:47
    由ligaihe创建,路飞最后一次修改2016-02-24SparkSQLJSON数据集SparkSQL能够自动推断JSON数据集的模式,加载它为一个SchemaRDD。这种转换可以通过下面两种方法来实现jsonFile:从一个包含JSON文件的目录中加载。文件中的每一行是一个JSON对象jsonRDD:从存在的RDD...

    [阅读全文]

  • Spark SQL parquet文件 [内容预览] 0 | 2019-01-19 04:50:46
    由ligaihe创建,路飞最后一次修改2016-02-24Parquet文件Parquet是一种柱状(columnar)格式,可以被许多其它的数据处理系统支持。SparkSQL提供支持读和写Parquet文件的功能,这些文件可以自动地保留原始数据的模式。加载数据//sqlContextfromthepreviousex...

    [阅读全文]

  • Spark SQL RDDs [内容预览] 0 | 2019-01-19 04:50:45
    由ligaihe创建,路飞最后一次修改2016-02-24RDDsSpark支持两种方法将存在的RDDs转换为SchemaRDDs。第一种方法使用反射来推断包含特定对象类型的RDD的模式(schema)。在你写spark程序的同时,当你已经知道了模式,这种基于反射的方法可以使代码更简洁并且程序工作得更好。创建Schem...

    [阅读全文]

  • Spark SQL数据源 [内容预览] 0 | 2019-01-19 04:50:43
    由ligaihe创建,路飞最后一次修改2016-02-23数据源SparkSQL支持通过SchemaRDD接口操作各种数据源。一个SchemaRDD能够作为一个一般的RDD被操作,也可以被注册为一个临时的表。注册一个SchemaRDD为一个表就可以允许你在其数据上运行SQL查询。这节描述了加载数据为SchemaRDD的...

    [阅读全文]

  • Spark SQL数据类型 [内容预览] 0 | 2019-01-19 04:50:42
    由ligaihe创建,最后一次修改2016-02-24SparkSQL数据类型数字类型ByteType:代表一个字节的整数。范围是-128到127ShortType:代表两个字节的整数。范围是-32768到32767IntegerType:代表4个字节的整数。范围是-2147483648到2147483647LongT...

    [阅读全文]

  • Spark SQL其他接口 [内容预览] 0 | 2019-01-19 04:50:40
    由ligaihe创建,路飞最后一次修改2016-02-24SparkSQL其它接口SparkSQL也支持直接运行SQL查询的接口,不用写任何代码。运行ThriftJDBC/ODBC服务器这里实现的ThriftJDBC/ODBC服务器与Hive0.12中的HiveServer2相一致。你可以用在Spark或者Hive0....

    [阅读全文]

  • Spark SQL性能调优 [内容预览] 0 | 2019-01-19 04:50:39
    由ligaihe创建,路飞最后一次修改2016-02-24SparkSQL性能调优对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据SparkSQL可以通过调用sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。然后,Spark将会仅...

    [阅读全文]

  • Spark SQL开始 [内容预览] 0 | 2019-01-19 04:50:38
    由ligaihe创建,路飞最后一次修改2016-02-24SparkSQL开始Spark中所有相关功能的入口点是SQLContext类或者它的子类,创建一个SQLContext的所有需要仅仅是一个SparkContext。valsc:SparkContext//AnexistingSparkContext.valsql...

    [阅读全文]

  • Spark SQL [内容预览] 0 | 2019-01-19 04:50:37
    由ligaihe创建,最后一次修改2016-02-23SparkSQLSparkSQL允许Spark执行用SQL,HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成,行对象拥有一个模式(scheme)来描述行中每一列的数据类型。Schema...

    [阅读全文]

  • Spark Streaming容错语义 [内容预览] 0 | 2019-01-19 04:50:36
    由ligaihe创建,路飞最后一次修改2016-02-24SparkStreaming容错语义这一节,我们将讨论在节点错误事件时SparkStreaming的行为。为了理解这些,让我们先记住一些SparkRDD的基本容错语义。一个RDD是不可变的、确定可重复计算的、分布式数据集。每个RDD记住一个确定性操作的谱系(li...

    [阅读全文]

  • Spark Streaming内存调优 [内容预览] 0 | 2019-01-19 04:50:34
    由ligaihe创建,路飞最后一次修改2016-02-24内存调优调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。在这一节,我们重点介绍几个强烈推荐的自定义选项,它们可以减少SparkStreaming应用程序垃圾回收的相关暂停,获得更稳定的批处理时间。Defaultpersist...

    [阅读全文]

  • Spark Streaming设置正确的批容量 [内容预览] 0 | 2019-01-19 04:50:33
    由ligaihe创建,路飞最后一次修改2016-02-24设置正确的批容量为了SparkStreaming应用程序能够在集群中稳定运行,系统应该能够以足够的速度处理接收的数据(即处理速度应该大于或等于接收数据的速度)。这可以通过流的网络UI观察得到。批处理时间应该小于批间隔时间。根据流计算的性质,批间隔时间可能显著的影...

    [阅读全文]

  • Spark Streaming减少批数据的执行时间 [内容预览] 0 | 2019-01-19 04:50:32
    由ligaihe创建,路飞最后一次修改2016-02-24SparkStreaming减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。数据接收的并行水平通过网络(如kafka,flume,socket等)接收数据需要这些数据反序列化并被保存到Spa...

    [阅读全文]

  • Spark Streaming性能调优 [内容预览] 0 | 2019-01-19 04:50:31
    由ligaihe创建,路飞最后一次修改2016-02-23SparkStreaming性能调优集群中的SparkStreaming应用程序获得最好的性能需要一些调整。这章将介绍几个参数和配置,提高SparkStreaming应用程序的性能。你需要考虑两件事情:高效地利用集群资源减少批数据的处理时间设置正确的批容量(si...

    [阅读全文]

  • Spark Streaming监控应用程序 [内容预览] 0 | 2019-01-19 04:50:30
    由ligaihe创建,路飞最后一次修改2016-02-24SparkStreaming监控应用程序除了Spark的监控功能,SparkStreaming增加了一些专有的功能。应用StreamingContext的时候,SparkwebUI显示添加的Streaming菜单,用以显示运行的receivers(receive...

    [阅读全文]

  • Spark Streaming部署应用程序 [内容预览] 0 | 2019-01-19 04:50:29
    由ligaihe创建,路飞最后一次修改2016-02-24SparkStreaming部署应用程序Requirements运行一个SparkStreaming应用程序,有下面一些步骤有管理器的集群-这是任何Spark应用程序都需要的需求,详见部署指南将应用程序打为jar包-你必须编译你的应用程序为jar包。如果你用sp...

    [阅读全文]

 Spark   56   30   1/2页   首页   1   2      GO