当前位置：K88软件开发 → 文章中心 → 大数据 → Apache Pig → 文章内容

Apache Pig 加载数据

减小字体

增大字体作者：佚名来源：网上搜集发布时间：2019-1-26 10:03:32

由 jarodhu 创建，youj 最后一次修改 2016-12-28 一般来说，Apache Pig在Hadoop之上工作。它是一种分析工具，用于分析 Hadoop File System中存在的大型数据集。要使用Apache Pig分析数据，我们必须首先将数据加载到Apache Pig中。本章介绍如何从HDFS将数据加载到Apache Pig。准备HDFS在MapReduce模式下，Pig从HDFS读取（加载）数据并将结果存回HDFS。因此，让我们先从HDFS开始，在HDFS中创建以下示例数据。学生ID名字姓氏电话号码城市001RajivReddy9848022337Hyderabad002siddarthBattacharya9848022338Kolkata003RajeshKhanna9848022339Delhi004PreethiAgarwal9848022330Pune005TrupthiMohanthy9848022336Bhuwaneshwar006ArchanaMishra9848022335Chennai上述数据集包含六个学生的个人详细信息，如id，名字，姓氏，电话号码和城市。步骤1:验证Hadoop首先，使用Hadoop version命令验证安装，如下所示。$ hadoop version如果你的系统里有Hadoop，并且已设置PATH变量，那么你将获得以下输出 - Hadoop 2.6.0 Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 Compiled by jenkins on 2014-11-13T21:10Z Compiled with protoc 2.5.0 From source with checksum 18e43357c8f927c0695f1e9522859d6a This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoopcommon-2.6.0.jar步骤2:启动HDFS浏览Hadoop的 sbin 目录，并启动 yarn 和Hadoop dfs（分布式文件系统），如下所示。cd /$Hadoop_Home/sbin/ $ start-dfs.sh localhost: starting namenode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-namenode-localhost.localdomain.out localhost: starting datanode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-datanode-localhost.localdomain.out Starting secondary namenodes [0.0.0.0] starting secondarynamenode, logging to /home/Hadoop/hadoop/logs/hadoop-Hadoopsecondarynamenode-localhost.localdomain.out $ start-yarn.sh starting yarn daemons starting resourcemanager, logging to /home/Hadoop/hadoop/logs/yarn-Hadoopresourcemanager-localhost.localdomain.out localhost: starting nodemanager, logging to /home/Hadoop/hadoop/logs/yarnHadoop-nodemanager-localhost.localdomain.out步骤3:在HDFS中创建目录在Hadoop DFS中，可以使用 mkdir 命令创建目录。在HDFS所需路径中创建一个名为 Pig_Data 的新目录，如下所示。$cd /$Hadoop_Home/bin/ $ hdfs dfs -mkdir hdfs://localhost:9000/Pig_Data 步骤4:将数据放在HDFS中Pig的输入文件包含单个行中的每个元组/记录。记录的实体由分隔符分隔（在我们的示例中，我们使用“，”）。在本地文件系统中，创建一个包含数据的输入文件 student_data.txt ，如下所示。001,Rajiv,Reddy,9848022337,Hyderabad002,siddarth,Battacharya,9848022338,Kolkata003,Rajesh,Khanna,9848022339,Delhi004,Preethi,Agarwal,9848022330,Pune005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar006,Archana,Mishra,9848022335,Chennai.现在，使用 put 命令将文件从本地文件系统移动到HDFS，如下所示。（你也可以使用 copyFromLocal 命令。）$ cd $HADOOP_HOME/bin $ hdfs dfs -put /home/Hadoop/Pig/Pig_Data/student_data.txt dfs://localhost:9000/pig_data/验证文件使用 cat 命令验证文件是否已移入HDFS，如下所示。$ cd $HADOOP_HOME/bin$ hdfs dfs -cat hdfs://localhost:9000/pig_data/student_data.txt输出现在，可以看到文件的内容，如下所示。15/10/01 12:16:55 WARN util.NativeCodeLoader: Unable to load native-hadooplibrary for your platform... using builtin-java classes where applicable 001,Rajiv,Reddy,9848022337,Hyderabad002,siddarth,Battacharya,9848022338,Kolkata003,Rajesh,Khanna,9848022339,Delhi004,Preethi,Agarwal,9848022330,Pune005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar006,Archana,Mishra,9848022335,ChennaiLoad运算符你可以使用 Pig Latin 的 LOAD 运算符，从文件系统（HDFS / Local）将数据加载到Apache Pig中。语法load语句由两部分组成，用“=”运算符分隔。在左侧，需要提到我们想要存储数据的关系的名称；而在右侧，我们需要定义如何存储数据。下面给出了 Load 运算符的语法。Relation_name = LOAD 'Input file path' USING function as schema;说明: relation_name - 我们必须提到要存储数据的关系。Input file path - 我们必须提到存储文件的HDFS目录。（在MapReduce模式下） function - 我们必须从Apache Pig提供的一组加载函数中选择一个函数（ BinStorage，JsonLoader，PigStorage，TextLoader ）。Schema - 我们必须定义数据的模式，可以定义所需的模式如下 - (column1 : data type, column2 : data type, column3 : data type);注意:我们加载数据而不指定模式。在这种情况下，列将被寻址为$01，$02，等...（检查）。例例如，我们使用 LOAD 命令，在名为学生的模式下在Pig中的 student_data.txt 加载数据。启动Pig Grunt Shell首先，打开Linux终端。在MapReduce模式下启动Pig Grunt shell，如下所示。$ Pig –x mapreduce它将启动Pig Grunt shell，如下所示。15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE15/10/01 12:33:37 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType2015-10-01 12:33:38,080 [main] INFO org.apache.pig.Main - Apache Pig version 0.15.0 (r1682971) compiled Jun 01 2015, 11:44:352015-10-01 12:33:38,080 [main] INFO org.apache.pig.Main - Logging error messages to: /home/Hadoop/pig_1443683018078.log2015-10-01 12:33:38,242 [main] INFO org.apache.pig.impl.util.Utils - Default bootup file /home/Hadoop/.pigbootup not found 2015-10-01 12:33:39,630 [main]INFO org.apache.pig.backend.hado

[1] [2] 下一页

Apache Pig 加载数据

[] [返回上一页] [打印]

·上一篇文章：Pig Latin 基础
·下一篇文章：Apache Pig 存储数据

Apache Pig 加载数据

文章评论评论内容只代表网友观点，与本站立场无关！

频道栏目导航

本类热门阅览

相关文章