大数据技术之Hadoop学习(三)

目录

HDFS的Java API 操作

1、介绍

2、案例——使用Java API操作HDFS

(1)搭建项目环境

(2)初始化客户端对象与上传文件

 (3)从HDFS上下载文件到本地

(4)目录操作

(5)查看目录中的文件信息


HDFS的Java API 操作

1、介绍

        Hadoop是由Java语言编写的,所以可以使用Java API 操作Hadoop文件系统,HDFS Shell本质上就是对Java API的应用,通过编程形式操作HDFS,核心是用HDFS提供的Java API构造一个访问客户端对象,通过客户端对象对HDFS上的文件进行操作。

        Hadoop集合了众多文件系统,HDFS只是文件系统的一个实例,这里提供一下Hadoop的官方文档,供读者自行查阅学习。

https://hadoop.apache.org/docs/stable/api/index.html

2、案例——使用Java API操作HDFS

        本案例主要演示如何操作HDFS文件系统,包括上传文件,下载文件等。

(1)搭建项目环境

        打开IDEA创建一个简单的Maven的工程,如下图。

 创建完Maven的工程后,在目录结构中有一个pom .xml的配置文件,这个配置文件是对项目进行管理的核心文件。在这里我们对其进行配置,添加相关依赖,代码如下。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.itcast</groupId>
    <artifactId>HadoopDemo</artifactId>
    <version>1.0-SNAPSHOT</version>
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.10.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.zookeeper</groupId>
            <artifactId>zookeeper</artifactId>
            <version>3.7.1</version>
        </dependency>

        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.13.2</version>
        </dependency>

    </dependencies>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

</project>

这里需要注意,上述代码中作者使用hadoop版本为2.10.1,zookeeper版本为3.7.1,要根据自己版本而修改,然后如果复制代码后标红,需要等待一下,idea会自动下载。

如上图,这里是对于maven的工程的一些配置,让其能够自动下载。

(2)初始化客户端对象与上传文件

        在项目src包下的test包下创建cn.itcast.hdfsdemo包,然后在这个包里面创建一个HDFS_uploading的java文件,为了便于查看,作者项目下直接创建一个存放结果的文件textHadoop,相关代码如下图。

package cn.itcast.hdfsdemo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.io.IOException;

public class HDFS_uploading {
    FileSystem fs = null;
    public void init() throws Exception {
        //构建配置参数对象:Configuration
        Configuration conf = new Configuration();
        //设置参数,指定要访问的文件系统的类型:HDFS文件系统
        conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
        //设置客户端的访问身份,以root身份访问HDFS
        System.setProperty("HADOOP_USER_NAME","root");
        //通过FileSystem类的静态方法,获取文件系统客户端对象
        fs = FileSystem.get(conf);
    }
    //将本地文件上传到HDFS
    public void testAddFileToHdfs() throws IOException {
        //要上传的文件所在本地路径
        Path src = new Path("/home/huanganchi/Hadoop/实训项目/HadoopDemo/textHadoop/HdfsDemo/\n" +
                "input/text");
        //要上传到HDFS的目标路径
        Path dst = new Path("/");
        //上传文件
        fs.copyFromLocalFile(src,dst);
        //关闭资源
        fs.close();
    }
}

 

 

 (3)从HDFS上下载文件到本地

        在cn.itcast.hdfsdemo包下,创建HDFS_download的java文件,代码如下图。

package cn.itcast.hdfsdemo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;

public class HDFS_download {
    FileSystem fs = null;
    @Before
    public void init() throws Exception {
        //构建配置参数对象:Configuration
        Configuration conf = new Configuration();
        //设置参数,指定要访问的文件系统的类型:HDFS文件系统
        conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
        //设置客户端的访问身份,以root身份访问HDFS
        System.setProperty("HADOOP_USER_NAME","root");
        //通过FileSystem类的静态方法,获取文件系统客户端对象
        fs = FileSystem.get(conf);
    }
    //从HDFS下载文件到本地
    @Test
    public void testDownLoadFileToLocal() throws IOException {
        //下载文件
        fs.copyToLocalFile(new Path("/helloword.txt"), new Path("/home/huanganchi/Hadoop/实训项目/HadoopDemo/textHadoop/HdfsDemo/output"));
        //关闭资源
        fs.close();
    }
}

        这里需要注意作者使用的是linux系统,所以上传与下载文件的路径格式与windows不一样,windows的路径格式是这样的“盘://文件//文件”的格式。

 

(4)目录操作

        在cn.itcast.hdfsdemo包下,创建HDFS_operate的java文件,代码如下图。

package cn.itcast.hdfsdemo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;

public class HDFS_operate {
    FileSystem fs = null;
    @Before
    public void init() throws Exception {
        //构建配置参数对象:Configuration
        Configuration conf = new Configuration();
        //设置参数,指定要访问的文件系统的类型:HDFS文件系统
        conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
        //设置客户端的访问身份,以root身份访问HDFS
        System.setProperty("HADOOP_USER_NAME","root");
        //通过FileSystem类的静态方法,获取文件系统客户端对象
        fs = FileSystem.get(conf);
    }
    //在HDFS上创建、删除、重命名文件
    @Test
    public void testMkdirAndDeleteAndRename() throws IOException {
        //创建目录
        fs.mkdirs(new Path("/a/b/c"));
        fs.mkdirs(new Path("/a2/b2/c2"));
        //重命名文件或文件夹
        fs.rename(new Path("/a"), new Path("/a3"));
        //删除文件夹,如果是非空文件夹。参数2必须给值true
        fs.delete(new Path("/a2"), true);
        //关闭资源
        fs.close();
    }
}

创建目录

重命名

 

删除

 

(5)查看目录中的文件信息

 在cn.itcast.hdfsdemo包下,创建HDFS_check的java文件,代码如下图。

package cn.itcast.hdfsdemo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;

public class HDFS_check {
    FileSystem fs = null;
    @Before
    public void init() throws Exception {
        //构建配置参数对象:Configuration
        Configuration conf = new Configuration();
        //设置参数,指定要访问的文件系统的类型:HDFS文件系统
        conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
        //设置客户端的访问身份,以root身份访问HDFS
        System.setProperty("HADOOP_USER_NAME","root");
        //通过FileSystem类的静态方法,获取文件系统客户端对象
        fs = FileSystem.get(conf);
    }
    //查看目录信息,只显示文件
    @Test
    public void testListFiles() throws IOException {
        //获取迭代器对象
        //RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
        RemoteIterator<LocatedFileStatus> liFiles = fs.listFiles(new Path("/helloword.txt"), true);

        //遍历迭代器
        while (liFiles.hasNext()) {
            LocatedFileStatus fileStatus = liFiles.next();

            //打印当前文件名
            System.out.println(fileStatus.getPath().getName());
            打印当前文件块大小
            System.out.println(fileStatus.getBlockSize());
            //打印当前文件的权限
            System.out.println(fileStatus.getPermission());
            //打印当前文件内容的长度
            System.out.println(fileStatus.getLen());
            //获取文件块信息(块长度、块的datanode信息
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();
            for (BlockLocation bl : blockLocations) {
                System.out.println("blick-length:" + bl.getLength() + "--" + "block-offset:" + bl.getOffset());
                String[] hosts = bl.getHosts();
                for (String host : hosts) {
                    System.out.println(host);
                }
            }
            System.out.println("-------------分割线--------------");
        }
    }
}

 


参考书籍:

《Hadoop大数据技术原理与应用》P62-P63

猜你喜欢

转载自blog.csdn.net/weixin_63507910/article/details/128524812