分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - HDFS中的Java和Python API接口连接

HDFS中的Java和Python API接口连接

2021-04-15 00:53Python之王小sen Python

今天进入HDFS中的Java和Python的API操作，后面可能介绍Scala的相关的。

HDFS中的Java和Python API接口连接

上次介绍了HDFS的简单操作，今天进入HDFS中的Java和Python的API操作，后面可能介绍Scala的相关的。

在讲Java API之前介绍一下使用的IDE——IntelliJ IDEA ，我本人使用的是2020.3 x64的社区版本。

Java API

创建maven工程，关于Maven的配置，在IDEA中，Maven下载源必须配置成阿里云。

HDFS中的Java和Python API接口连接

在对应的D:\apache-maven-3.8.1-bin\apache-maven-3.8.1\conf\settings.xml需要设置阿里云的下载源。

下面创建maven工程，添加常见的依赖

HDFS中的Java和Python API接口连接

添加hadoop-client依赖，版本最好和hadoop指定的一致，并添加junit单元测试依赖。

<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.1.4</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>3.1.4</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.1.4</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.11</version>
</dependency>
</dependencies>

HDFS文件上传

在这里编写测试类即可，新建一个java文件：main.java

这里的FileSyste一开始是本地的文件系统，需要初始化为HDFS的文件系统

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;
import java.net.URI;
public class main {
@Test
public void testPut() throws Exception {
// 获取FileSystem类的方法有很多种，这里只写一种(比较常用的是使URI)
Configuration configuration = new Configuration();
// user是Hadoop集群的账号，连接端口默认9000
FileSystem fileSystem = FileSystem.get(
new URI("hdfs://192.168.147.128:9000"),
configuration,
"hadoop");
// 将f:/stopword.txt 上传到 /user/stopword.txt
fileSystem.copyFromLocalFile(
new Path("f:/stopword.txt"), new Path("/user/stopword.txt"));
fileSystem.close();
}
}

在对应的HDFS中，就会看见我刚刚上传的机器学习相关的停用词。

HDFS中的Java和Python API接口连接

HDFS文件下载

由于每次都需要初始化FileSystem，比较懒的我直接使用@Before每次加载。

HDFS文件下载的API接口是copyToLocalFile，具体代码如下。

@Test
public void testDownload() throws Exception {
Configuration configuration = new Configuration();
FileSystem fileSystem = FileSystem.get(
new URI("hdfs://192.168.147.128:9000"),
configuration,
"hadoop");
fileSystem.copyToLocalFile(
false,
new Path("/user/stopword.txt"),
new Path("stop.txt"),
true);
fileSystem.close();
System.out.println("over");
}

Python API

下面主要介绍hdfs，参考：https://hdfscli.readthedocs.io/

我们通过命令pip install hdfs安装hdfs库，在使用hdfs前，使用命令hadoop fs -chmod -R 777 / 对当前目录及目录下所有的文件赋予可读可写可执行权限。

>>> from hdfs.client import Client
>>> #2.X版本port 使用50070 3.x版本port 使用9870
>>> client = Client('http://192.168.147.128:9870')
>>> client.list('/') #查看hdfs /下的目录
['hadoop-3.1.4.tar.gz']
>>> client.makedirs('/test')
>>> client.list('/')
['hadoop-3.1.4.tar.gz', 'test']
>>> client.delete("/test")
True
>>> client.download('/hadoop-3.1.4.tar.gz','C:\\Users\\YIUYE\\Desktop')
'C:\\Users\\YIUYE\\Desktop\\hadoop-3.1.4.tar.gz'
>>> client.upload('/','C:\\Users\\YIUYE\\Desktop\\demo.txt')
>>> client.list('/')
'/demo.txt'
>>> client.list('/')
['demo.txt', 'hadoop-3.1.4.tar.gz']
>>> # 上传demo.txt 内容：Hello \n hdfs
>>> with client.read("/demo.txt") as reader:
... print(reader.read())
b'Hello \r\nhdfs\r\n'

相对于Java API，Python API连接实在简单。

【原文地址】：https://mp.weixin.qq.com/s/nUikb7_wVSSSSy6qPMG4WQ

延伸 · 阅读

2022-03-11Java京东面试题之为什么HashMap线程不安全
2022-03-11Java面试为何阿里强制要求不在foreach里执行删除操
2022-03-11图解Java排序算法之希尔排序
2022-03-11图解Java排序算法之快速排序的三数取中法
2022-03-11图解Java排序算法之堆排序
2022-03-11java中TreeMap集合的常用方法详解

精彩推荐

Python

Python实现ping指定IP的示例

今天小编就为大家分享一篇Python实现ping指定IP的示例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

EpisodeOne12902021-02-28
Python

Python3以GitHub为例来实现模拟登录和爬取的实例讲解

在本篇内容里小编给大家分享的是关于Python3以GitHub为例来实现模拟登录和爬取的实例讲解，需要的朋友们可以参考下。 ...

爱喝马黛茶的安东尼5262020-07-31
Python

python直接访问私有属性的简单方法

下面小编就为大家带来一篇python直接访问私有属性的简单方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧 ...

Python教程网5152020-09-03
Python

python 列表转为字典的两个小方法(小结)

这篇文章主要介绍了python 列表转为字典的两个小方法(小结)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的...

出泥的鱼16542021-07-25
Python

python 插入Null值数据到Postgresql的操作

这篇文章主要介绍了python 插入Null值数据到Postgresql的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

MichaelZhu6452021-09-16
Python

在Windows系统上搭建Nginx+Python+MySQL环境的教程

这篇文章主要介绍了在Windows系统上搭建Nginx+Python+MySQL环境的教程,文中使用flup中间件及FastCGI方式连接,需要的朋友可以参考下 ...

没有终点的列车13242020-08-05
Python

使用NumPy和pandas对CSV文件进行写操作的实例

今天小编就为大家分享一篇使用NumPy和pandas对CSV文件进行写操作的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

qq_2468356113602021-03-05
Python

Python的dict字典结构操作方法学习笔记

这篇文章主要介绍了Python的dict字典结构操作方法学习笔记本,字典的操作是Python入门学习中的基础知识,需要的朋友可以参考下...

Lizo_Is_Me4402020-08-22