Hadoop学习总结（搭建Hadoop集群的安装准备）

Hadoop学习总结（搭建Hadoop集群的安装准备）

2023-09-20 14:10:01

目录

一、安装 jdk

1、查看电脑中安装的 jdk 版本

2、安装 jdk17

3、配置 path（配置jdk）

4、对 jdk8 和 jdk17 版本做自由切换

二、安装vmware

三、安装centos 7（虚拟机）

四、虚拟机设置

五、虚拟机网络配置

1、查看 NAT 的网段

2、修改主机名

（1）修改虚拟机的 hosts

（2）修改虚拟机的hostname

3、在Windows中 ping虚拟机

六、其他的配置

1、使用远程工具

2、安装一些必要的工具

（1）安装额外的速度较快的镜像库

（2）安装同步工具，方便在多台服务器上进行文件的传输

（3）安装网络工具

（4）安装具有代码高亮显示的编辑器

3、关闭防火墙

（1）查看防火墙状态

（2）关闭防火墙

（3）查看防火墙状态

4、在虚拟机创建两个目录

七、克隆虚拟机

1、在虚拟机目录创建 Hadoop02 和 Hadoop03

2、克隆虚拟机

3、配置 IP 地址和主机名

（1）配置Hadoop002的网段

（2）修改虚拟机hadoop002的 hosts

（3）修改虚拟机hadoop002的 hostname

（4）在Windows中 ping虚拟机（hadoop002）

（5）配置Hadoop003

八、SSH免密登录功能配置

1、生成密钥

2、给虚拟机发公钥

搭建Hadoop集群需要做安装准备，需要下载 jdk，安装VMware。

链接：https://pan.baidu.com/s/1wwTKk-XxHbccHjE-Xk2PTA
提取码：q7j7 （这是网盘的分享链接，里面有jdk，VMware）

一、安装 jdk

如果下载有jdk8，可以下载 jdk17（网盘里有安装包，也可到官网下载）

1、查看电脑中安装的 jdk 版本

win+R 打开命令提示符界面或者直接在应用中搜命令提示符界面

win+R ——> 输入cmd确定进入命令提示符界面

输入

 java -version

有图可以看出 jdk 版本是1.8（jdk8）

2、安装 jdk17

和安装 jdk8 是一样的

直接双击安装包

3、配置 path（配置jdk）

在电脑中打开设置——>高级系统设置——>环境变量

在系统变量中进行配置

添加两个JAVA_HOME，分别是 jdk8 和 jdk17 （安装前最好不更换路径）

添加

然后一直确定确定

win+R ——> 输入cmd确定进入命令提示符界面出现如下图表示安装成功

4、对 jdk8 和 jdk17 版本做自由切换

先进行删除

使用哪个版本的 jdk 就进行修改

然后点击确定确定确定

win+R ——> 输入cmd确定进入命令提示符界面

输入 java -verson 命令（由图可知是jdk8）

二、安装vmware

（网盘中有安装包，也可到官网下载）

路径不修改，点击下一步

取消√后，点击下一步

这时不要点击完成（一定先不要点击完成）

点击许可证输入密钥

输入密钥后点击输入

即安装完成

三、安装centos 7（虚拟机）

先新建虚拟机

指定要安装的系统的镜像文件位置（网盘中有镜像安装包）

先到 D盘或者 E盘下，创建文件夹 vmfile\hadoop\c2\Hadoop01（文件自己创建，自己记得就行）

选好后，点击下一步

点击完成后虚拟机自动启动，选择安装系统

选择系统语言为中文，然后点击继续

调整时间（当前时间为几点就设置几点），然后点击完成

选择系统安装的位置，不要选择，直接点击完成

点击开始安装

设置密码（自己记住就行）

等待安装完成后重启即可

四、虚拟机设置

虚拟机——>设置

注意一定要选择Vmnet8（NAT模式）

五、虚拟机网络配置

目标：虚拟机和宿主机可以互相访问，虚拟机可以访问外网（www.baidu.com）

虚拟机的网络模式分为 NAT 和桥接

我们使用的是 NAT 模式

1、查看 NAT 的网段

虚拟网段为 176，IP 地址的范围 128 ~ 254

登录虚拟机后，输入以下命令

vi /etc/sysconfig/network-scripts/ifcfg-ens33

修改后保存退出

然后输入命令：service network restart（服务网络重启）

service network restart

尝试连接百度：ping www.baidu.com

2、修改主机名

（1）修改虚拟机的 hosts

输入ip a 查自己的IP

输入：vi /etc/hosts

vi /etc/hosts

添加 IP + 主机名然后保存退出

可以 ping 主机名或 ping IP

为了方便配置后面的 Hadoop002 和 Hadoop003 添加 IP+主机名

保存并退出

（2）修改虚拟机的hostname

输入：vi /etc/hostname

vi /etc/hostname

删除原来的内容，修改为：hadoop001（主机名自己改），保存退出

重启虚拟机可以看到

3、在Windows中 ping虚拟机

现在需要到Windows的命令提示符界面（win+R）ping虚拟机

输入ip a 查自己的IP

修改windows 的hosts

这时要下载phpStudy（网盘有安装包，也可到官网下载）

打开phpStudy

用记事本打开（用别的打开也行），编辑并且保存

win+R ——> 输入cmd确定进入命令提示符界面

输入：ping 主机名或者 ping IP

六、其他的配置

1、使用远程工具

需要用到 Xshell （网盘中有安装包，也可到官网下载）

输入密码，接受并保存

登录连接成功

2、安装一些必要的工具

在Xshell中输入以下命令安装工具

（1）安装额外的速度较快的镜像库

yum install -y epel-release

（2）安装同步工具，方便在多台服务器上进行文件的传输

yum install -y rsync

（3）安装网络工具

yum install -y net-tools

（4）安装具有代码高亮显示的编辑器

yum install -y vim

3、关闭防火墙

（1）查看防火墙状态

systemctl status firewalld

（2）关闭防火墙

取消 firewalld 服务自启开机

systemctl disable firewalld

关闭 firewalld 服务

systemctl disable firewalld

（3）查看防火墙状态

systemctl status firewalld

4、在虚拟机创建两个目录

software 用于存储软件安装包

module 用于存放安装包解压后的文件

七、克隆虚拟机

1、在虚拟机目录创建 Hadoop02 和 Hadoop03

2、克隆虚拟机

克隆之前先关闭虚拟机

克隆完成

按照克隆Hadoop002的方法去克隆Hadoop003

3、配置 IP 地址和主机名

根据Hadoop001的 IP 把 Hadoop002 和 Hadoop003 的 IP 分别修改

（1）配置Hadoop002的网段

vi /etc/sysconfig/network-scripts/ifcfg-ens33

保存退出

然后输入命令：service network restart（服务网络重启）

service network restart

尝试连接百度：ping baidu.com

（2）修改虚拟机hadoop002的 hosts

输入ip a 查自己的IP

输入：

vi /etc/hosts

添加 IP + 主机名然后保存退出

可以 ping 主机名或 ping IP

（3）修改虚拟机hadoop002的 hostname

输入：

vi /etc/hostname

删除原来的内容，修改为：hadoop002（主机名自己改），保存退出

重启虚拟机可以看到

（4）在Windows中 ping虚拟机（hadoop002）

现在需要到Windows的命令提示符界面（win+R）ping虚拟机

输入ip a 查自己的IP

修改windows 的hosts

这时要下载phpStudy（网盘有安装包，也可到官网下载）

打开phpStudy

用记事本打开（用别的打开也行），编辑并且保存

win+R ——> 输入cmd确定进入命令提示符界面

输入：ping 主机名或者 ping IP

（5）配置Hadoop003

和配置Hadoop002一样操作

和配置Hadoop002一样操作

和配置Hadoop002一样操作

八、SSH免密登录功能配置

在 SecurityCRT 或者 Xshell 进行连接

1、生成密钥

先给hadoop001生成密钥

输入

ssh-keygen -t rsa

可以不用输入任何内容，连续按四次Enter键确认，生产密钥

查看 ls –a

 ls –a

进入 .ssh隐藏目录

命令：

cd .ssh

查看命令：ll

Id_rsa是hadoop01的私钥 Id_rsa.pub是公钥

以此类推给hadoop02和hadoop03生成密钥

以此类推给hadoop02和hadoop03生成密钥

以此类推给hadoop02和hadoop03生成密钥

2、给虚拟机发公钥

发公钥先给hadoop01发一个公钥

命令：ssh-copy-id +主机名

ssh-copy-id +主机名

输入Yes 然后输入密码可以是密码都一样

查看公钥是否发成功

命令：cat authorized_keys

cat authorized_keys

在hadoop01中给hadoop02和hadoop03分别发公钥

在hadoop01中给hadoop02和hadoop03分别发公钥

在hadoop01中给hadoop02和hadoop03分别发公钥

命令：ssh-copy-id +主机名

ssh-copy-id +主机名

Yes 然后输入密码

然后去hadoop02和hadoop03查看

查看公钥是否发成功

命令：cat authorized_keys

cat authorized_keys

以此类推hadoop01、hadoop02、hadoop03三台虚拟机相互发公钥，都互相有公钥

以此类推hadoop01、hadoop02、hadoop03三台虚拟机相互发公钥，都互相有公钥

查看公钥是否发成功

命令：cat authorized_keys

cat authorized_keys

查看三台虚拟机发现都相互有公钥就可以了

更多推荐

竞赛选题基于机器视觉的二维码识别检测 - opencv 二维码识别检测机器视觉

文章目录0简介1二维码检测2算法实现流程3特征提取4特征分类5后处理6代码实现5最后0简介🔥优质竞赛项目系列，今天要分享的是基于机器学习的二维码识别检测-opencv二维码识别检测机器视觉该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！🧿更多资料,项目分享：https://gitee.com/dancheng-

基于Android+OpenCV+CNN+Keras的智能手语数字实时翻译——深度学习算法应用(含Python、ipynb工程源码)+数据集（四）

目录前言总体设计系统整体结构图系统流程图运行环境模块实现1.数据预处理2.数据增强3.模型构建4.模型训练及保存5.模型评估6.模型测试1）权限注册2）模型导入3）总体模型构建4）处理视频中的预览帧数据5）处理图片数据6）多页面设置7）布局文件代码相关其它博客工程源代码下载其它资料下载前言本项目依赖于Keras深度学习

【操作系统笔记】任务调度&信号处理&CPU上下文

任务调度何时需要调度执行一个任务？第一：当任务创建的时候，需要决定是继续执行父进程，还是调度执行子进程第二：在一个任务退出时，需要做出调度决策，需要从TASK_RUNNING状态的所有任务中选择一个任务来执行第三：当一个任务阻塞在I/O上，或者因为其他原因阻塞，必须调度另一个任务执行第四：在一个I/O中断发生时，必须做

Docker网络学习

文章目录Docker容器网络1.Docker为什么需要网络管理2.Docker网络简介3.常见的网络类型4.docker网络管理命令5.两种网络加入差异6.网络讲解dockerBridge网络dockerHost网络dockerContainer网络dockernone网络Docker容器网络1.Docker为什么需要

Redis 面霸篇：从高频问题透视核心原理

Redis为什么这么快？很多人只知道是K/VNoSQl内存数据库，单线程……这都是没有全面理解Redis导致无法继续深问下去。这个问题是基础摸底，我们可以从Redis不同数据类型底层的数据结构实现、完全基于内存、IO多路复用网络模型、线程模型、渐进式rehash…...到底有多快？我们可以先说到底有多快，根据官方数据，

设计模式解析之模板方法模式：设计灵活可扩展的算法框架

目录1.引言2.概要2.1概念2.2结构2.3类图2.4工作流程3.应用场景3.1适用情况：3.2常见例子：4.代码衍化过程初版：甲乙学生都抄试卷第二版：提炼代码第三版：抽象出算法骨架第四版：模板方法变化过程总结及未来展望5.总结1.引言在软件开发中，设计和实现算法是一项常见的任务。然而，随着需求的变化和代码的增长，算

十二、MySql的事务（下）

文章目录一、事务隔离级别（一）如何理解隔离性（二）隔离级别1.读未提交【ReadUncommitted】：2.读提交【ReadCommitted】：3.可重复读【RepeatableRead】：4.串行化【Serializable】:（三）查看与设置隔离性1.查看全局隔离级别2.查看会话(当前)全局隔离级别3.设置全局

C++ - AVL 树介绍和实现（上篇）

前言之前我介绍了二叉搜索树，可看一下博客：C++-搜索二叉树_chihiro1122的博客-CSDN博客二叉搜索树的效率可以达到O(logn)。这个复杂度的算法的效率是非常恐怖的，2的30次方大概是10亿左右。也就是说如果用暴力查找需要找10亿次，而最好的效率的二叉搜索树只用搜索30次。是非常恐怖的。为什么说是最好效率

如何连接到远程桌面

远程桌面连接是一个非常有用的工具，尤其是当越来越多的人在家工作或使用自己的设备工作时。使用远程桌面连接软件，管理员即使不在您的设备附近，也可以解决问题，他们可以远程访问它并快速解决可能出现的任何问题。什么是远程桌面连接远程桌面连接是一种远程操作电脑的模式，它可以用于可视化访问远程计算机的桌面环境，用于管理员在客户机上对

找不到msvcp140.dll的解决方法，以及msvcp140.dll丢失的原因

在计算机使用过程中，我们可能会遇到无法启动程序的问题，提示找不到msvcp140.dll。这使得许多用户感到困扰，因为msvcp140.dll是MicrosoftVisualC++Redistributable的一个组件，它包含了C++运行时库。这个库对于许多应用程序和游戏来说都是必需的。那么，为什么会出现找不到msv

Spring MVC 请求参数绑定

文章目录默认⽀持ServletAPI作为⽅法参数绑定简单类型参数绑定Pojo类型参数绑定⽇期类型参数（需要配置⾃定义类型转换器）路径变量参数SpringMVC是一个用于构建Web应用程序的框架，它提供了一种方便的方式来处理HTTP请求和响应。在SpringMVC中，请求参数绑定是将HTTP请求中的参数映射到控制器方法的

热文推荐

Spring MVC 中的数据绑定和验证机制是什么，如何使用

在SpringMVC应用中，数据绑定和验证是非常重要的一部分，它们可以帮助我们将用户提交的数据绑定到Java对象上，并对数据进行验证，保证数据的正确性和可靠性。在SpringMVC中，数据绑定和验证机制都是通过注解来实现的。本文将介绍SpringMVC中的数据绑定和验证机制，以及如何使用它们。数据绑定数据绑定是将用户提
SSM整合(细节拉满)|将Mybatis、Spring、SpringMVC三个框架整合起来，通过一个demo来练习

环境要求环境:IDEAMySQL5.7.19Tomcat9Maven3.6要求:需要熟练掌握MySQL数据库，Spring，JavaWeb及MyBatis知识，简单的前端知识;数据库环境创建一个存放书籍数据的数据库表，并插入一些示例数据SSM整合新建一个空的Maven项目导入相关依赖将数据库与IDEA连接起来把项目结构
解决Spring Boot 2.7.16 在服务器显示启动成功无法访问问题：从本地到服务器的部署坑

🌷🍁博主猫头虎带您GotoNewWorld.✨🍁🦄博客首页——猫头虎的博客🎐🐳《面试题大全专栏》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~🌺🌊《IDEA开发秘籍专栏》学会IDEA常用操作，工作效率翻倍~💐🌊《100天精通Golang(基础入门篇）》学会Golang语言，畅玩云原生，走遍大
如何高效管理多个 Outlook 邮箱？

在我们日常工作和生活中，使用多个Outlook邮箱可以带来一定的便利和灵活性。本文将介绍多个Outlook邮箱的用途，以及如何注册多个Outlook邮箱并确保它们之间不关联。最后，我们将讨论管理多个Outlook邮箱所面临的困难，并介绍一个解决方案——VMLogin浏览器，可以高效管理多个账号并防止关联问题。一、多个O
RocketMQ 发送事务消息

文章目录事务的相关理论事务ACID特性CAP理论BASE理论事务消息应用场景MQ事务消息处理处理逻辑RocketMQ事务消息处理流程官网事务消息流程图rocketmq-client-java示例（gRPC协议）创建事务主题生产者消费者rocketmq-client示例（Remoting协议）生产者消费者事务的相关理论事
初识ElasticSearch

文章目录初识ElasticSearch前言1、初识ElasticSearch1.1ES概述1.2倒排索引1.3ES中的一些常见概念1.4安装ES和Kibana2、索引库操作2.1Mapping映射属性2.2索引库的CRUD2.2.1创建索引和映射2.2.2查询索引库2.2.3修改索引库2.2.4删除索引库3、文档操作3
走近ChatGPT与类似产品：原理解析与比较

目录1.引言1.1技术的进步与自然语言处理1.2ChatGPT的崭新概念2.ChatGPT:一览众山小2.1GPT-3.5架构简介2.2ChatGPT的学习与训练2.3文本生成的工作原理3.市场上类似产品调研3.1对话式人工智能产品分类3.2文心一言3.3讯飞星火4.应用前景与局限性展望4.1ChatGPT的未来应用场
【学习笔记】多模态综述

多模态综述前言1.CLIP&ViLT2.ALBEF3.VLMO4.BLIP5.CoCa6.BeiTv3总结参考链接前言本篇学习笔记虽然是多模态综述，本质上是对ViLT后多模态模型的总结，时间线为2021年至2022年，在这两年，多模态领域的模型也是卷的飞起，不断刷新领域的SOTA。在模型结构和数据上提出了很多高效有用的
【数据结构】图的遍历：广度优先（BFS），深度优先（DFS）

目录1、广度优先（BFS）算法思想广度优先生成树知识树代码实现2、深度优先（DFS）算法思想深度优先生成树知识树代码实现1、广度优先（BFS）算法思想图的广度优先遍历（BFS）是一种遍历图的算法，其思想是从起始顶点开始遍历图，先访问起始顶点的所有直接邻居，然后遍历这些邻居的直接邻居，以此类推，直到遍历完整个图。BFS算