Hadoop学习总结(搭建Hadoop集群的安装准备)

2023-09-20 14:10:01

目录

一、安装 jdk

1、查看电脑中安装的 jdk 版本

2、安装 jdk17

3、配置 path(配置jdk)

4、对 jdk8 和 jdk17 版本做自由切换

  二、安装vmware

三、安装centos 7(虚拟机)

四、虚拟机设置

五、虚拟机网络配置

1、查看 NAT 的网段

2、修改主机名

 (1)修改虚拟机的 hosts

(2)修改虚拟机的hostname

 3、在Windows中 ping虚拟机

六、其他的配置

1、使用远程工具

2、安装一些必要的工具

(1)安装额外的速度较快的镜像库

(2)安装同步工具,方便在多台服务器上进行文件的传输

(3)安装网络工具

(4)安装具有代码高亮显示的编辑器

3、关闭防火墙

(1)查看防火墙状态

(2)关闭防火墙

(3)查看防火墙状态

4、在虚拟机创建两个目录

七、克隆虚拟机

1、在虚拟机目录创建 Hadoop02 和 Hadoop03

2、克隆虚拟机

3、配置 IP 地址 和主机名

(1)配置Hadoop002的网段

 (2)修改虚拟机hadoop002的 hosts

(3)修改虚拟机hadoop002的 hostname

 (4)在Windows中 ping虚拟机(hadoop002)

 (5)配置Hadoop003

八、SSH免密登录功能配置

1、生成密钥

2、给虚拟机发公钥


      搭建Hadoop集群需要做安装准备,需要下载 jdk,安装VMware。

链接:https://pan.baidu.com/s/1wwTKk-XxHbccHjE-Xk2PTA 
提取码:q7j7 (这是网盘的分享链接,里面有jdk,VMware)

一、安装 jdk

      如果下载有jdk8,可以下载 jdk17(网盘里有安装包,也可到官网下载)

1、查看电脑中安装的 jdk 版本

      win+R 打开命令提示符界面 或者 直接在应用中搜命令提示符界面

  win+R ——> 输入cmd确定 进入命令提示符界面

输入

 java -version

 有图可以看出 jdk 版本是1.8(jdk8)

2、安装 jdk17

和安装 jdk8 是一样的

直接双击安装包

3、配置 path(配置jdk)

在电脑中打开设置——>高级系统设置——>环境变量

在系统变量中进行配置

添加两个JAVA_HOME,分别是 jdk8 和 jdk17 (安装前最好不更换路径)

添加 

然后一直确定确定

  win+R ——> 输入cmd确定 进入命令提示符界面  出现如下图表示安装成功

4、对 jdk8 和 jdk17 版本做自由切换

先进行删除

使用哪个版本的 jdk 就进行修改

 然后点击确定 确定 确定

win+R ——> 输入cmd确定 进入命令提示符界面

输入 java -verson 命令  (由图可知 是jdk8)

  二、安装vmware

(网盘中有安装包,也可到官网下载)

路径不修改,点击下一步

取消√后,点击下一步

这时不要点击完成(一定先不要点击完成)

点击许可证输入密钥

输入密钥后点击输入

即安装完成

三、安装centos 7(虚拟机)

先新建虚拟机

指定要安装的系统的镜像文件位置(网盘中有镜像安装包)

      先到 D盘 或者 E盘下,创建文件夹 vmfile\hadoop\c2\Hadoop01(文件自己创建,自己记得就行)

选好后,点击下一步

点击完成后虚拟机自动启动,选择安装系统

选择系统语言为中文,然后点击继续

调整时间(当前时间为几点就设置几点),然后点击完成

选择系统安装的位置,不要选择,直接点击完成

点击开始安装

设置密码(自己记住就行)

等待安装完成后重启即可

四、虚拟机设置

虚拟机——>设置

注意一定要选择Vmnet8(NAT模式)

五、虚拟机网络配置

目标:虚拟机和宿主机可以互相访问,虚拟机可以访问外网(www.baidu.com

虚拟机的网络模式分为 NAT 和 桥接

我们使用的是 NAT 模式

1、查看 NAT 的网段

虚拟网段为 176,IP 地址的范围 128 ~ 254

登录虚拟机后,输入以下命令

vi /etc/sysconfig/network-scripts/ifcfg-ens33

修改后保存退出

然后输入命令:service network restart(服务网络重启)

service network restart

 尝试连接百度:ping www.baidu.com

2、修改主机名

 (1)修改虚拟机的 hosts

输入ip a  查自己的IP

输入:vi /etc/hosts

vi /etc/hosts

添加 IP + 主机名   然后保存退出

 可以 ping 主机名 或 ping IP

为了方便配置后面的 Hadoop002 和 Hadoop003 添加 IP+主机名

 保存并退出  

(2)修改虚拟机的hostname

输入:vi /etc/hostname

vi /etc/hostname

删除原来的内容,修改为:hadoop001(主机名自己改),保存退出

 重启虚拟机可以看到

 3、在Windows中 ping虚拟机

现在需要到Windows的命令提示符界面(win+R)ping虚拟机

输入ip a  查自己的IP

修改windows 的hosts

这时要下载phpStudy(网盘有安装包,也可到官网下载)

打开phpStudy

用记事本打开(用别的打开也行),编辑并且保存

win+R ——> 输入cmd确定 进入命令提示符界面

输入:ping 主机名 或者 ping IP

六、其他的配置

1、使用远程工具

需要用到 Xshell (网盘中有安装包,也可到官网下载)

 输入密码,接受并保存

登录连接成功

2、安装一些必要的工具

在Xshell中输入以下命令安装工具

(1)安装额外的速度较快的镜像库

yum install -y epel-release

(2)安装同步工具,方便在多台服务器上进行文件的传输

yum install -y rsync

(3)安装网络工具

yum install -y net-tools

(4)安装具有代码高亮显示的编辑器

yum install -y vim

3、关闭防火墙

(1)查看防火墙状态

systemctl status firewalld

(2)关闭防火墙

取消 firewalld 服务自启开机

​​systemctl disable firewalld

 关闭 firewalld 服务

systemctl disable firewalld

(3)查看防火墙状态

​systemctl status firewalld

4、在虚拟机创建两个目录

software 用于存储软件安装包

module 用于存放安装包解压后的文件

七、克隆虚拟机

1、在虚拟机目录创建 Hadoop02 和 Hadoop03

2、克隆虚拟机

克隆之前先关闭虚拟机

克隆完成

按照克隆Hadoop002的方法去克隆Hadoop003

3、配置 IP 地址 和主机名

 根据Hadoop001的 IP 把 Hadoop002 和 Hadoop003 的 IP 分别修改

(1)配置Hadoop002的网段

vi /etc/sysconfig/network-scripts/ifcfg-ens33

保存退出 

然后输入命令:service network restart(服务网络重启)

service network restart

尝试连接百度:ping baidu.com​​​​​​

 (2)修改虚拟机hadoop002的 hosts

输入ip a  查自己的IP

输入:

vi /etc/hosts

添加 IP + 主机名   然后保存退出

 可以 ping 主机名 或 ping IP

(3)修改虚拟机hadoop002的 hostname

 输入:

vi /etc/hostname

删除原来的内容,修改为:hadoop002(主机名自己改),保存退出

 重启虚拟机可以看到

 (4)在Windows中 ping虚拟机(hadoop002)

现在需要到Windows的命令提示符界面(win+R)ping虚拟机

输入ip a  查自己的IP

修改windows 的hosts

这时要下载phpStudy(网盘有安装包,也可到官网下载)

打开phpStudy

用记事本打开(用别的打开也行),编辑并且保存

win+R ——> 输入cmd确定 进入命令提示符界面

输入:ping 主机名 或者 ping IP

 (5)配置Hadoop003

和配置Hadoop002一样操作

和配置Hadoop002一样操作

和配置Hadoop002一样操作

八、SSH免密登录功能配置

在 SecurityCRT 或者 Xshell 进行连接

1、生成密钥

先给hadoop001生成密钥

输入

ssh-keygen -t rsa

可以不用输入任何内容,连续按四次Enter键确认,生产密钥

查看 ls –a

 ls –a

进入 .ssh隐藏目录

命令:

cd .ssh

查看命令:ll

Id_rsa是hadoop01的私钥  Id_rsa.pub是公钥

以此类推给hadoop02和hadoop03生成密钥

以此类推给hadoop02和hadoop03生成密钥

以此类推给hadoop02和hadoop03生成密钥

2、给虚拟机发公钥

发公钥先给hadoop01发一个公钥

命令:ssh-copy-id +主机名

ssh-copy-id +主机名

输入Yes  然后输入密码可以是密码都一样

查看公钥是否发成功

命令:cat authorized_keys

cat authorized_keys

在hadoop01中给hadoop02和hadoop03分别发公钥

在hadoop01中给hadoop02和hadoop03分别发公钥

在hadoop01中给hadoop02和hadoop03分别发公钥

命令:ssh-copy-id +主机名

ssh-copy-id +主机名

Yes  然后输入密码

然后去hadoop02和hadoop03查看

查看公钥是否发成功

命令:cat authorized_keys

cat authorized_keys

以此类推hadoop01、hadoop02、hadoop03三台虚拟机相互发公钥,都互相有公钥

以此类推hadoop01、hadoop02、hadoop03三台虚拟机相互发公钥,都互相有公钥

查看公钥是否发成功

命令:cat authorized_keys

cat authorized_keys

查看三台虚拟机发现都相互有公钥就可以了

更多推荐

竞赛选题 基于机器视觉的二维码识别检测 - opencv 二维码 识别检测 机器视觉

文章目录0简介1二维码检测2算法实现流程3特征提取4特征分类5后处理6代码实现5最后0简介🔥优质竞赛项目系列,今天要分享的是基于机器学习的二维码识别检测-opencv二维码识别检测机器视觉该项目较为新颖,适合作为竞赛课题方向,学长非常推荐!🧿更多资料,项目分享:https://gitee.com/dancheng-

基于Android+OpenCV+CNN+Keras的智能手语数字实时翻译——深度学习算法应用(含Python、ipynb工程源码)+数据集(四)

目录前言总体设计系统整体结构图系统流程图运行环境模块实现1.数据预处理2.数据增强3.模型构建4.模型训练及保存5.模型评估6.模型测试1)权限注册2)模型导入3)总体模型构建4)处理视频中的预览帧数据5)处理图片数据6)多页面设置7)布局文件代码相关其它博客工程源代码下载其它资料下载前言本项目依赖于Keras深度学习

【操作系统笔记】任务调度&信号处理&CPU上下文

任务调度何时需要调度执行一个任务?第一:当任务创建的时候,需要决定是继续执行父进程,还是调度执行子进程第二:在一个任务退出时,需要做出调度决策,需要从TASK_RUNNING状态的所有任务中选择一个任务来执行第三:当一个任务阻塞在I/O上,或者因为其他原因阻塞,必须调度另一个任务执行第四:在一个I/O中断发生时,必须做

Docker网络学习

文章目录Docker容器网络1.Docker为什么需要网络管理2.Docker网络简介3.常见的网络类型4.docker网络管理命令5.两种网络加入差异6.网络讲解dockerBridge网络dockerHost网络dockerContainer网络dockernone网络Docker容器网络1.Docker为什么需要

Redis 面霸篇:从高频问题透视核心原理

Redis为什么这么快?很多人只知道是K/VNoSQl内存数据库,单线程……这都是没有全面理解Redis导致无法继续深问下去。这个问题是基础摸底,我们可以从Redis不同数据类型底层的数据结构实现、完全基于内存、IO多路复用网络模型、线程模型、渐进式rehash…...到底有多快?我们可以先说到底有多快,根据官方数据,

设计模式解析之模板方法模式:设计灵活可扩展的算法框架

目录1.引言2.概要2.1概念2.2结构2.3类图2.4工作流程3.应用场景3.1适用情况:3.2常见例子:4.代码衍化过程初版:甲乙学生都抄试卷第二版:提炼代码第三版:抽象出算法骨架第四版:模板方法变化过程总结及未来展望5.总结1.引言在软件开发中,设计和实现算法是一项常见的任务。然而,随着需求的变化和代码的增长,算

十二、MySql的事务(下)

文章目录一、事务隔离级别(一)如何理解隔离性(二)隔离级别1.读未提交【ReadUncommitted】:2.读提交【ReadCommitted】:3.可重复读【RepeatableRead】:4.串行化【Serializable】:(三)查看与设置隔离性1.查看全局隔离级别2.查看会话(当前)全局隔离级别3.设置全局

C++ - AVL 树 介绍 和 实现 (上篇)

前言之前我介绍了二叉搜索树,可看一下博客:C++-搜索二叉树_chihiro1122的博客-CSDN博客二叉搜索树的效率可以达到O(logn)。这个复杂度的算法的效率是非常恐怖的,2的30次方大概是10亿左右。也就是说如果用暴力查找需要找10亿次,而最好的效率的二叉搜索树只用搜索30次。是非常恐怖的。为什么说是最好效率

如何连接到远程桌面

远程桌面连接是一个非常有用的工具,尤其是当越来越多的人在家工作或使用自己的设备工作时。使用远程桌面连接软件,管理员即使不在您的设备附近,也可以解决问题,他们可以远程访问它并快速解决可能出现的任何问题。什么是远程桌面连接远程桌面连接是一种远程操作电脑的模式,它可以用于可视化访问远程计算机的桌面环境,用于管理员在客户机上对

找不到msvcp140.dll的解决方法,以及msvcp140.dll丢失的原因

在计算机使用过程中,我们可能会遇到无法启动程序的问题,提示找不到msvcp140.dll。这使得许多用户感到困扰,因为msvcp140.dll是MicrosoftVisualC++Redistributable的一个组件,它包含了C++运行时库。这个库对于许多应用程序和游戏来说都是必需的。那么,为什么会出现找不到msv

Spring MVC 请求参数绑定

文章目录默认⽀持ServletAPI作为⽅法参数绑定简单类型参数绑定Pojo类型参数绑定⽇期类型参数(需要配置⾃定义类型转换器)路径变量参数SpringMVC是一个用于构建Web应用程序的框架,它提供了一种方便的方式来处理HTTP请求和响应。在SpringMVC中,请求参数绑定是将HTTP请求中的参数映射到控制器方法的

热文推荐