▲作者:泰克教育大数据讲师李刚强 01 前情 本人在高校担任大数据讲师四年,期间遇到过一些棘手的问题,比如,高职院校需要购买大数据设备,但设备费用昂贵,那么在资金困难、学生数量众多的情况下,怎么解决这个问题呢?
这个时候我们就可以利用笔记本自己手动搭建大数据平台,这样不仅可以减轻高校的经济压力,同时学生也能够从底层了解大数据组件的架构原理,工作机制以及实现模式,两全其美。
现在我根据4年的教学经验在手动搭建平台方面做个简单的总结,希望对需要的人有所帮助。 02 需要的组件和工具 1、Windows7、Windows10所有版本,建议使用Win10专业版本; 2、VMware Workstation Pro、Centos6.4 (本文档使用Centos6.4操作系统); 3、远程工具SecureCRTPortable,用于远程连接集群(根据个人喜好使用XShell、WinSCP都可以) 这里不做限制; 4、Linux版本的JDK1.8以上; 5、hadoop组件,版本建议不要太高,我这里使用的是hadoop2.5.6,需要注意后期与其他组件的搭建是否兼容。 03 安装虚拟机 软硬件需求 1、操作系统:Windows 7或更高版本; 2、硬件需求:内存8G以上内存,500G以上硬盘; 3、软件: 1)虚拟机软件:VMware Workstation 12.exe以及激活密钥 2)系统镜像:CentOS-7-x86_64-DVD-1708.iso 3)ssh工具:SecureCRT 4)注:虚拟机到安装参考《基于Windows平台搭建hadoop伪分布式集群之虚拟机安装》 04搭建hadoop伪分布式环境 1、修改主机名:vi /etc/sysconfig/network,添加如下信息。 NETWORKING=yes HOSTNAME=hadoop[主机名] 2、修改网卡信息:vi /etc/sysconfig/network-scripts/ifcfg-eth0,其他的删除后留以下信息。 DEVICE=eth0 TYPE=Ethernet ONBOOT=yes BOOTPROTO=static IPADDR=192.168.100.110[这是本机IP地址] NETMASK=255.255.255.0 GATEWAY=192.168.100.2 DNS1=202.106.0.20 # DNS2=114.114.114.114 # DNS3=8.8.8.8 3、重启网卡服务:service network restart 4、使用SecureCRTPortable进行远程链接,如图,连接成功后输入密码即可登录。 5、主机名和IP地址的映射关系:vi /etc/hosts,编辑该文件后添加如下内容,将原本的localhost去掉。 192.168.100.110 hadoop 6、关闭防火墙 1、开启端口(推荐):vi /etc/sysconfig/iptables; 2、永久性关闭防火墙:chkconfig iptables off(需重启才生效,建议将防火墙永久性关闭); 3、临时关闭防火墙:service iptables stop; 7、安装JDK 1、查看默认:rpm -qa | grep java 2、卸载默认jdk:rpm -e --nodeps jdk1 jdk2 …… 3、进入/usr/local目录下创建一个bigdata文件夹 4、进入bigdata创建一个jdk的文件夹用于解压jdk,使用远程工具把linux版本的jdk上传到jdk目录中进行解压。 5、解压后配置环境变量:编辑/etc/profile/文件,vi /etc/profile,在文件底部添加如下信息: export JAVA_HOME=/usr/local/bigdata/jdk/jdk1.8.0_11 export PATH=$JAVA_HOME/bin PATH 6、重新加载环境变量:source /etc/profile 7、验证:输入java -version 8、安装hadoop(伪分布式) 8.1、进入/bigdata目录下,创建hadoop文件夹,将使用远程工具上传过来的hadoop解压到/bigdata目录下的/hadoop目录中,简单介绍几个hadoop的解压目录: sbin:存放启动和停止脚本目录 bin:存放相关服务(HDFS,YARN)操作脚本目录 etc:存放配置文件目录 share:存放依赖包和文档目录 lib:存放本地库目录 8.2、配置:进入hadoop的解压目录下的/etc/hadoop/目录中修改5个配置文件即可; 8.2.1、hadoop-env.sh修改JAVA_HOME路径(大约在第25行) export JAVA_HOME=/usr/local/bigdata/jdk/jdk1.8.0_11[JDK的解压路径] 8.2.2、core-site.xml在<configuration>里面添加如下 <!--配置hdfs的namenode的地址--> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop:9000</value> [说明:这里hadoop是主机名,做了映射的话用IP地址和主机都可以的] </property> <!--配置运行时产出数据存储目录,不是临时数据,可选项--> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadoop2.5.6/hadoop_tmp /</value> ( hadoop_tmp是临时存放数据的,不能用于存放hadoop的数据,所以这里要更改) </property> 8.2.3、hdfs-site.xml在<configuration>里面添加如下 <!--指定hdfs保存数据的副本数量--> <property> <name>dfs.replication</name> <value>1</value> </property> 8.2.4、将mapred-site.xml.template修改为mapred-site.xml(使用mv命令),在mapred-site.xml在<configuration>里面添加如下 <!--告诉hadoop以后MR(Map/Reduce)运行在YARN上--> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> 8.2.5、yarn-site.xml在<configuration>里面添加如下 <!--nomenodeManager获取数据的方式是shuffle--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!--指定Yarn的老大(ResourceManager)的地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop </value>[说明:hadoop是主机名] </property> 8.3、设置免密登录 1、进入 /etc/ssh/目录下,编辑文件sshd_config文件 2、将以下几行内容前面的#去掉 #RSAAuthentication yes #PubkeyAuthentication yes #AuthorizedKeysFile .ssh/authorized_keys 3、去掉#号之后,保存文件,重启ssh服务:service sshd restart 4、生成公钥:ssh-keygen -t rsa 5、复制公钥给主机:ssh-copy-id hadoop[主机名] 8.4、hadoop初始化 输入命令:hadoop namenode –format 即可进行初始化,初始化完成查看有无successfully,有则初始化成功。 8.5、启动服务 输入命令:start-all.sh,启动全部节点 8.6、查看进程:jps 有如下进程则代表hadoop伪分布式搭建成功 NameNode SecondaryNamendoe ResourceManager DataNode NodeManager 8.7、Web端访问 打开火狐浏览器,在地址栏输入http://192.168.100.110:50070[这是hdfs的访问地址] 重新打开页面输入http://192.168.100.110:8088[这是yarn的访问地址] 注意:如果无法访问,考虑防火墙是否关闭。 未完待续 END
欢迎加入到IE大家庭 这里有无数个IE人等待你来 共同勾勒IE王国蓝图 既已决定,就可行动 详情请扫描下方二维码咨询 ▼▼▼
|