Python大数据应用简介 简介:目前业界主流存储与分析平台以Hadoop为主的开源生态圈,MapReduce作为Hadoop的数据集的并行运算模型,除了提供Java编写MapReduce任务外,还兼容了Streaming方式,可以使用任意脚本语言来编写MapReduce任务,优点是开发简单且灵活。 Hadoop环境部署 1、部署Hadoop需要Master访问所有Slave主机实现无密码登陆,即配置账号公钥认证。 2、Master主机安装JDK环境 3、Master主机安装Hadoop 3.1、下载Hadoop,解压到/usr/local目录下 3.2、修改hadoop-env.sh中java环境变量 3.3、修改core-site.xml(Hadoop core的配置文件) 3.4、修改hdfs-site.xml(Hadoop的HDFS组件的配置项) 3.5、修改mapred-site.xml(配置map-reduce组件的属性,包括jobtracker和tasktracker) 3.6、修改masters,slaves配置文件 masters文件 slaves文件 4、Slave主机配置 4.1、配置和Master主机一样的JDK环境,目标路径保持一致 4.2、将Master主机配置好的hadoop环境复制到Slave主机上 5、配置防火墙 master主机 Slave主机 6、检验结果 6.1、在Master主机上执行启动命令(在安装目录底下) 所示结果如下,表示启动成功 6.2、在Master主机上测试MapReduce示例 所示结果如下,表示配置成功 7、补充:访问Hadoop提供的管理页面 Map/Reduce管理地址:192.168.1.1:50030 HDFS管理地址:192.168.1.1:50070 来源:51CTO博客 作者:系统运维工程成长之路 学校:誉天教育 QQ:3200569443 微信:13487088610
|