参考文章地址:
参考文章一步一步安装,有以下几个注意点
准备工作:系统环境搭建
1.在准备工作系统环境搭建6步都不能少,但不必参照文章上的做法,参照本人之前的博客。
2.在第3步中,参考我的博客:,一定要做博客中的第6步,将jdk软链接到/usr/java/default,否则的话后面部署客户端配置一定会报错:, 安装完jdk之后,需执行命令:echo "JAVA_HOME=/apps/jdk1.7.0_55" >> /etc/environment,把jdk配置到环境变量中,同时一定要安装oracle的jdk,我们在oracle官网下的都是oracle 的jdk,使用命令java -version查看java版本,带有HotSpot的是oraclejdk,参考:
3.第4步mysql的设置,安装本人的博客安装mysql:,优化设置好了之后,root用户是可以在任意节点拥有所以权限,就不需要按照参考文章上的“设置root授权访问以上所有的数据库”这一步了,然后也不需要先就创建hive和amon数据库,在添加服务的时候,提示要数据库时再去创建即可,创建数据库的命令如下:create database hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
4.安装前,先优化linux服务器,参考, Linux服务器初始化优化 :https://my.oschina.net/cjun/blog/761282
正式开工
1.去官网下载cloudera-manager-el6-cm5.7.1_x86_64.tar.gz,注意el6就是enterprise linux6,和centos6的包是通用的,官网地址:
2.在主节点将压缩包解压到/opt目录,tar –zxvf cloudera-manager-el6-cm5.7.1_x86_64.tar.gz /opt,安装cloudera manager就用root用户装了,也别想着用别的用户安装,太麻烦。
3.将mysql的驱动包mysql-connector-java-5.1.35-bin.jar上传到/opt/cm-5.7.1/share/cmf/lib目录下。
4.初始化cm的数据库:/opt/cm-5.7.1/share/cmf/schema/scm_prepare_database.sh mysql -h 192.168.1.11 -uroot -p123456 --scm-host 192.168.1.11 scm scm scm
参数解释:mysql,代表数据库类型是mysql数据库。-h –u -p就是数据库的域名,用户,密码,就用root用户。最后面的三个scm,就是为cm创建的数据库名,用户,密码。注意scm我们是没法登陆的,进去数据库用select * from user;命令查看就知道,scm用户是没有什么权限的。--scm-host是指我们登陆scm的数据库机器的域名,比如cm服务器a,数据库服务器b,如果在b中host文件中配置了域名a,那么—scm-host就能使用a,如果在b中的host域名中没有配置a,那么就只能使用a的ip地址了,因为登陆scm数据库时,是有域名验证的。所以这里可以直接使用ip地址。具体参数解释,可以参照官网:
5.修改/opt/cm-5.7.1/etc/cloudera-scm-agent/config.ini中的server_host的值,值为主节点的hostname:bigdata1。
6.将cm-5.7.1分发到其余的agent节点:scp -r /opt/cm-5.7.1
7.在所有节点创建cloudera-scm用户:useradd --system --home=/opt/cm-5.7.1/run/cloudera-scm-server --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm
8.准备Parcels,用以安装CDH5,将CHD5相关的Parcel包放到主节点的/opt/cloudera/parcel-repo/目录中。相关的文件为:CDH-5.7.1-1.cdh5.7.1.p0.11-el6.parcel、CDH-5.7.1-1.cdh5.7.1.p0.11-el6.parcel.sha1、manifest.json,最后将CDH-5.7.1-1.cdh5.7.1.p0.11-el6.parcel.sha1,重命名为CDH-5.7.1-1.cdh5.7.1.p0.11-el6.parcel.sha,这点必须注意,否则,系统会重新下载CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel文件。官网parcels包下载地址:
9.相关启动脚本,在主节点通过/opt/cm-5.7.1/etc/init.d/cloudera-scm-server start启动服务端。在所有节点通过/opt/cm-5.7.1/etc/init.d/cloudera-scm-agent start启动Agent服务,注意cloudera manager是一个主节点,多个agent节点,在主节点上同时也是运行着agent的。我们启动的其实是个service脚本,需要停止服务将以上的start参数改为stop就可以了,重启是restart,查看状态status
10.都启动起来之后,就可以访问web界面了:,用户名密码是admin/admin。
11.第一次访问时会运行自动添加集群cluster的向导,按照向导一步一步来,不知道的就默认,有可能出现下面的情况
就在节点上运行命令:echo 10 > /proc/sys/vm/swappiness,但这仅仅是临时生效,下次重启就会失效了,想要永久生效,还需执行命令:echo 'vm.swappiness = 10' >> /etc/sysctl.conf。所以同时执行这两个命令,参考:
还有可能在透明大页面检查不通过,就运行它建议的命令,比如:echo never > /sys/kernel/mm/transparent_hugepage/defrag。但这也是临时生效,下次重启就会失效了,想要永久生效,还需执行命令:echo 'echo never > /sys/kernel/mm/transparent_hugepage/defrag' >> /etc/rc.local。所以同时执行这两个命令。
还有需要输入数据库的,比如hive,就用前面建立数据库的命令先建立数据库,然后配置好。
12.如果最后都成功了,那恭喜你了。如果最后没有成功,比如说启动spark,或者hive没有成功,不要紧,我们退出到CM的管理主页,把上面显示的警告解决了。然后再单独独立的解决每一个服务的问题。先解决基础的,zookeeper,hdfs,yarn等等,再解决上层应用的。
13.如果实在是配置解决不来,就删除相关服务,重新添加服务,注意删除的时候,一定要删除干净,每一个服务都有可能需要删除下面几个方面:删除/var/lib下面对应服务的目录。如果是dfs,yarn,还有可能需要删除/dfs,/yarn等目录。删除对应的数据库。
14.在添加hive的时候,有可能提示hive缺少jdbc驱动包,将mysql的驱动包mysql-connector-java-5.1.35-bin.jar上传到/opt/cloudera/parcels/CDH/lib/hive/lib或者/usr/share/java(有可能驱动包需要重命名)目录下即可。
15.在启动spark时,有可能提示Log directory specified does not exist: hdfs://bigdata1:8020/user/spark/applicationHistory。我们手动在hdfs上添加/user/spark/applicationHistory目录,主要目录的owner需要是spark用户,可以先用hdfs用户新建此目录,然后使用命令:hdfs dfs –chown –R spark:spark /user/spark/applicationHistory,将拥有者转换成spark即可。
16.如果出现“客户端配置 (id=3) 已使用 1 退出,而预期值为 0”错误,参考: