通过CDH5,Hadoop读取和写入OSS数据
CDH(Cloudera’s Distribution, including Apache Hadoop)是众多Hadoop发行版本中的一种,最新版本CDH6.0.1中的Hadoop3.0.0版本已经支持OSS,但CDH5中的Hadoop2.6版本不支持OSS。本文介绍如何配置CDH5支持OSS读写。
前提条件拥有一个已搭建好的CDH5集群(本文以CDH 5.14.4版本为例)。如何搭建CDH5集群,请参见官方文档。
由于CDH5的httpclient和httpcore这两个组件版本较低(4.2.5),Resource Manager要求的httpclient和httpcore必须是低版本,而OSS SDK要求这两个组件的版本较高。因此,本文提供了一个workaround方案。
您需要在所有的CDH节点执行以下操作:
查看CDH5安装目录${CDH_HOME}的结构:
[root@cdh-master CDH-5.14.4-1.cdh5.14.4.p0.3]# ls -lh总用量 100Kdrwxr-xr-x 2 root root 4.0K 6月 12 21:03 bindrwxr-xr-x 27 root root 4.0K 6月 12 20:57 etcdrwxr-xr-x 5 root root 4.0K 6月 12 20:57 includedrwxr-xr-x 2 root root 68K 6月 12 21:09 jarsdrwxr-xr-x 38 root root 4.0K 6月 12 21:03 libdrwxr-xr-x 3 root root 4.0K 6月 12 20:57 lib64drwxr-xr-x 3 root root 4.0K 6月 12 20:51 libexecdrwxr-xr-x 2 root root 4.0K 6月 12 21:02 metadrwxr-xr-x 4 root root 4.0K 6月 12 21:03 share
说明 本文中所有${}的内容为环境变量,请根据您实际的环境修改。
下载CDH 5.14.4版本支持OSS的支持包至CDH5的安装目录中的jars文件夹中。
该支持包是根据CDH 5.14.4中Hadoop的版本,并增加Apache Hadoop对OSS支持的补丁后编译得到的。其他版本支持包下载地址,请参见:
CDH 5.8.5
CDH 5.4.4
CDH 6.3.2
说明 对于CDH 6.3.2版本,您需要将支持包的文件复制到CDH6安装目录的jars文件夹中,然后参考以下步骤进行部署(主要更新aliyun-sdk-oss-3.4.1.jar以及将aliyun-java-sdk-*.jar符号链接到对应的位置)。
解压支持包。
[root@cdh-master CDH-5.14.4-1.cdh5.14.4.p0.3]# tar -tvf hadoop-oss-cdh-5.14.4.tar.gz drwxr-xr-x root/root 0 2018-10-08 18:16 hadoop-oss-cdh-5.14.4/-rw-r--r-- root/root 13277 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-java-sdk-sts-3.0.0.jar-rw-r--r-- root/root 326724 2018-10-08 18:16 hadoop-oss-cdh-5.14.4/httpcore-4.4.4.jar-rw-r--r-- root/root 524927 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-sdk-oss-3.4.1.jar-rw-r--r-- root/root 116337 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-java-sdk-core-3.4.0.jar-rw-r--r-- root/root 215492 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-java-sdk-ram-3.0.0.jar-rw-r--r-- root/root 788137 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/aliyun-java-sdk-ecs-4.2.0.jar-rw-r--r-- root/root 70017 2018-10-08 17:36 hadoop-oss-cdh-5.14.4/hadoop-aliyun-2.6.0-cdh5.14.4.jar-rw-r--r-- root/root 736658 2018-10-08 18:16 hadoop-oss-cdh-5.14.4/httpclient-4.5.2.jar 进入${CDH_HOME}/lib/hadoop目录,执行如下命令:
[root@cdh-master hadoop]# rm -f lib/httpclient-4.2.5.jar[root@cdh-master hadoop]# rm -f lib/httpcore-4.2.5.jar[root@cdh-master hadoop]# ln -s ../../jars/hadoop-aliyun-2.6.0-cdh5.14.4.jar hadoop-aliyun-2.6.0-cdh5.14.4.jar[root@cdh-master hadoop]# ln -s hadoop-aliyun-2.6.0-cdh5.14.4.jar hadoop-aliyun.jar[root@cdh-master hadoop]# cd lib[root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-core-3.4.0.jar aliyun-java-sdk-core-3.4.0.jar[root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-ecs-4.2.0.jar aliyun-java-sdk-ecs-4.2.0.jar[root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-ram-3.0.0.jar aliyun-java-sdk-ram-3.0.0.jar[root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-sts-3.0.0.jar aliyun-java-sdk-sts-3.0.0.jar[root@cdh-master lib]# ln -s ../../../jars/aliyun-sdk-oss-3.4.1.jar aliyun-sdk-oss-3.4.1.jar[root@cdh-master lib]# ln -s ../../../jars/httpclient-4.5.2.jar httpclient-4.5.2.jar[root@cdh-master lib]# ln -s ../../../jars/httpcore-4.4.4.jar httpcore-4.4.4.jar[root@cdh-master lib]# ln -s ../../../jars/jdom-1.1.jar jdom-1.1.jar进入Resurce Manager部署节点的${CDH_HOME}/lib/hadoop-yarn/bin/目录,将yarn中的CLASSPATH=${CLASSPATH}:$HADOOP_YARN_HOME/${YARN_DIR}/* CLASSPATH=${CLASSPATH}:$HADOOP_YARN_HOME/${YARN_LIB_JARS_DIR}/*替换为CLASSPATH=$HADOOP_YARN_HOME/${YARN_DIR}/*:${CLASSPATH}CLASSPATH=$HADOOP_YARN_HOME/${YARN_LIB_JARS_DIR}/*:${CLASSPATH}。
进入到Resurce Manager部署节点的${CDH_HOME}/lib/hadoop-yarn/lib目录,执行如下命令:
[root@cdh-master lib]# ln -s ../../../jars/httpclient-4.2.5.jar httpclient-4.2.5.jar[root@cdh-master lib]# ln -s ../../../jars/httpcore-4.2.5.jar httpcore-4.2.5.jar通过集群管理工具CM增加配置。
若没有CM管理的集群,可以修改core-site.xml。以CM为例,您需要增加如下配置:
| 配置项 | 值 |
|---|---|
| fs.oss.endpoint | 填写需要连接的OSS的Endpoint。
例如华东1(杭州)地址的Endpoint为 |
| fs.oss.accessKeyId | 填写OSS的AccessKey ID。AccessKey的获取方式,请参见创建AccessKey。 |
| fs.oss.accessKeySecret | 填写OSS的AccessKey Secret。AccessKey的获取方式,请参见创建AccessKey。 |
| fs.oss.impl | Hadoop OSS文件系统实现类。目前固定为org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem。 |
| fs.oss.buffer.dir | 填写临时文件目录。
建议值: |
| fs.oss.connection.secure.enabled | 是否开启HTTPS,开启HTTPS会影响性能。
建议值:false |
| fs.oss.connection.mamum | 与OSS的连接数。
建议值:2048 |
更多参数详情,请参见 Hadoop-Aliyun module。
根据CM提示重启集群。
测试读写OSS。
测试读
hadoop fs -ls oss://${your-bucket-name}/测试写
hadoop fs -mkdir oss://${your-bucket-name}/hadoop-test若测试可以读写OSS,则配置成功;若无法读写OSS,请检查配置。
Impala可以直接查询存储在HDFS的数据,在CDH5支持OSS后,就可以直接查询存储在OSS的数据。OSS SDK要求这两个组件的版本较高,所以需要在所有部署Impala的节点执行以下操作:
进入${CDH_HOME}/lib/impala/lib,执行如下命令:
[root@cdh-master lib]# rm -f httpclient-4.2.5.jar httpcore-4.2.5.jar[root@cdh-master lib]# ln -s ../../../jars/httpclient-4.5.2.jar httpclient-4.5.2.jar[root@cdh-master lib]# ln -s ../../../jars/httpcore-4.4.4.jar httpcore-4.4.4.jar[root@cdh-master lib]# ln -s ../../../jars/hadoop-aliyun-2.6.0-cdh5.14.4.jar hadoop-aliyun.jar[root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-core-3.4.0.jar aliyun-java-sdk-core-3.4.0.jar[root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-ecs-4.2.0.jar aliyun-java-sdk-ecs-4.2.0.jar[root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-ram-3.0.0.jar aliyun-java-sdk-ram-3.0.0.jar[root@cdh-master lib]# ln -s ../../../jars/aliyun-java-sdk-sts-3.0.0.jar aliyun-java-sdk-sts-3.0.0.jar[root@cdh-master lib]# ln -s ../../../jars/aliyun-sdk-oss-3.4.1.jar aliyun-sdk-oss-3.4.1.jar[root@cdh-master lib]# ln -s ../../../jars/jdom-1.1.jar jdom-1.1.jar进入${CDH_HOME}/bin目录,修改impalad、statestored、catalogd三个文件,在文件最后一行的exec命令前,增加如下内容:
export CLASSPATH=$CLASSPATH:${IMPALA_HOME}/lib/httpclient-4.5.2.jar:${IMPALA_HOME}/lib/httpcore-4.4.4.jar:${IMPALA_HOME}/lib/hadoop-aliyun.jar:${IMPALA_HOME}/lib/aliyun-java-sdk-core-3.4.0.jar:${IMPALA_HOME}/lib/aliyun-java-sdk-ecs-4.2.0.jar:${IMPALA_HOME}/lib/aliyun-java-sdk-ram-3.0.0.jar:${IMPALA_HOME}/lib/aliyun-java-sdk-sts-3.0.0.jar:${IMPALA_HOME}/lib/aliyun-sdk-oss-3.4.1.jar:${IMPALA_HOME}/lib/jdom-1.1.jar重启所有节点的impala相关进程。
重启完成后即可使用impala查询OSS数据。
TPC-DS的benchmark有一张表为call_center,假设该表存储在OSS中,我们可以创建一个外部表指向它,并且查询这张表根据cc_country分组分别有多少条记录。
[root@cdh-master ~]# impala-shell -i cdh-slave01:21000Starting Impala Shell without Kerberos authenticationConnected to cdh-slave01:21000Server version: impalad version 2.11.0-cdh5.14.4 RELEASE (build20e635646a13347800fad36a7d0b1da25ab32404)***********************************************************************************Welcome to the Impala shell.(Impala Shell v2.11.0-cdh5.14.4 (20e6356) built on Tue Jun 1203:43:08 PDT 2018)The HISTORY command lists all shell commands in chronological order.***********************************************************************************[cdh-slave01:21000] > droptableifests call_center;Query: droptableifests call_center[cdh-slave01:21000] >[cdh-slave01:21000] > createexternaltable call_center( > cc_call_center_sk bigint > , cc_call_center_id string > , cc_rec_start_date string > , cc_rec_end_date string > , cc_closed_date_sk bigint > , cc_open_date_sk bigint > , cc_name string > , cc_class string > , cc_employees int > , cc_sq_ft int > , cc_hours string > , cc_manager string > , cc_mkt_id int > , cc_mkt_class string > , cc_mkt_desc string > , cc_market_manager string > , cc_division int > , cc_division_name string > , cc_company int > , cc_company_name string > , cc_street_number string > , cc_street_name string > , cc_street_type string > , cc_suite_number string > , cc_city string > , cc_county string > , cc_state string > , cc_zip string > , cc_country string > , cc_gmt_offset double > , cc_tax_percentage double > ) > rowformatdelimitedfieldsterminatedby'|' > location 'oss://${your-bucket-name}/call_center';Query: createexternaltable call_center( cc_call_center_sk bigint, cc_call_center_id string, cc_rec_start_date string, cc_rec_end_date string, cc_closed_date_sk bigint, cc_open_date_sk bigint, cc_name string, cc_class string, cc_employees int, cc_sq_ft int, cc_hours string, cc_manager string, cc_mkt_id int, cc_mkt_class string, cc_mkt_desc string, cc_market_manager string, cc_division int, cc_division_name string, cc_company int, cc_company_name string, cc_street_number string, cc_street_name string, cc_street_type string, cc_suite_number string, cc_city string, cc_county string, cc_state string, cc_zip string, cc_country string, cc_gmt_offset double, cc_tax_percentage double)rowformatdelimitedfieldsterminatedby'|'location 'oss://${your-bucket-name}/call_center'Fetched 0row(s) in0.07s[cdh-slave01:21000] > select cc_country, count(*) from call_center groupby cc_country;Query: select cc_country, count(*) from call_center groupby cc_countryQuery submitted at: 2018-10-2816:21:13 (Coordinator: http://cdh-slave01:25000)Query progress can be monitored at: http://cdh-slave01:25000/query_plan?query_id=fb4e09977145f367:3bdfe4d600000000+---------------+----------+| cc_country | count(*) |+---------------+----------+| United States | 30 |+---------------+----------+Fetched 1 row(s) in 4.71s了解更多的互联网医药攻略联系我们(微信):kinnah333
本文地址:http://www.55jiaoyu.com/show-740616.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
推荐文档
- 11.往年大连中考满分是多少
- 12.为什么说学播音毁一生,原因有哪些
- 13.淘宝店铺的优质好评语大全
- 14.考研可改变第一学历吗、专科考研可以改变第一学历吗
- 15.民学网查出的学历国家承认吗(民学网查出的学历国家承认吗是真的吗)
- 16.往年轻薄商务笔记本电脑推荐-商务轻薄本性价比排行
- 17.承德护理职业学院(承德护理职业学院2023年招生计划)
- 18.wreak是什么意思wreak的翻译(wake,area是什么意思中文翻译)
- 19.电子科技大学A+类学科名单有哪些(含A、B、C类学科名单)
- 20.systematic是什么意思systematic的翻译(systematically是什么意思中文翻译)
- 21.leant是什么意思leant的翻译(lean,on什么意思中文意思)
- 22.华南农业大学是几本大学,华南农业大学是一本还是二本
- 23.包头中考考试科目时间预测安排,包头中考考哪几门考哪些课程
- 24.高考430分能上什么大学,430分高考能报啥学校
- 25.朱自清的散文代表作有什么(朱自清的散文代表作有什么散文集有什么散文诗集有什么)
- 26.浙江有几所大学是985和211,全国985和211大学名单汇总
- 27.i5,1155G7和R5,5600U哪款好-对比评测
- 28.荷兰什么叫-荷兰弟为什么叫荷兰弟,出演蜘蛛侠原因曝光
- 29.警察警衔工资改革新政策及新方案【全文】解读
- 30.电大专科(电大专科毕业论文)
- 31.广东省高级技工学校官网
- 32.广州大学专科
- 33.大连陆军学院,原大连陆军学院校址现在什么是什么学校
- 34.亲们,谁给一份南京大学的研究生招生简章?(河海大学
- 35.他日若遂凌云志全诗及出处
- 36.铜绿的化学式是什么有哪些性质
- 37.「佛山市顺德养正西山学校初中部」往年录取分数线
- 38.公办本科(公办本科和民办本科有什么区别)
- 39.外交学院是名牌大学吗
- 40.往年湖南高考成绩排名一分一段表
- 41.全国有8所烟草院校是哪些(这4所大学门槛低)
- 42.私人垄断资本主义基本概念是私人垄断资本主义
- 43.难以启齿,这8部影片可以一看(性教育适合看的影片)
- 44.美国独立战争的性质爆发战争的原因是什么
- 45.往年东莞市高中排名前十最新
- 46.大朗网络教育(大朗教育)
- 47.往年甘肃省高中排名最好的高中
- 48.逻辑思维训练有哪些方法优秀训练方法推荐
- 49.浙江大学教务管理系统
- 50.人类的动物老师有哪些这属于什么学科
- 51.往年山西高考状元榜_山西历届高考理科状元和文科状元
- 52.往年北京舞蹈学院艺术类招生简章招生人数及专业
- 53.航空最好的5个专业就业前景如何
- 54.太原科技大学怎么样及评价好不好太原科技大学口碑如何
- 55.满招损谦受益这句话的意思是什么出自哪
- 56.舍本逐末发生在什么时期含义是什么
- 57.女孩子首选十大专业什么专业适合女生
- 58.国防生是什么意思指的是什么
- 59.河南省三本学院有哪些2018最新三本院校名单
- 60.往年龙岩高中学校排名榜单龙岩十大优秀高中
- 51.纳税人未清卡不允许申领发票是什么意思,税务控票是什么意思
- 52.北流隆盛有什么风景区,登北流隆盛鹅公石山峰
- 53.沈阳国电投全称叫什么,中国电力国际有限公司
- 54.fx安装器下载,先锋fx资源网站
- 55.中波台是什么编制,杭州中波转播台是什么单位
- 56.敏东一矿待遇怎么样,详细分享福建省公务员待遇
- 57.三星手机大全,三星的手机所有的型号和样式,带图片...
- 58.一名即将毕业的大学生晒桌面,联想y430p是哪一年的机子
- 59.奔驰大g长宽高是多少钱(奔驰大g长宽高是多少米)
- 60.九堡大桥南是指哪里,杭州市江干区九堡大桥南信息
- 61.林长高速什么时候通车,高速穿越大峡谷
- 62.太原市迎泽区交通运输局怎么样,迎泽区交通运输局多项措施
- 63.银川妇幼保健院在哪里,投诉银川人放假期间一定要知道这些号码
- 64.库伦到奈曼怎么走,通辽市库伦旗概况
- 65.金乡惠民路小学在哪里,雨中再游金乡金山公园
- 66.电力odn有什么用途,光电线缆双中标
- 67.宜黄有什么路在规划,高架桥与宜黄路转盘壮观
- 68.设备采购方案怎么写,端午礼品采购方案
- 69.修村部到路什么人以管,村委会2万元维修款变10万元注水合同
- 70.高价中标是什么意思,在国际上处于什么地位

