图书介绍
Cloudera Hadoop大数据平台实战指南【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

- 宋立桓,陈建平著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302517535
- 出版时间:2019
- 标注页数:240页
- 文件大小:26MB
- 文件页数:258页
- 主题词:数据处理软件
PDF下载
下载说明
Cloudera Hadoop大数据平台实战指南PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据概述1
1.1大数据时代的数据特点1
1.2大数据时代的发展趋势——数据将成为资产2
1.3大数据时代处理数据理念的改变3
1.3.1要全体不要抽样3
1.3.2要效率不要绝对精确3
1.3.3要相关不要因果4
1.4大数据时代的关键技术5
1.5大数据时代的典型应用案例5
1.5.1塔吉特超市精准营销案例5
1.5.2谷歌流感趋势案例6
1.5.3证券行业案例6
1.5.4某运营商大数据平台案例7
1.6 Hadoop概述和介绍7
1.6.1 Hadoop发展历史和应用现状7
1.6.2 Hadoop的特点8
1.6.3 Hadoop的生态系统8
第2章 Cloudera大数据平台介绍10
2.1 Cloudera简介10
2.2 Cloudera的Hadoop发行版CDH简介11
2.2.1 CDH概述11
2.2.2 CDH和Apache Hadoop对比12
2.3 Cloudera Manager大数据管理平台介绍12
2.3.1 Cloudera Manager概述和整体架构12
2.3.2 Cloudera Manager的基本核心功能14
2.3.3 Cloudera Manager的高级功能18
2.4 Cloudera平台参考部署架构19
2.4.1 Cloudera的软件体系结构19
2.4.2群集硬件规划配置19
2.4.3 Hadoop集群角色分配21
2.4.4网络拓扑23
第3章 Cloudera Manager及CDH离线安装部署25
3.1安装前的准备工作25
3.2 Cloudera Manager及CDH安装30
3.3添加其他大数据组件35
第4章 分布式文件系统HDFS37
4.1 HDFS简介37
4.2 HDFS体系结构38
4.2.1 HDFS架构概述38
4.2.2 HDFS命名空间管理38
4.2.3 NameNode39
4.2.4 SecondaryNameNode39
4.3 HDFS 2.0新特性41
4.3.1 HDFS HA41
4.3.2 HDFS Federation42
4.4 HDFS操作常用shell命令43
4.4.1 HDFS目录操作和文件处理命令43
4.4.2 HDFS的Web管理界面44
4.4.3 dfsadmin管理维护命令45
4.4.4 namenode命令47
4.5 Java编程操作HDFS实践47
4.6 HDFS的参数配置和规划49
4.7使用Cloudera Manager启用HDFS HA51
4.7.1 HDFS HA高可用配置51
4.7.2 HDFS HA高可用功能测试54
第5章 分布式计算框架MapReduce57
5.1 MapReduce概述57
5.2 MapReduce原理介绍58
5.2.1工作流程概述58
5.2.2 MapReduce框架的优势58
5.2.3 MapReduce执行过程59
5.3 MapReduce编程——单词示例解析59
5.4 MapReduce应用开发60
5.4.1配置MapReduce开发环境60
5.4.2编写和运行MapReduce程序61
第6章 资源管理调度框架YARN65
6.1 YARN产生背景65
6.2 YARN框架介绍66
6.3 YARN工作原理67
6.4 YARN框架和MapReduce 1.0框架对比69
6.5 CDH集群的YARN参数调整69
第7章 数据仓库Hive72
7.1 Hive简介72
7.2 Hive体系架构和应用场景73
7.2.1 Hive体系架构73
7.2.2 Hive应用场景74
7.3 Hive的数据模型75
7.3.1内部表75
7.3.2外部表75
7.3.3分区表75
7.3.4桶75
7.4 Hive实战操作76
7.4.1 Hive内部表操作77
7.4.2 Hive外部表操作77
7.4.3 Hive分区表操作79
7.4.4桶表80
7.4.5 Hive应用实例WordCount82
7.4.6 UDF84
7.5基于Hive的应用案例86
第8章 数据迁移工具Sqoop88
8.1 Sqoop概述88
8.2 Sqoop工作原理89
8.3 Sqoop版本和架构91
8.4 Sqoop实战操作93
第9章 分布式数据库HBase100
9.1 HBase概述100
9.2 HBase数据模型101
9.3 HBase生态地位和系统架构101
9.3.1 HBase的生态地位解析101
9.3.2 HBase系统架构102
9.4 HBase运行机制103
9.4.1 Region103
9.4.2 Region Server工作原理103
9.4.3 Store工作原理104
9.5 HBase操作实战104
9.5.1 HBase常用shell命令104
9.5.2 HBase编程实践107
9.5.3 HBase参数调优的案例分享109
第10章 分布式协调服务ZooKeeper111
10.1 ZooKeeper的特点111
10.2 ZooKeeper的工作原理112
10.2.1基本架构112
10.2.2 ZooKeeper实现分布式Leader节点选举112
10.2.3 ZooKeeper配置文件重点参数详解112
10.3 ZooKeeper典型应用场景115
10.3.1 ZooKeeper实现HDFS的NameNode高可用HA115
10.3.2 ZooKeeper实现HBase的HMaster高可用116
10.3.3 ZooKeeper在Storm集群中的协调者作用116
第11章 准实时分析系统Impala118
11.1 Impala概述118
11.2 Impala组件构成119
11.3 Impala系统架构119
11.4 Impala的查询处理流程120
11.5 Impala和Hive的关系和对比121
11.6 Impala安装122
11.7 Impala入门实战操作124
第12章 日志采集工具Flume128
12.1 Flume概述128
12.2 Flume体系结构129
12.2.1 Flume外部结构129
12.2.2 Flume的Event事件概念130
12.2.3 Flume的Agent130
12.3 Flume安装和集成131
12.3.1搭建Flume环境131
12.3.2 Kafka与Flume集成132
12.4 Flume操作实例介绍132
12.4.1例子概述132
12.4.2第一步:配置数据流向132
12.4.3第二步:启动服务133
12.4.4第三步:新建空数据文件133
12.4.5第四步:运行flume-ng命令133
12.4.6第五步:运行命令脚本134
12.4.7最后一步:测试结果134
第13章 分布式消息系统Kafka135
13.1 Kafka架构设计135
13.1.1基本架构135
13.1.2基本概念136
13.1.3 Kafka主要特点136
13.2 Kafka原理解析137
13.2.1主要的设计理念137
13.2.2 ZooKeeper在Kafka的作用137
13.2.3 Kafka在ZooKeeper的执行流程137
13.3 Kafka安装和部署138
13.3.1 CDH5完美集成Kafka138
13.3.2 Kafka部署模式和配置139
13.4 Java操作Kafka消息处理实例141
13.4.1例子概述141
13.4.2第一步:新建工程141
13.4.3第二步:编写代码141
13.4.4第三步:运行发送数据程序142
13.4.5最后一步:运行接收数据程序143
13.5 Kafka与HDFS的集成143
13.5.1与HDFS集成介绍143
13.5.2与HDFS集成实例144
13.5.3第一步:编写代码——发送数据144
13.5.4第二步:编写代码——接收数据145
13.5.5第三步:导出文件146
13.5.6第四步:上传文件146
13.5.7第五步:运行程序——发送数据146
13.5.8第六步:运行程序——接收数据147
13.5.9最后一步:查看执行结果147
第14章 大数据ETL工具Kettle148
14.1 ETL原理148
14.1.1 ETL简介148
14.1.2 ETL在数据仓库中的作用149
14.2 Kettle简介149
14.3 Kettle完整案例实战150
14.3.1案例介绍150
14.3.2最终效果150
14.3.3表说明150
14.3.4第一步:准备数据库数据151
14.3.5第二步:新建转换152
14.3.6第三步:新建数据库连接153
14.3.7第四步:拖动表输入组件153
14.3.8第五步:设置属性——order表154
14.3.9第六步:设置属性orser表155
14.3.10第七步:拖动流查询并设置属性——流查询155
14.3.11第八步:设置属性——product表156
14.3.12第九步:连接组件156
14.3.13第十步:设置属性——文本输出156
14.3.14最后一步:运行程序并查看结果157
14.4 Kettle调度和命令158
14.4.1通过页面调度158
14.4.2通过脚本调度159
14.5 Kettle使用原则161
第15章 大规模数据处理计算引擎Spark162
15.1 Spark简介162
15.1.1使用背景162
15.1.2 Spark特点163
15.2 Spark架构设计163
15.2.1 Spark整体架构163
15.2.2关键运算组件164
15.2.3 RDD介绍164
15.2.4 RDD操作165
15.2.5 RDD依赖关系166
15.2.6 RDD源码详解167
15.2.7 Scheduler168
15.2.8 Storage168
15.2.9 Shuffle169
15.3 Spark编程实例170
15.3.1实例概述170
15.3.2第一步:编辑数据文件170
15.3.3第二步:编写程序171
15.3.4第三步:上传JAR文件171
15.3.5第四步:远程执行程序172
15.3.6最后一步:查看结果172
15.4 Spark SQL实战173
15.4.1例子概述173
15.4.2第一步:编辑数据文件173
15.4.3第二步:编写代码174
15.4.4第三步:上传文件到服务器174
15.4.5第四步:远程执行程序174
15.4.6最后一步:查看结果175
15.5 Spark Streaming实战175
15.5.1例子概述175
15.5.2第一步:编写代码175
15.5.3第二步:上传文件到服务器176
15.5.4第三步:远程执行程序177
15.5.5第四步:上传数据177
15.5.6最后一步:查看结果177
15.6 Spark MLlib实战178
15.6.1例子步骤178
15.6.2第一步:编写代码178
15.6.3第二步:上传文件到服务器179
15.6.4第三步:远程执行程序179
15.6.5第四步:上传数据180
15.6.6最后一步:查看结果180
第16章 大数据全栈式开发语言Python182
16.1 Python简介182
16.2 Python安装和配置183
16.2.1 Anaconda介绍183
16.2.2 Anaconda下载183
16.2.3 Anaconda安装184
16.2.4 Anaconda包管理185
16.2.5 PyCharm下载185
16.2.6 PyCharm安装185
16.2.7 PyCharm使用187
16.3 Python入门190
16.3.1例子概述190
16.3.2第一步:新建 Python文件190
16.3.3第二步:设置字体大小191
16.3.4第三步:编写代码191
16.3.5第四步:执行程序192
16.3.6最后一步:改变输入192
16.4 Python数据科学库pandas入门193
16.4.1例子概述193
16.4.2 pandas包介绍194
16.4.3第一步:打开Jupyter Notebook194
16.4.4第二步:导入包194
16.4.5第三步:定义数据集195
16.4.6第四步:过滤数据195
16.4.7最后一步:获取数据196
16.5 Python绘图库matplotlib入门197
16.5.1例子概述197
16.5.2第一步:新建一个Python文件197
16.5.3第二步:引入画图包197
16.5.4第三步:组织数据198
16.5.5第四步:画图198
16.5.6最后一步:查看结果199
第17章 大数据实战案例:实时数据流处理项目200
17.1项目背景介绍200
17.2业务需求分析200
17.3项目技术架构201
17.4项目技术组成202
17.5项目实施步骤202
17.5.1第一步:运用Kafka产生数据202
17.5.2第二步:运用Spark接收数据208
17.5.3第三步:安装Redis软件211
17.5.4第四步:准备程序运行环境214
17.5.5第五步:远程执行Spark程序216
17.5.6第六步:编写Python实现可视化218
17.5.7最后一步:执行Python程序221
17.6项目总结222
第18章 大数据实战案例:用户日志综合分析项目223
18.1项目背景介绍223
18.2项目设计目的223
18.3项目技术架构和组成224
18.4项目实施步骤225
18.4.1第一步:本地数据FTP到Linux环境225
18.4.2第二步:Linux数据上传到HDFS225
18.4.3第三步:使用Hive访问HDFS数据226
18.4.4第四步:使用Kettle把数据导入HBase228
18.4.5第五步:使用Sqoop把数据导入MySQL234
18.4.6第六步:编写Python程序实现可视化236
18.4.7最后一步:执行Python程序238
热门推荐
- 3488559.html
- 1365271.html
- 1390978.html
- 410537.html
- 1600292.html
- 1263088.html
- 1349116.html
- 1184997.html
- 2898640.html
- 1023084.html
- http://www.ickdjs.cc/book_98045.html
- http://www.ickdjs.cc/book_510621.html
- http://www.ickdjs.cc/book_2449484.html
- http://www.ickdjs.cc/book_3309204.html
- http://www.ickdjs.cc/book_2452846.html
- http://www.ickdjs.cc/book_1450282.html
- http://www.ickdjs.cc/book_1381196.html
- http://www.ickdjs.cc/book_3653316.html
- http://www.ickdjs.cc/book_3872562.html
- http://www.ickdjs.cc/book_359210.html