Spark与Hadoop大数据分析(pdf+txt+epub+azw3+mobi电子书在线阅读下载)

txtpdf查看全部>>

人气327
点击下载

Spark与Hadoop大数据分析(pdf+txt+epub+azw3+mobi电子书在线阅读下载)

Spark与Hadoop大数据分析

作者:(美)文卡特·安卡姆

格式: pdf、txt、epub、azw3、mobi、docx

内容简介

本书介绍了ApacheSpark和Hadoop的基础知识,并深入探讨了所有Spark组件:SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx,以及Hadoop的核心组件(HDFS、MapReduce和Yarn)等,此外,也讲解了在Spark Hadoop集群中实现的示例。

目  录

Contents 目  录
译者序
前言
第1章 从宏观视角看大数据分析1
1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色3
1.1.1 典型大数据分析项目的生命周期4
1.1.2 Hadoop和Spark承担的角色6
1.2 大数据科学以及Hadoop和Spark在其中承担的角色 6
1.2.1 从数据分析到数据科学的根本性转变 6
1.2.2 典型数据科学项目的生命周期 8
1.2.3 Hadoop和Spark 承担的角色9
1.3 工具和技术9
1.4 实际环境中的用例11
1.5 小结12
第2章 Apache Hadoop和Apache Spark入门13
2.1 Apache Hadoop概述13
2.1.1 Hadoop 分布式文件系统 14
2.1.2 HDFS 的特性15
2.1.3 MapReduce 16
2.1.4 MapReduce 的特性 17
2.1.5 MapReduce v1与MapReduce v2对比17
2.1.6 YARN 18
2.1.7 Hadoop上的存储选择20
2.2 Apache Spark概述24
2.2.1 Spark 的发展历史 24
2.2.2 Apache Spark 是什么25
2.2.3 Apache Spark 不是什么26
2.2.4 MapReduce 的问题 27
2.2.5 Spark 的架构28
2.3 为何把 Hadoop 和 Spark 结合使用31
2.3.1 Hadoop 的特性31
2.3.2 Spark 的特性31
2.4 安装 Hadoop 和 Spark 集群33
2.5 小结36
第3章 深入剖析Apache Spark37
3.1 启动 Spark 守护进程 37
3.1.1 使用CDH 38
3.1.2 使用 HDP、MapR 和Spark 预制软件包38
3.2 学习Spark的核心概念 39
3.2.1 使用 Spark 的方法 39
3.2.2 弹性分布式数据集 41
3.2.3 Spark 环境43
3.2.4 变换和动作44
3.2.5 RDD 中的并行度46
3.2.6 延迟评估 49
3.2.7 谱系图50
3.2.8 序列化 51
3.2.9 在 Spark 中利用 Hadoop文件格式 52
3.2.10 数据的本地性 53
3.2.11 共享变量 54
3.2.12 键值对 RDD 55
3.3 Spark 程序的生命周期 55
3.3.1 流水线 57
3.3.2 Spark 执行的摘要 58
3.4 Spark 应用程序59
3.4.1 Spark Shell 和 Spark 应用程序59
3.4.2 创建 Spark 环境59
3.4.3 SparkConf 59
3.4.4 SparkSubmit 60
3.4.5 Spark 配置项的优先顺序61
3.4.6 重要的应用程序配置 61
3.5 持久化与缓存 62
3.5.1 存储级别 62
3.5.2 应该选择哪个存储级别63
3.6 Spark 资源管理器:Standalone、YARN和Mesos63
3.6.1 本地和集群模式63
3.6.2 集群资源管理器 64
3.7 小结 67
第4章 利用Spark SQL、Data-Frame和Dataset进行大数据分析69
4.1 Spark SQL 的发展史 70
4.2 Spark SQL 的架构71
4.3 介绍Spark SQL的四个组件72
4.4 DataFrame 和 Dataset 的演变74
4.4.1 RDD 有什么问题74
4.4.2 RDD 变换与 Dataset 和DataFrame 变换75
4.5 为什么要使用 Dataset 和DataFrame75
4.5.1 优化 76
4.5.2 速度 76
4.5.3 自动模式发现 77
4.5.4 多数据源,多种编程语言77
4.5.5 RDD 和其他 API 之间的互操作性77
4.5.6 仅选择和读取必要的数据78
4.6 何时使用 RDD、Dataset 和DataFrame78
4.7 利用 DataFrame 进行分析 78
4.7.1 创建 SparkSession 79
4.7.2 创建 DataFrame 79
4.7.3 把DataFrame转换为RDD82
4.7.4 常用的 Dataset/DataFrame操作 83
4.7.5 缓存数据84
4.7.6 性能优化 84
4.8 利用 Dataset API 进行分析85
4.8.1 创建 Dataset 85
4.8.2 把 DataFrame 转换为Dataset 86
4.8.3 利用数据字典访问元数据87
4.9 Data Sources API 87
4.9.1 读和写函数 88
4.9.2 内置数据源 88
4.9.3 外部数据源 93
4.10 把 Spark SQL 作为分布式 SQL引擎 97
4.10.1 把 Spark SQL 的 Thrift 服务器用于 JDBC / ODBC访问97
4.10.2 使用 beeline 客户端查询数据 98
4.10.3 使用 spark-sql CLI 从 Hive查询数据99
4.10.4 与 BI 工具集成100
4.11 Hive on Spark 100
4.12 小结100
第5章 利用Spark Streaming和Structured Streaming进行实时分析102
5.1 实时处理概述 103
5.1.1 Spark Streaming 的优缺点 104
5.1.2 Spark Streaming 的发展史104
5.2 Spark Streaming 的架构 104
5.2.1 Spark Streaming 应用程序流106
5.2.2 无状态和有状态的流处理107
5.3 Spark Streaming 的变换和动作 109
5.3.1 union 109
5.3.2 join 109
5.3.3 transform 操作 109
5.3.4 updateStateByKey 109
5.3.5 mapWithState 110
5.3.6 窗口操作 110
5.3.7 输出操作 111
5.4 输入数据源和输出存储 111
5.4.1 基本数据源 112
5.4.2 高级数据源 112
5.4.3 自定义数据源112
5.4.4 接收器的可靠性 112
5.4.5 输出存储113
5.5 使用 Kafka 和 HBase 的 Spark Streaming113
5.5.1 基于接收器的方法 114
5.5.2 直接方法(无接收器)116
5.5.3 与 HBase 集成117
5.6 Spark Streaming 的高级概念118
5.6.1 使用 DataFrame118
5.6.2 MLlib 操作119
5.6.3 缓存/持久化 119
5.6.4 Spark Streaming 中的容错机制 119
5.6.5 Spark Streaming 应用程序的性能调优 121
5.7 监控应用程序 122
5.8 结构化流概述123
5.8.1 结构化流应用程序的工作流123
5.8.2 流式 Dataset 和流式

商品评价

相关推荐
  • ANSYS电磁场分析(第2版)(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 物理学的未来(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 精装版(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 地球上最伟大的表演(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 恐龙探秘(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 物种起源(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 基因与细胞(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 相对论(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 陶哲轩实分析(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 通俗天文学(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 西方博物学文化(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 自然史(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 缤纷生物(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 狭义与广义相对论浅说(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 自然史(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 化学哲学新体系(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 能量守恒原理的历史和根源(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 深度学习的数学(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 从量子到宇宙-颠覆人类认知的科学之旅(pdf+txt+epub+azw3+mobi电子书在线阅读下载)
  • 汪老师的植物笔记(pdf+txt+epub+azw3+mobi电子书在线阅读下载)

全部评论: 0

微信公众号

还没账号?马上注册>>

登录

忘记密码

如果您尚未注册,请选择以下方式登录

Q Q 登 录 微 博 登 录
已有账号?快去登录>>

注册

发送验证码