关于课程环境

  1. 这里的大数据集群的配置和企业生产环境保持一致,如HA(高可用)、核心功能组件、主要服务(daemon);与之相对应的是需要消耗一定量的内存。
  2. 大数据环境说明如下,其中后面的集群均会包含前面的组件,如Hive集群会包含Hive、Tez、Hadoop、ZooKeeper、SSHEnv:
Centos7C1/C2/C3: 三台裸服务器。
SSHEnvC1/C2/C3: 配置root用户和hadoop用户ssh免密登录。
ZooKeeperC1/C2/C3: 搭建了ZooKeeper集群。
HadoopC1/C2/C3: 搭建了Hadoop集群。
TezC2/C2/C3: 搭建了带Tez的Hadoop集群。
HiveC1/C2/C3: 搭建了Hive集群。
SparkC1/C2/C3: 搭建了Spark集群。
OozieC1/C2/C3: 搭建了Oozie集群。
HBaseC1/C2/C3: 搭建了HBase集群。
KafkaC1/C2/C3: 搭建了Kafka集群。
RedisC1/C2/C3: 搭建了Redis集群。
FlumeSqoopC1/C2/C3: 搭建了Flume/Sqoop集群。
ElasticsearchC1/C2/C3: 搭建了Elasticsearch集群。
FlinkC1/C2/C3: 搭建了Flink集群。
HudiC1/C2/C3: 搭建了Hudi集群。
SolrC1/C2/C3: 搭建了Solr集群。
AtlasC1/C2/C3: 搭建了Atlas集群。
BigDataWithLoadedDataC1/C2/C3: 集成了除Solr/Atlas组件之外的集群、并加载了相应的数据集,具体数据集参考应用案例。
  1. 同一个角色(C1、C2、C3)的服务器只能创建一个,如HadoopC1和ZooKeeperC1不能同时创建成功,但HadoopC1和ZooKeeperC2能同时创建成功、尽管这么做没有意义。

  2. 数据可视化环境参考"数据可视化分析"章节说明。

She平台高校版学生端网络设置

学生通过PC个人电脑的Chrome浏览器登录She平台高校版、具体网址由授课老师发布(但肯定不同于She平台C端版地址:http://she.kinginsai.com)。

She平台高校版通常部署在相应学校的机房环境中,学生PC个人电脑需要同时具备访问外网和访问学校机房环境的网络接入条件。

She平台高校版的资源

  1. 本课程的字母名称为"BigData",其中(http)文件服务器上的根目录名称"BigData"、gitlab服务器的仓库名称为"BigData"、松鼠学苑GitHub仓库的名称为"Spark-stack"。

  2. She平台C端版(http://she.kinginsai.com)的服务端有外网权限,所以松鼠学苑的标准课程均从资源的源端下载、如https://archive.apache.org/dist/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz;但通常She平台高校版的服务端没有外网权限(这个很容测试、如ping www.baidu.com),因此需要通过(http)文件服务器/gitlab服务器下载、或者从学生本地计算机上传的方式解决。

  3. 文件资源放在(http)文件服务器上,可以阅读She平台手册的"She平台课程环境详细操作说明"部分,这样在学生可使用wget命令下载到实训环境中,因为文件服务器和She平台是部署在同一内网中;如果对应高校版本中没有部署(http)文件服务器、或者(http)文件服务器中没有相应资源,可以在学生个人电脑端从互联网下载相应资源到本地,然后上传到实训环境中,具体方法参考She平台手册的"ssh远程连接远端服务器工具"部分。

  4. 配置文件、代码等教学资源放在gitlab服务器上,可以阅读She平台手册的"She平台课程环境详细操作说明"部分,这样在学生可使用git clone命令下载到实训环境中,因为gitlab服务器和She平台是部署在同一内网中;如果对应高校版本中没有部署gitlab服务器、或者gitlab服务器中没有相应资源,可以在学生个人电脑端从松鼠学苑的github仓库(https://github.com/haiye1018/)下载相应资源到本地,压缩后上传到实训环境中,具体方法参考She平台手册的"ssh远程连接远端服务器工具"部分。

什么是大数据

1、是基础设施。

2、是方法论。

课程体系

在这里插入图片描述 在这里插入图片描述

详细学习内容可观看Spark快速大数据处理扫一扫~~~或者引擎搜索Spark余海峰 在这里插入图片描述