目标收益
本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。
通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。
培训对象
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。
学员基础
了解Linux系统及相关语言环境
课程大纲
主题 |
内容 |
Hadoop简介和生态系统介绍
|
传统大规模数据分析存在的问题
Hadoop概述
Hadoop与分布式文件系统
Hadoop生态系统
Hadoop的行业应用案例分析
Hadoop在云计算和大数据的位置和关系
Hadoop版本介绍
Hadoop与Google FS的关系
Hadoop在国内的使用情况和未来
|
Hadoop安装和主要配置文件介绍
|
Hadoop安装所需软件介绍
Hadoop单机安装
Hadoop伪分布式安装
Hadoop完全分布式安装
Hadoop三个节点安装的配置介绍
Hahoop多节点ssh配置
Hadoop格式化详解
Hadoop核心配置文件介绍
核心配置文件core-site.xml
HDFS配置文件hdfs-site.xml
Mapreduce配置文件mapred-site.xml
master文件配置详解
slave文件配置详解
Hadoop启动和停止方法一
—start-all.sh详解
—stop-all.sh详解
Hadoop的启动和停止方法二
—hadoop-deamon.sh详解
Hadoop安装的常见错误介绍和解决方案
使用自带的wordcount和pi测试集群安装是否成功
使用Streaming来测试集群安装是否成功
|
Hadoop组件介绍
|
Hadoop NameNode 介绍
Hadoop SecondaryNameNode 介绍
Hadoop DataNode 介绍
Hadoop JobTracker 介绍
Hadoop TaskTracker 介绍
|
Hadoop的HDFS模块
|
HDFS架构介绍
HDFS原理介绍
NameNode功能详解
DataNode功能详解
SecondaryNameNode功能详解
HSFD的fsimage和editslog详解
HDFS的block详解
HDFS的block的备份策略
Hadoop的机架感知配置
HDFS的shell命令介绍
HDFS的thrift server服务介绍
HDFS的API接口介绍
HDFS的权限详解
Hadoop的客服端接入案例
|
MapReducer入门
|
Mapreduce原理
MapReduce流程
剖析一个MapReduce程序
Mapper和Reducer抽象类详解
Mapreduce的最小驱动类
MapReduce自带的类型
自定义Writables和WritableComparables
Mapreduce的输入InputFormats
MapReduce的输出OutputFormats
Combiner详解
Partitioner详解
DistributeFileSystem详解
Hadoop Tools工具介绍
Counter计数器详解
自定义Counter计数器
基于Hadoop二次开发实战
MapReduce的优化
Map和Reduce的个数设置
Hadoop小文件优化
任务调度
默认的任务调度
公平任务调度
能力任务调度
使用 Hadoop MapReduce Streaming 编程
MapReduce的单元测试
|
Hive
|
Hive和Pig基础
Hive、Impala和presto的比较
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系
Hadoop/Hive仓库数据数据流
Hive部署和安装
HiveCli的基本用法
Hive的server启动
HQL基本语法
Hive的加载数据本地加载和HDFS加载
Hive的partition详解
Hive的存储方式详解
RCFILE、TEXTFILE和SEQUEUEFILE
Hive的UDF和UDAF
Hive的transform详解
Hive的JDBC连接
|
Sqoop介绍
|
Sqoop是什么
Sqoop安装
Sqoop把mysql数据导入HDFS
Sqoop把HDFS数据导入Mysql
Sqoop吧Mysql数据导入Hive
Sqoop吧Mysql数据导入Hive分区
|
Hadoop集群配置和维护
|
Hadoop集群的部署要点
NameNode和SecondaryNameNode和JobTracker机器的配置要求
dataNode与tasktracker机器的配置要求
Hadoop集群管理的工具介绍
Ganglia和nigos监控Hadoop集群介绍
Ambri介绍
添加和删除节点演示
Namenode的单点解决方案
NameNode的NFS备份介绍
集群所有dataNode挂掉的故障介绍
集群NameNode的fsimage丢掉恢复方法
Hadoop集群维护的注意点
|
Hbase使用
|
Hbase原理
Hmaster详解
RegionServer详解
Zookeeper介绍
Hbase安装
Hbase逻辑视图介绍
Hbase物理视图介绍
Hbase的二级索引介绍
Hbase的DDL和DML
Hbase表的设计案例
Hbase的import功能介绍
MapReduce操作Hbase
Hbase的thriftServer介绍
Hbase的API介绍
Hbase使用场景介绍
Hbase案例分析
|
大数据在国内的运用
|
大数据在国内的使用介绍
离线计算框架介绍
流式计算框架介绍
内存计算框架介绍
内存流式计算介绍
大数据实时请求框架介绍
大数据在移动的案例介绍
大数据在银行的案例介绍
大数据在阿里的案例介绍
|
Spark生态介绍
|
Spark产生背景
Spark(内存计算框架)
SparkSteaming(流式计算框架)
SparkSQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel将被代)
|
spark安装部署
|
Spark安装简介
Spark的源码编译
SparkStandalone安装
SparkStandaloneHA安装
Spark应用程序部署工具spark-submit
|
Spark运行架构和解析
|
Spark的运行架构
基本术语
运行架构
SparkonStandalone运行过程
SparkonYARN运行过程
Spark运行实例解析
SparkonStandalone实例解析
SparkonYARN实例解析
|
SparkSQL原理和实践
|
SparkSQL原理
SparkSQL的Catalyst优化器
SparkSQL内核
SparkSQL和Hive
SparkSQL的实例和编程
SparkSQL的实例操作demo
SparkSQL的编程
|
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获