培训目标:
|
· 彻底理解Hadoop代表的云计算实现技术的能力;
· 具备开发自己网盘的能力;
· 具备修改HDFS源码和具体源码实现的能力;
· 具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力;
· 具备掌握Hive企业级开发和管理的能力;
· 掌握Spark的企业级开发的所有核心内容,包括Spark架构设计、Spark内核剖析、Shark、SparkSQL、SparkStreaming、、机器学习MLlib、SparkonYarn、JobServer等;
· 掌握Spark和Hadoop协同工作,能够通过Spark和Hadoop轻松应对大数据的业务需求;
· 掌握企业线上生产系统中应用Spark/Hadoop成功案例,以及与现有企业BI平台整合的方案。
· 掌握Flink的的体系架构,以及企业线上生产系统中应用Flink成功案例
· 掌握Flink Runtime、DataSet API、DataStream API,以及Flink SQL的使用
|
培训对象:大数据架构师、数据平台开发工程师
|
学员基础:具有一定的数据设计、开发和管理经验
|
授课方式:定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
|
主题
|
章节
|
详细内容
|
大数据平台概览
|
大数据处理平台架构基础
|
大数据的产生背景、发展历程
大数据和云计算的关系
大数据应用需求以及潜在价值分析
业界最新的大数据技术发展态势与应用趋势
大数据项目的技术选型与大数据处理系统架构设计
“互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析
|
业界主流的大数据技术产品与项目解决方案
|
国内外主流的大数据解决方案介绍
当前大数据解决方案与传统数据库方案的剖析比较
Apache大数据平台方案剖析
CDH大数据平台方案剖析
HDP大数据平台方案剖析
开源的大数据生态系统平台剖析
|
Hadoop大数据平台核心技术剖析
|
Hadoop的发展历程以及产业界的实际应用介绍
Hadoop大数据平台架构
基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制
Hadoop的核心组件剖析
|
Hadoop的大数据体系架构
|
Hadoop的起源
|
什么是大数据?
专有云上的混搭平台设计
OLTP系统和OLAP系统
数据仓库的基本概念
Google的基本思想
|
Hadoop的体系结构和原理
|
海量数据的存储HDFS
· 文件上传的过程
· 文件下载的过程
· 原信息的合并过程
海量数据的计算MapReduce
· YARN的工作原理
· MapReduce作业执行的过程和原理
HBase的基本架构
|
Hadoop集群模式的安装和配置
|
单机模式的安装和配置
伪分布模式的安装和配置
免密码登录的原理
配置Hadoop的集群环境
配置和使用HUE
|
Hadoop HA
|
集群的规划
安装Zookeeper集群环境
安装配置hadoop集群
验证HDFS的HA
验证YARN
|
Hadoop应用案例分析
|
案例一:互联网应用架构
案例二:日志分析
案例三:Hadoop在淘宝的应用
|
分布式文件系统HDFS
|
访问HDFS
|
使用命令行访问HDFS文件系统
使用Java编程接口访问HDFS文件系统
|
HDFS的高级特性
|
什么是HDFS的联盟
HDFS的回收站
HDFS的配额
HDFS的权限
|
HDFS的底层原理
|
什么是RPC通信?
什么是动态代理?
|
HDFS的优化
|
NameNode的优化策略
SecondaryNameNode的优化策略
文件存储的优化
HDFS的瓶颈和解决方案
|
HDFS的NameNode联盟
|
什么是NameNode的联盟
NameNode的体系架构
搭建NameNode的联盟架构
|
分布式计算模型MapReduce和Yan
|
MapReduce基础编程
|
MapReduce的基本概念和原理
数据在MapReduce的流动过程
第一个MapReduce程序和运行MapReduce程序
|
MapReduce高级编程
|
序列化的基本概念
编写MapReduce序列化的程序
MapReduce的排序
MapReduce的分区
什么是Combiner
什么是Shuffle
|
Yarn的优化
|
Yarn的内存使用
Yarn的资源调度策略
MapReduce任务的优化
|
数据分析引擎
|
数据分析之Hive
|
· 什么是Hive和Hive的体系结构
· 安装和配置Hive
· 使用HQL
· Hive的客户端:CLI客户端和Java编程
· 接口
Hive的自定义函数
Hive的数据模型
· 内部表
· 分区表
· 桶表
· 视图
· 物化视图
|
数据分析之Pig
|
什么是Pig和Pig的体系结构
安装和配置Pig
Pig的数据模型
使用Pig Latin语句进行数据的分析
Pig的自定义函数
|
数据交换引擎
|
Sqoop和Flume
|
使用Sqoop进行数据的交换
· 什么是Sqoop体系结构
· 使用Sqoop进行数据的交换
使用Flume进行数据的采集
· 什么是Flume体系结构
· 使用Flume进行数据的采集
|
基于HDFS的存储系统
|
HBase数据库
|
HBase简介及其在Hadoop中的位置
HBASE的伪分布的搭建
HBASE的底层存储模型和基本概念
HBASE的读写原理
HBASE的高级特性
HBase的体系结构
HBASE Shell
HBASE的批量导入
HBASE的Java客户端
|
分布式协调服务
|
Zookeeper
|
什么是Zookeeper?及其功能
Zookeeper的体系结构和数据模型
Zookeeper安装及测试
Zookeeper的Java接口
Watcher及内部事件
Zookeeper的工作原理
基于ZooKeeper的大数据的HA架构及其实现
|
基于Spark的大数据分析平台
|
Scala编程语言
|
Scala语言基础
Scala语言的面向对象
Scala语言的函数式编程
Scala中的集合
Scala语言的高级特性
|
Spark Core核心
|
什么是Spark?Spark生态圈
Spark的体系结构与安装部署
执行Spark Demo程序
Spark运行机制及原理分析
Spark的算子
Spark RDD的高级算子
Spark基础编程案例
|
Spark SQL数据分析引擎
|
Spark SQL基础
使用数据源
性能优化
在IDEA中开发Spark SQL程序
|
Spark Streaming流式计算框架
|
Structured Streaming基础
Structured Streaming的程序模型
Datasets 和 DataFrames API
管理和监控流式查询
|
基于Hadoop和Spark大数据平台的机器学习
|
Mahout和Spark MLlib
|
在机器学习中的使用,常用算法实战(Mahout和spark MLlib)
· Mahout与Spark MLLib
· 基于协同过滤算法
· 基于ALS协同过滤算法
· 基于Spark MLLib的逻辑回归算法
|
下一代大数据处理引擎
|
Flink
|
Flink介绍
Flink的数据集
Flink两种执行模型
Flink-流计算模型-有界数据集处理
Flink的DataSet API
Flink的DataStream API
广播变量、累加器和计数器
状态管理和恢复
Window和Time
Flink Table & SQL
|
|
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获