Hadoop 生态系统实战培训课程
课程介绍:
Hadoop作为开源的云计算平台,为大数据处理提供了一整套解决方案,应用非常广泛。Hadoop作为一个平台框架,包括了如何存储海量数据,如何处理海量数据,以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库,等等。本课程主要介绍Hadoop的思想、原理,以及重要技术等相关知识。
Hadoop 生态实战培训目标:
深刻理解Hadoop原理与调优 深刻理解Hive原理掌握程序开发 深刻理解Hbase 掌握程序开发 深刻理解Hadoop 日常运维管理
Hadoop 生态系统实战培训课程大纲:
课程主题
|
课程内容
|
Hadoop和传统数据库技术优劣势对比
|
Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势
Hadoop 如何和传统IT系统配合完成原来不可能的任务
Hadoop版本讲解及Hadoop新旧版本使用对比
|
案例及实验
|
Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本
|
Hadoop的来源和动机
|
传统大规模系统存在的问题
Hadoop概述
Hadoop分布式文件系统
MapReduce工作原理
Hadoop集群剖析
Hadoop生态系统对一种新的解决方案的需求
Hadoop的行业应用案例分析
Hadoop在云计算和大数据的位置和关系
非结构化数据与半结构化数据在大数据中的应用
|
案例及实验
|
某银行数据统一处理平台,通过Hadoop进行系统优化
某电信运营商用户行为分析系统
某电力行业数据采集大数据分析案例
联通使用Hadoop/Hbase解决3G详单查询问题。
|
Hadoop生态系统介绍和演示
|
Hadoop HDFS 和 MapReduce
Hadoop数据库之HBase
● HBase架构及如何应用与编程开发相结合
Hadoop数据仓库之Hive
● Hive架构及如何应用与编程开发相结合
Hadoop数据处理脚本Pig
● Pig架构及如何应用与编程开发相结合
Hadoop数据接口Sqoop和Flume
● Sqoop和Flume架构及如何应用与编程开发相结合
Hadoop工作流引擎 Oozie
● Oozie架构及如何应用与编程开发相结合
Hadoop生态系统各模块应用与编程开发相结合
|
案例及实验
|
某银行如何使用Hadoop统一数据平台
手机上网日志分析
移动GPRS上网日志查询系统
国家电网城区用电量分析
联通不良信息检测系统
电厂海量数据监控分析系统
某银行数据统一处理平台
海量指纹比对系统
|
Hadoop集群调优
|
l 选择适合hadoop的硬件配置
l Hadoop配置项优化
? Hadoop配置优化 - core-site.xml
? Hadoop配置优化 - hdfs-site.xml
? Hadoop配置优化 - mapred-site.xml
? Hadoop配置优化 - 机架感知
l 网络带宽参数调优
? 系统参数调优
? 配置文件管理
? 严格控制root权限
? Java的GC模式
l 选择正确的JDK
l hadoop作业调优
? Map side tuning设置
? Map side设置
l Linux操作系统优化
l 其他配置和参数调优
|
案例及实验
|
l Hadoop硬件优化
l 不是所有的硬件都合适拿来直接使用
? 安装调优的第一步服务器硬件的选型的窍门
? 如何选择适合业务使用的CPU
? 内存越大越好吗?设置合理的的内存配置
? 连接网络的选择和优化
? 高速硬盘的选择注意事项
l 硬盘为什么不做raid?
l 设置网络的注意事项
l 中间结果压缩对磁盘和网络的优化
l 机架感知,网络和磁盘IO优化作用,确定存储的具体位置,
l 内存参数,map/reduce槽位数的计算方法。
l 对磁盘和网络的优化
l Java工具使用,jstack使用
l Sun和open之间的区别,JIT编译器的使用
l inux系统参数调优
? Linux监控系统的使用
? cacti,
? ganglia
? 常用的linux排错工具lsof,strace,iostat,vmstat,netstat...
l 常见异常现象级处理方法
? 网卡流量导致连接失败
? 权限错误
? 主机名IP转换错误
? NN与DN namespaceID不一致
? 磁盘满导致报错
? Jave heap size OOM
|
Hadoop 2.0
|
l Hadoop 1.0 存在的问题及现有的解决方案
l Hadoop 2.0 各厂商版本对比
l Apahce and CDH4
l Hadoop 2.0 项目结构解析
l Hadoop 2.0 环境搭建
l Yarn 与MapReduce的不同
l Yarn 原理与架构
l Apache YARN基本框架
l Apache YARN工作流程
l Apache YARN设计细节
l MapReduce与YARN结合
l 如何与Yarn来结合
l yarn的优化、资源管理、优先级管理。
l Hadoop 生态系统解析
l Hadoop 小图档方案
l Hadoop 2.0 HDFS 运维管理
n 丢失block的情况分析
常见的故障排查
|
HDFS高级程序实战演练
|
HDFS实战-命令行等使用
HDFS命令行工具
启动、停止HDFS服务
如何查看HDFS日志
如何查看HDFS Web控制台
HDFS参数配置
|
案例及实验
|
HDFS实战-Java API使用
Eclipse 开发环境介绍
HDFS 开发基本步骤
HDFS Java API详解
Configuration
Path
FileSystem
Stream、IOUtils
|
Hadoop HDFS HA方案介绍
|
Hadoop 1.0 系 HA的一些办法
Hadoop 2.0 介绍
|
MapReduce高级程序实战演练
|
使用 Hadoop MapReduce Streaming 编程
MapReduce流程
剖析一个MapReduce程序
基本MapReduceAPI 概念
驱动代码 Mapper、Reducer
Hadoop流
API 使用Eclipse进行快速开发
新MapReduce API
MapReduce的优化
MapReduce的任务调度
MapReduce编程实战
满足解决实际数据分析问题的高级Hadoop API
|
案例及实验
|
Hadoop Streaming 和 Java MapReduce Api 差异。
MapReduce 实现数据库功能
利用Combiners来减少中间数据
编写Partitioner来优化负载平衡
直接访问Hadoop分布式文件系统(HDFS)
Hadoop的join操作
辅助排序在Reducer方的合并
定制Writables和WritableComparables
使用SequenceFiles和Avro文件保存二进制数据
创建InputFormats OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并
|
Hadoop SQL 接口Hive
|
Hive基础
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系;Hive与传统数据库的对接使用
Hadoop/Hive仓库数据数据流
Hive Cli 的基本用法
HQL基本语法
自行编写数据库与Hadoop相互ETL工具的思路
|
案例及实验
|
使用JDBC 连接Hive进行查询和分析
使用正则表达式加载数据
HQL高级语法
编写UDF函数
编写UDAF自定义函数
执行嵌套sql的优化
|
Hadoop数据库之HBase及HBase优化
|
hbase概念与架构
hbase核心知识点
hbase安装、部署
HBase配置优化综述
表设计优化相关参数
监控工具使用方法及注意事项
常见异常现象级处理方法
|
案例及实验
|
hot region造成读请求瓶颈
region预划分
Memstore合并设置的时机选择
合并storefile策略设置技巧
Memstore flush设置时机选择
Hbase-env.sh、Single、multi-thread、CMS使用及参数调整
GC回收垃圾时机、GC日志打印设置
GC阶段,region无法提供服务如何如何处理
Split时机控制(增大、disable)方法
CF数量多少对读写性能的影响
自动关闭flush的目的
|
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获