课程培训
Hadoop 生态系统实战培训课程

Hadoop 生态系统实战培训课程

课程介绍:

    Hadoop作为开源的云计算平台,为大数据处理提供了一整套解决方案,应用非常广泛。Hadoop作为一个平台框架,包括了如何存储海量数据,如何处理海量数据,以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库,等等。本课程主要介绍Hadoop的思想、原理,以及重要技术等相关知识。

Hadoop 生态实战培训目标:

深刻理解Hadoop原理与调优 深刻理解Hive原理掌握程序开发 深刻理解Hbase 掌握程序开发 深刻理解Hadoop 日常运维管理

Hadoop 生态系统实战培训课程大纲:

 

课程主题 

课程内容 

Hadoop和传统数据库技术优劣势对比 

   Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势 

   Hadoop 如何和传统IT系统配合完成原来不可能的任务 

   Hadoop版本讲解及Hadoop新旧版本使用对比 

案例及实验 

   Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本 

Hadoop的来源和动机 

   传统大规模系统存在的问题

   Hadoop概述

   Hadoop分布式文件系统

   MapReduce工作原理

   Hadoop集群剖析

   Hadoop生态系统对一种新的解决方案的需求 

   Hadoop的行业应用案例分析 

   Hadoop在云计算和大数据的位置和关系 

   非结构化数据与半结构化数据在大数据中的应用 

案例及实验 

   某银行数据统一处理平台,通过Hadoop进行系统优化 

   某电信运营商用户行为分析系统 

   某电力行业数据采集大数据分析案例 

   联通使用Hadoop/Hbase解决3G详单查询问题。 

Hadoop生态系统介绍和演示 

   Hadoop HDFS 和 MapReduce

   Hadoop数据库之HBase

 HBase架构及如何应用与编程开发相结合

   Hadoop数据仓库之Hive 

 Hive架构及如何应用与编程开发相结合

   Hadoop数据处理脚本Pig

 Pig架构及如何应用与编程开发相结合

   Hadoop数据接口Sqoop和Flume

 Sqoop和Flume架构及如何应用与编程开发相结合

   Hadoop工作流引擎 Oozie 

 Oozie架构及如何应用与编程开发相结合

   Hadoop生态系统各模块应用与编程开发相结合

案例及实验 

   某银行如何使用Hadoop统一数据平台 

   手机上网日志分析 

   移动GPRS上网日志查询系统 

   国家电网城区用电量分析 

   联通不良信息检测系统 

   电厂海量数据监控分析系统 

   某银行数据统一处理平台 

   海量指纹比对系统 

Hadoop集群调优 

l 选择适合hadoop的硬件配置

l Hadoop配置项优化

? Hadoop配置优化 - core-site.xml

? Hadoop配置优化 - hdfs-site.xml

? Hadoop配置优化 - mapred-site.xml

? Hadoop配置优化 - 机架感知

l 网络带宽参数调优

? 系统参数调优

? 配置文件管理

? 严格控制root权限

? JavaGC模式

l 选择正确的JDK

l hadoop作业调优

? Map side tuning设置

? Map side设置

l Linux操作系统优化

l 其他配置和参数调优

案例及实验 

l Hadoop硬件优化

l 不是所有的硬件都合适拿来直接使用

? 安装调优的第一步服务器硬件的选型的窍门

? 如何选择适合业务使用的CPU

? 内存越大越好吗?设置合理的的内存配置

? 连接网络的选择和优化

? 高速硬盘的选择注意事项

l 硬盘为什么不做raid

l 设置网络的注意事项

l 中间结果压缩对磁盘和网络的优化

l 机架感知,网络和磁盘IO优化作用,确定存储的具体位置,

l 内存参数,map/reduce槽位数的计算方法。

l 对磁盘和网络的优化

l Java工具使用,jstack使用

l Sunopen之间的区别,JIT编译器的使用

l inux系统参数调优

? Linux监控系统的使用

? cacti,

? ganglia

? 常用的linux排错工具lsof,strace,iostat,vmstat,netstat...

l 常见异常现象级处理方法 

? 网卡流量导致连接失败

? 权限错误

? 主机名IP转换错误

? NNDN namespaceID不一致

? 磁盘满导致报错

? Jave heap size OOM

Hadoop 2.0 

l Hadoop 1.0 存在的问题及现有的解决方案 

l Hadoop 2.0 各厂商版本对比 

l Apahce and CDH4 

l Hadoop 2.0 项目结构解析 

l Hadoop 2.0 环境搭建 

l Yarn MapReduce的不同 

l Yarn 原理与架构 

l Apache YARN基本框架 

l Apache YARN工作流程 

l Apache YARN设计细节 

l MapReduceYARN结合 

l 如何与Yarn来结合 

l yarn的优化、资源管理、优先级管理。

l Hadoop 生态系统解析 

l Hadoop 小图档方案 

l Hadoop 2.0 HDFS 运维管理 

n 丢失block的情况分析 

常见的故障排查 

HDFS高级程序实战演练 

   HDFS实战-命令行等使用 

   HDFS命令行工具

   启动、停止HDFS服务

   如何查看HDFS日志

   如何查看HDFS Web控制台

   HDFS参数配置

案例及实验 

   HDFS实战-Java API使用 

   Eclipse 开发环境介绍 

   HDFS 开发基本步骤 

   HDFS Java API详解 

   Configuration 

   Path 

   FileSystem 

   Stream、IOUtils 

Hadoop HDFS HA方案介绍 

   Hadoop 1.0 系 HA的一些办法 

   Hadoop 2.0 介绍 

MapReduce高级程序实战演练 

   使用 Hadoop MapReduce Streaming 编程 

   MapReduce流程

   剖析一个MapReduce程序

   基本MapReduceAPI 概念

   驱动代码 Mapper、Reducer 

   Hadoop流

   API 使用Eclipse进行快速开发

   新MapReduce API

   MapReduce的优化 

   MapReduce的任务调度 

   MapReduce编程实战

   满足解决实际数据分析问题的高级Hadoop API 

案例及实验 

   Hadoop Streaming 和 Java MapReduce Api 差异。 

   MapReduce 实现数据库功能 

   利用Combiners来减少中间数据 

   编写Partitioner来优化负载平衡 

   直接访问Hadoop分布式文件系统(HDFS) 

   Hadoop的join操作 

   辅助排序在Reducer方的合并 

   定制Writables和WritableComparables

   使用SequenceFiles和Avro文件保存二进制数据

   创建InputFormats OutputFormats 

   Hadoop的二次排序 

   Hadoop的海量日志分析 

   在Map方的合并

Hadoop SQL 接口Hive 

   Hive基础

   Hive的作用和原理说明 

   Hadoop仓库和传统数据仓库的协作关系;Hive与传统数据库的对接使用 

   Hadoop/Hive仓库数据数据流 

   Hive Cli 的基本用法 

   HQL基本语法 

   自行编写数据库与Hadoop相互ETL工具的思路 

案例及实验 

   使用JDBC 连接Hive进行查询和分析 

   使用正则表达式加载数据 

   HQL高级语法 

   编写UDF函数 

   编写UDAF自定义函数 

   执行嵌套sql的优化 

Hadoop数据库之HBase及HBase优化 

   hbase概念与架构

   hbase核心知识点 

   hbase安装、部署 

   HBase配置优化综述 

   表设计优化相关参数 

   监控工具使用方法及注意事项 

   常见异常现象级处理方法 

案例及实验 

   hot region造成读请求瓶颈 

   region预划分 

   Memstore合并设置的时机选择 

   合并storefile策略设置技巧 

   Memstore flush设置时机选择 

   Hbase-env.shSinglemulti-threadCMS使用及参数调整 

   GC回收垃圾时机、GC日志打印设置 

   GC阶段,region无法提供服务如何如何处理 

   Split时机控制(增大、disable)方法 

   CF数量多少对读写性能的影响 

   自动关闭flush的目的 

 

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

微信号.jpg

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>