Hadoop 生态系统实战培训课程-中科信软培训中心

课程培训

数字技术培训

MicroSoft培训

Oracle培训

Java培训

机械设计培训

CFD培训

CAE培训

其它开发

华为/华三技术

软考类

Hadoop 生态系统实战培训课程

课程介绍：

Hadoop作为开源的云计算平台，为大数据处理提供了一整套解决方案，应用非常广泛。Hadoop作为一个平台框架，包括了如何存储海量数据，如何处理海量数据，以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库，等等。本课程主要介绍Hadoop的思想、原理，以及重要技术等相关知识。

Hadoop 生态实战培训目标：

深刻理解Hadoop原理与调优深刻理解Hive原理掌握程序开发深刻理解Hbase 掌握程序开发深刻理解Hadoop 日常运维管理

Hadoop 生态系统实战培训课程大纲：

课程主题	课程内容
Hadoop和传统数据库技术优劣势对比	Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势 Hadoop 如何和传统IT系统配合完成原来不可能的任务 Hadoop版本讲解及Hadoop新旧版本使用对比
	案例及实验
	Apache社区版本：Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本
Hadoop的来源和动机	传统大规模系统存在的问题 Hadoop概述 Hadoop分布式文件系统 MapReduce工作原理 Hadoop集群剖析 Hadoop生态系统对一种新的解决方案的需求 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系非结构化数据与半结构化数据在大数据中的应用
	案例及实验
	某银行数据统一处理平台，通过Hadoop进行系统优化某电信运营商用户行为分析系统某电力行业数据采集大数据分析案例联通使用Hadoop/Hbase解决3G详单查询问题。
Hadoop生态系统介绍和演示	Hadoop HDFS 和 MapReduce Hadoop数据库之HBase ● HBase架构及如何应用与编程开发相结合 Hadoop数据仓库之Hive ● Hive架构及如何应用与编程开发相结合 Hadoop数据处理脚本Pig ● Pig架构及如何应用与编程开发相结合 Hadoop数据接口Sqoop和Flume ● Sqoop和Flume架构及如何应用与编程开发相结合 Hadoop工作流引擎 Oozie ● Oozie架构及如何应用与编程开发相结合 Hadoop生态系统各模块应用与编程开发相结合
	案例及实验
	某银行如何使用Hadoop统一数据平台手机上网日志分析移动GPRS上网日志查询系统国家电网城区用电量分析联通不良信息检测系统电厂海量数据监控分析系统某银行数据统一处理平台海量指纹比对系统
Hadoop集群调优	l 选择适合hadoop的硬件配置 l Hadoop配置项优化 ? Hadoop配置优化 - core-site.xml ? Hadoop配置优化 - hdfs-site.xml ? Hadoop配置优化 - mapred-site.xml ? Hadoop配置优化 - 机架感知 l 网络带宽参数调优 ? 系统参数调优 ? 配置文件管理 ? 严格控制root权限 ? Java的GC模式 l 选择正确的JDK l hadoop作业调优 ? Map side tuning设置 ? Map side设置 l Linux操作系统优化 l 其他配置和参数调优
	案例及实验
	l Hadoop硬件优化 l 不是所有的硬件都合适拿来直接使用 ? 安装调优的第一步服务器硬件的选型的窍门 ? 如何选择适合业务使用的CPU ? 内存越大越好吗？设置合理的的内存配置 ? 连接网络的选择和优化 ? 高速硬盘的选择注意事项 l 硬盘为什么不做raid？ l 设置网络的注意事项 l 中间结果压缩对磁盘和网络的优化 l 机架感知，网络和磁盘IO优化作用，确定存储的具体位置， l 内存参数，map/reduce槽位数的计算方法。 l 对磁盘和网络的优化 l Java工具使用，jstack使用 l Sun和open之间的区别，JIT编译器的使用 l inux系统参数调优 ? Linux监控系统的使用 ? cacti, ? ganglia ? 常用的linux排错工具lsof,strace,iostat,vmstat,netstat... l 常见异常现象级处理方法 ? 网卡流量导致连接失败 ? 权限错误 ? 主机名IP转换错误 ? NN与DN namespaceID不一致 ? 磁盘满导致报错 ? Jave heap size OOM
Hadoop 2.0	l Hadoop 1.0 存在的问题及现有的解决方案 l Hadoop 2.0 各厂商版本对比 l Apahce and CDH4 l Hadoop 2.0 项目结构解析 l Hadoop 2.0 环境搭建 l Yarn 与MapReduce的不同 l Yarn 原理与架构 l Apache YARN基本框架 l Apache YARN工作流程 l Apache YARN设计细节 l MapReduce与YARN结合 l 如何与Yarn来结合 l yarn的优化、资源管理、优先级管理。 l Hadoop 生态系统解析 l Hadoop 小图档方案 l Hadoop 2.0 HDFS 运维管理 n 丢失block的情况分析常见的故障排查
HDFS高级程序实战演练	HDFS实战-命令行等使用 HDFS命令行工具启动、停止HDFS服务如何查看HDFS日志如何查看HDFS Web控制台 HDFS参数配置
	案例及实验
	HDFS实战-Java API使用 Eclipse 开发环境介绍 HDFS 开发基本步骤 HDFS Java API详解 Configuration Path FileSystem Stream、IOUtils
Hadoop HDFS HA方案介绍	Hadoop 1.0 系 HA的一些办法 Hadoop 2.0 介绍
MapReduce高级程序实战演练	使用 Hadoop MapReduce Streaming 编程 MapReduce流程剖析一个MapReduce程序基本MapReduceAPI 概念驱动代码 Mapper、Reducer Hadoop流 API 使用Eclipse进行快速开发新MapReduce API MapReduce的优化 MapReduce的任务调度 MapReduce编程实战满足解决实际数据分析问题的高级Hadoop API
	案例及实验
	Hadoop Streaming 和 Java MapReduce Api 差异。 MapReduce 实现数据库功能利用Combiners来减少中间数据编写Partitioner来优化负载平衡直接访问Hadoop分布式文件系统（HDFS） Hadoop的join操作辅助排序在Reducer方的合并定制Writables和WritableComparables 使用SequenceFiles和Avro文件保存二进制数据创建InputFormats OutputFormats Hadoop的二次排序 Hadoop的海量日志分析在Map方的合并
Hadoop SQL 接口Hive	Hive基础 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系；Hive与传统数据库的对接使用 Hadoop/Hive仓库数据数据流 Hive Cli 的基本用法 HQL基本语法自行编写数据库与Hadoop相互ETL工具的思路
	案例及实验
	使用JDBC 连接Hive进行查询和分析使用正则表达式加载数据 HQL高级语法编写UDF函数编写UDAF自定义函数执行嵌套sql的优化
Hadoop数据库之HBase及HBase优化	hbase概念与架构 hbase核心知识点 hbase安装、部署 HBase配置优化综述表设计优化相关参数监控工具使用方法及注意事项常见异常现象级处理方法
	案例及实验
	hot region造成读请求瓶颈 region预划分 Memstore合并设置的时机选择合并storefile策略设置技巧 Memstore flush设置时机选择 Hbase-env.sh、Single、multi-thread、CMS使用及参数调整 GC回收垃圾时机、GC日志打印设置 GC阶段，region无法提供服务如何如何处理 Split时机控制（增大、disable）方法 CF数量多少对读写性能的影响自动关闭flush的目的

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn