通过培训您将会:
深刻理解Hadoop原理与调优
深刻理解Hive原理掌握程序开发
深刻理解Hbase 掌握程序开发
深刻理解Hadoop 日常运维管理
课程大纲:
Hadoop和传统数据库技术优劣势对比
Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势
Hadoop 如何和传统IT系统配合完成原来不可能的任务
Hadoop版本讲解及Hadoop新旧版本使用对比
案例及实验
Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本
Hadoop的来源和动机
传统大规模系统存在的问题
Hadoop概述
Hadoop分布式文件系统
MapReduce工作原理
Hadoop集群剖析
Hadoop生态系统对一种新的解决方案的需求
Hadoop的行业应用案例分析
Hadoop在云计算和大数据的位置和关系
非结构化数据与半结构化数据在大数据中的应用
案例及实验
某银行数据统一处理平台,通过Hadoop进行系统优化
某电信运营商用户行为分析系统
某电力行业数据采集大数据分析案例
联通使用Hadoop/Hbase解决3G详单查询问题。
Hadoop生态系统介绍和演示
Hadoop HDFS 和 MapReduce
Hadoop数据库之HBase
HBase架构及如何应用与编程开发相结合
Hadoop数据仓库之Hive
Hive架构及如何应用与编程开发相结合
Hadoop数据处理脚本Pig
Pig架构及如何应用与编程开发相结合
Hadoop数据接口Sqoop和Flume
Sqoop和Flume架构及如何应用与编程开发相结合
Hadoop工作流引擎 Oozie
Oozie架构及如何应用与编程开发相结合
Hadoop生态系统各模块应用与编程开发相结合
案例及实验
某银行如何使用Hadoop统一数据平台
手机上网日志分析
移动GPRS上网日志查询系统
国家电网城区用电量分析
联通不良信息检测系统
电厂海量数据监控分析系统
某银行数据统一处理平台
海量指纹比对系统
Hadoop集群调优
选择适合hadoop的硬件配置
Hadoop配置项优化
Hadoop配置优化 - core-site.xml
Hadoop配置优化 - hdfs-site.xml
Hadoop配置优化 - mapred-site.xml
Hadoop配置优化 - 机架感知
网络带宽参数调优
系统参数调优
配置文件管理
严格控制root权限
Java的GC模式
选择正确的JDK
hadoop作业调优
Map side tuning设置
Map side设置
Linux操作系统优化
其他配置和参数调优
案例及实验
Hadoop硬件优化
不是所有的硬件都合适拿来直接使用
安装调优的第一步服务器硬件的选型的窍门
如何选择适合业务使用的CPU
内存越大越好吗?设置合理的的内存配置
连接网络的选择和优化
高速硬盘的选择注意事项
硬盘为什么不做raid?
设置网络的注意事项
中间结果压缩对磁盘和网络的优化
机架感知,网络和磁盘IO优化作用,确定存储的具体位置,
内存参数,map/reduce槽位数的计算方法。
对磁盘和网络的优化
Java工具使用,jstack使用
Sun和open之间的区别,JIT编译器的使用
inux系统参数调优
Linux监控系统的使用
cacti,
ganglia
常用的linux排错工具lsof,strace,iostat,vmstat,netstat...
常见异常现象级处理方法
网卡流量导致连接失败
权限错误
主机名IP转换错误
NN与DN namespaceID不一致
磁盘满导致报错
Jave heap size OOM
Hadoop 2.0
Hadoop 1.0 存在的问题及现有的解决方案
Hadoop 2.0 各厂商版本对比
Apahce and CDH4
Hadoop 2.0 项目结构解析
Hadoop 2.0 环境搭建
Yarn 与MapReduce的不同
Yarn 原理与架构
Apache YARN基本框架
Apache YARN工作流程
Apache YARN设计细节
MapReduce与YARN结合
如何与Yarn来结合
yarn的优化、资源管理、优先级管理。
Hadoop 生态系统解析
Hadoop 小图档方案
Hadoop 2.0 HDFS 运维管理
丢失block的情况分析
常见的故障排查
HDFS高级程序实战演练
HDFS实战-命令行等使用
HDFS命令行工具
启动、停止HDFS服务
如何查看HDFS日志
如何查看HDFS Web控制台
HDFS参数配置
案例及实验
HDFS实战-Java API使用
Eclipse 开发环境介绍
HDFS 开发基本步骤
HDFS Java API详解
Configuration
Path
FileSystem
Stream、IOUtils
Hadoop HDFS HA方案介绍
Hadoop 1.0 系 HA的一些办法
Hadoop 2.0 介绍
MapReduce高级程序实战演练
使用 Hadoop MapReduce Streaming 编程
MapReduce流程
剖析一个MapReduce程序
基本MapReduceAPI 概念
驱动代码 Mapper、Reducer
Hadoop流
API 使用Eclipse进行快速开发
新MapReduce API
MapReduce的优化
MapReduce的任务调度
MapReduce编程实战
满足解决实际数据分析问题的高级Hadoop API
案例及实验
Hadoop Streaming 和 Java MapReduce Api 差异。
MapReduce 实现数据库功能
利用Combiners来减少中间数据
编写Partitioner来优化负载平衡
直接访问Hadoop分布式文件系统(HDFS)
Hadoop的join操作
辅助排序在Reducer方的合并
定制Writables和WritableComparables
使用SequenceFiles和Avro文件保存二进制数据
创建InputFormats OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并
Hadoop SQL 接口Hive
Hive基础
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系;Hive与传统数据库的对接使用
Hadoop/Hive仓库数据数据流
Hive Cli 的基本用法
HQL基本语法
自行编写数据库与Hadoop相互ETL工具的思路
案例及实验
使用JDBC 连接Hive进行查询和分析
使用正则表达式加载数据
HQL高级语法
编写UDF函数
编写UDAF自定义函数
执行嵌套sql的优化
Hadoop数据库之HBase及HBase优化
hbase概念与架构
hbase核心知识点
hbase安装、部署
HBase配置优化综述
表设计优化相关参数
监控工具使用方法及注意事项
常见异常现象级处理方法
案例及实验
hot region造成读请求瓶颈
region预划分
Memstore合并设置的时机选择
合并storefile策略设置技巧
Memstore flush设置时机选择
Hbase-env.sh、Single、multi-thread、CMS使用及参数调整
GC回收垃圾时机、GC日志打印设置
GC阶段,region无法提供服务如何如何处理
Split时机控制(增大、disable)方法
CF数量多少对读写性能的影响
自动关闭flush的目的
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获