主要内容:
1.Spark在Ubuntu虚拟机上的分布式集群环境搭建
2.基于Python的Spark编程基础
3.Spark MLlib的使用(.py文件):回归预测、聚类、关联规则、神经网络预测
4.Spark在阿里云的使用(.py文件)
5.Spark在AWS亚马逊云的使用
6.预测算法介绍
课程大纲:
1.Spark入门及生态体系
概述
Spark生态
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel将被取代)
弹性分布式数据集(RDD)
2.Python Spark基础介绍
Spark 编程模型
RDD缓存策略
Spark Python编程入门
PySpark
惰性计算(Lazy Evaluation)
流水线(Pipelines)
3.分布式集群搭建
Spark-1.6.1、Hadoop-2.6.4、VMware Ubuntu分布式集群搭建全过程
Ubuntu基本环境配置
集群安装准备
安装配置Hadoop
安装配置Spark
4.基于Python的Spark编程实战
概述
连接Spark
初始化Spark
使用命令行
弹性分布式数据集(RDD)
RDD操作
RDD持久化
在集群上部署
用Python编写的一个简单Spark应用
5.Spark MLlib的使用
机器学习概念
Spark MLlib介绍
Spark MLlib架构解析
MLlib的算法库分析
用Spark Python构建分类模型
使用 Spark MLlib 做 K-means 聚类分析
6.Spark在阿里云的使用
阿里云服务介绍
阿里云搭建Spark集群过程
计算π值和Kmeans实验
7.spark在AWS亚马逊云的使用
亚马逊AWS云服务的内容
亚马逊的EMR中提供的3种主要组件
Spark on Amazon EMR架构解析
应用案例:构建1000个节点的Spark集群
Spark应用
8.预测算法介绍
用Spark Python构建回归模型
9.案例介绍
使用 Spark 模块解析
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请
服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。
专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获