课程培训
大数据开发高级技巧与调优培训课程

主题1:大数据平台方案与实施

· 大数据基础与发展过程

· 传统大规模数据处理与分析存在的问题

· 大数据计算框架

o 离线计算框架

o 流式计算框架

o 内存计算框架

· 大数据平台方案

o Apache Hadoop方案

§ 核心组件

§ Hadoop 1.0与2.0版本关联与区别

§ Hadoop生态系统

o 国外主流大数据平台方案

§ CDH 、Hortonworks、MapR

§ 传统IT公司方案:Oracle Exadata,SAP HANA

o 国内主流大数据平台方案与厂商

o 大数据平台方案比较

· 大数据的行业应用

· 大数据的落地实施挑战

 

主题2:大数据计算模型(一)–批处理MapReduce

· MapReduce编程模型

o Map处理

o Reduce处理

o MapReduce主程序设置

· MapReduce处理流程

o 数据读取collect

o 中间数据sort

o 中间数据spill

o 中间数据shuffle

o 聚合分析reduce

· MapReduce开发高级应用

o Combiner技术与应用场景

o Partitioner技术与应用场景

o 多Reducers应用

· MapReduce开发与应用实践

o Hadoop平台搭建与运行

o MapReduce安装与部署

o 应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行

 

主题3:大数据存储系统

· HDFS分布式文件系统

o HDFS系统架构与原理

o NameNode功能详解

§ fsimage和editslog

o DataNode功能详解

§ block的备份策略

o HDFS读写机制

o HDFS高可用方案

§ NameNode单点故障解决方案

§ NFS冷备份

 

 

主题4:Hadoop软件框架与优化

· Hadoop1.0框架

o Hadoop JobTracker

o Hadoop TaskTracker

· Hadoop 2.0 框架

o ResourceManager组件

o NodeManager组件

o ApplicationMaster组件

o YARN组件

· Hadoop 2.0 资源调度优化

o YARN调度原理

o CapacityScheduler

o FairScheduler

· Hadoop框架组件调优

o 慢启动优化

o 心跳优化

o 容错优化

o MR计算框架参数调优

· HDFS调优

o RPC线程调优

o 本地文件系统调优

o RAID与卷管理调优

o 小文件优化

 

主题5:大数据计算模型(二)实时交互计算– Spark

· Spark编程模型

o Scala:面向函数的编程

o Scala常见函数与开发

o Scala编译和运行

· Spark RDD开发模型

o Spark RDD运行机制

o Spark RDD主要Transformation

§ map

§ flatmap

§ filter

§ union

§ reduceByKey

§ groupByKey

o Spark RDD主要Action

§ count

§ collect

§ saveAsTextFile

o Spark RDD依赖关系

§ 宽依赖

§ 窄依赖

· Spark集群架构与关键组件

· Spark作业运行机制

o 执行DAG图

o 任务集

o executor执行模型

· Spark开发与应用实践

o Spark运行环境搭建与部署

o 应用案例

§ 基于HDFS+Flume+Spark的服务器运行日志实时分析Spark程序实例开发与运行

 

 

主题6:SQL on Hadoop大数据查询

· 基于MapReduce的大数据查询Hive

o Hive架构与工作原理

o Hive数据加载

o Hive内部表和外部表

o Hive分区表和分通表

o Hive的存储方式

§ 列存储和行存储

o Hive SQL基本操作

· 基于Spark的大数据查询SparkSQL

o SparkSQL工作原理与执行机制

o SparkSQL数据模型DataFrame

o SparkSQL数据读取与结果保存

§ json

§ Hive table

§ Parquet file

§ RDD

o SparkSQL和Hive的区别与联系

o 实践SparkSQL操作

§ 数据表读取、查询与结果保存

 

 

主题7:大数据计算模型(三) 流计算

· 流数据处理应用场景

o 流数据处理特点

o 流计算系统:SparkStreaming,Storm对比

· 流数据计算框架:Spark Streaming

o Spark Streaming基本概念

o Spark Streaming数据模型DStream

o Spark Streaming架构与工作机制

o Spark Streaming数据源操作

o Spark Streaming开发示例

§ 基于文件流的SparkStraeming程序

§ 基于socket流的SparkStraeming程序

· 流数据计算框架:Storm

o Storm基本概念

o Storm编程模型

§ Spout,Bolt, Topology

o 数据流分组

o 并发度设置

o 容错机制

 

主题8:NoSQL数据库

· NoSQL数据库

o 关系型数据库瓶颈

o NoSQL数据库概念,分类与适用场景

§ HBase,MongoDB,Redis

· 列存储NoSQL数据库HBase

o Hbase原理与数据模型

§ 行、列簇、时间戳

o HBase系统架构

§ Hmaster

§ RegionServer

§ Zookeeper

o HBase的读写机制

§ LSM结构的数据组织与读写

o Hbase表的设计原则

§ 高表与宽表

§ rowkey设计

o Hbase适用场景

 

主题9:大数据采集

· RDBMS与Hadoop数据转换工具Sqoop

o Sqoop工作原理

· 文件采集工具Flume

o Flume组件与运行

o Flume常用配置

· Kafka

o Kafka基本概念: producer, broker, consumer

o Kafka集群架构

o Kafka运行机制

o Kafka应用场景

 

 

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。

专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

微信号.jpg

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>
技术支持:帮做网络