主题1:大数据平台方案与实施
· 大数据基础与发展过程
· 传统大规模数据处理与分析存在的问题
· 大数据计算框架
o 离线计算框架
o 流式计算框架
o 内存计算框架
· 大数据平台方案
o Apache Hadoop方案
§ 核心组件
§ Hadoop 1.0与2.0版本关联与区别
§ Hadoop生态系统
o 国外主流大数据平台方案
§ CDH 、Hortonworks、MapR
§ 传统IT公司方案:Oracle Exadata,SAP HANA
o 国内主流大数据平台方案与厂商
o 大数据平台方案比较
· 大数据的行业应用
· 大数据的落地实施挑战
主题2:大数据计算模型(一)–批处理MapReduce
· MapReduce编程模型
o Map处理
o Reduce处理
o MapReduce主程序设置
· MapReduce处理流程
o 数据读取collect
o 中间数据sort
o 中间数据spill
o 中间数据shuffle
o 聚合分析reduce
· MapReduce开发高级应用
o Combiner技术与应用场景
o Partitioner技术与应用场景
o 多Reducers应用
· MapReduce开发与应用实践
o Hadoop平台搭建与运行
o MapReduce安装与部署
o 应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行
主题3:大数据存储系统
· HDFS分布式文件系统
o HDFS系统架构与原理
o NameNode功能详解
§ fsimage和editslog
o DataNode功能详解
§ block的备份策略
o HDFS读写机制
o HDFS高可用方案
§ NameNode单点故障解决方案
§ NFS冷备份
|
|
主题4:Hadoop软件框架与优化
· Hadoop1.0框架
o Hadoop JobTracker
o Hadoop TaskTracker
· Hadoop 2.0 框架
o ResourceManager组件
o NodeManager组件
o ApplicationMaster组件
o YARN组件
· Hadoop 2.0 资源调度优化
o YARN调度原理
o CapacityScheduler
o FairScheduler
· Hadoop框架组件调优
o 慢启动优化
o 心跳优化
o 容错优化
o MR计算框架参数调优
· HDFS调优
o RPC线程调优
o 本地文件系统调优
o RAID与卷管理调优
o 小文件优化
主题5:大数据计算模型(二)实时交互计算– Spark
· Spark编程模型
o Scala:面向函数的编程
o Scala常见函数与开发
o Scala编译和运行
· Spark RDD开发模型
o Spark RDD运行机制
o Spark RDD主要Transformation
§ map
§ flatmap
§ filter
§ union
§ reduceByKey
§ groupByKey
o Spark RDD主要Action
§ count
§ collect
§ saveAsTextFile
o Spark RDD依赖关系
§ 宽依赖
§ 窄依赖
· Spark集群架构与关键组件
· Spark作业运行机制
o 执行DAG图
o 任务集
o executor执行模型
· Spark开发与应用实践
o Spark运行环境搭建与部署
o 应用案例
§ 基于HDFS+Flume+Spark的服务器运行日志实时分析Spark程序实例开发与运行
主题6:SQL on Hadoop大数据查询
· 基于MapReduce的大数据查询Hive
o Hive架构与工作原理
o Hive数据加载
o Hive内部表和外部表
o Hive分区表和分通表
o Hive的存储方式
§ 列存储和行存储
o Hive SQL基本操作
· 基于Spark的大数据查询SparkSQL
o SparkSQL工作原理与执行机制
o SparkSQL数据模型DataFrame
o SparkSQL数据读取与结果保存
§ json
§ Hive table
§ Parquet file
§ RDD
o SparkSQL和Hive的区别与联系
o 实践SparkSQL操作
§ 数据表读取、查询与结果保存
|
|
主题7:大数据计算模型(三) 流计算
· 流数据处理应用场景
o 流数据处理特点
o 流计算系统:SparkStreaming,Storm对比
· 流数据计算框架:Spark Streaming
o Spark Streaming基本概念
o Spark Streaming数据模型DStream
o Spark Streaming架构与工作机制
o Spark Streaming数据源操作
o Spark Streaming开发示例
§ 基于文件流的SparkStraeming程序
§ 基于socket流的SparkStraeming程序
· 流数据计算框架:Storm
o Storm基本概念
o Storm编程模型
§ Spout,Bolt, Topology
o 数据流分组
o 并发度设置
o 容错机制
主题8:NoSQL数据库
· NoSQL数据库
o 关系型数据库瓶颈
o NoSQL数据库概念,分类与适用场景
§ HBase,MongoDB,Redis
· 列存储NoSQL数据库HBase
o Hbase原理与数据模型
§ 行、列簇、时间戳
o HBase系统架构
§ Hmaster
§ RegionServer
§ Zookeeper
o HBase的读写机制
§ LSM结构的数据组织与读写
o Hbase表的设计原则
§ 高表与宽表
§ rowkey设计
o Hbase适用场景
主题9:大数据采集
· RDBMS与Hadoop数据转换工具Sqoop
o Sqoop工作原理
· 文件采集工具Flume
o Flume组件与运行
o Flume常用配置
· Kafka
o Kafka基本概念: producer, broker, consumer
o Kafka集群架构
o Kafka运行机制
o Kafka应用场景
|
|
如果您想学习本课程,请
预约报名
如果没找到合适的课程或有特殊培训需求,请
订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击
服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。
专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值