大数据开发高级技巧与调优培训课程

课程培训

嵌入式培训

软件开发培训

C A X

数据分析培训

质量管理培训

科研项目

科学软件培训

电力技术

LabVIEW培训与咨询

matlab培训与咨询

ERP培训与咨询

大数据开发高级技巧与调优培训课程

主题1：大数据平台方案与实施

· 大数据基础与发展过程

· 传统大规模数据处理与分析存在的问题

· 大数据计算框架

o 离线计算框架

o 流式计算框架

o 内存计算框架

· 大数据平台方案

o Apache Hadoop方案

§ 核心组件

§ Hadoop 1.0与2.0版本关联与区别

§ Hadoop生态系统

o 国外主流大数据平台方案

§ CDH 、Hortonworks、MapR

§ 传统IT公司方案：Oracle Exadata，SAP HANA

o 国内主流大数据平台方案与厂商

o 大数据平台方案比较

· 大数据的行业应用

· 大数据的落地实施挑战

主题2：大数据计算模型（一）–批处理MapReduce

· MapReduce编程模型

o Map处理

o Reduce处理

o MapReduce主程序设置

· MapReduce处理流程

o 数据读取collect

o 中间数据sort

o 中间数据spill

o 中间数据shuffle

o 聚合分析reduce

· MapReduce开发高级应用

o Combiner技术与应用场景

o Partitioner技术与应用场景

o 多Reducers应用

· MapReduce开发与应用实践

o Hadoop平台搭建与运行

o MapReduce安装与部署

o 应用案例：基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行

主题3：大数据存储系统

· HDFS分布式文件系统

o HDFS系统架构与原理

o NameNode功能详解

§ fsimage和editslog

o DataNode功能详解

§ block的备份策略

o HDFS读写机制

o HDFS高可用方案

§ NameNode单点故障解决方案

§ NFS冷备份

主题4：Hadoop软件框架与优化

· Hadoop1.0框架

o Hadoop JobTracker

o Hadoop TaskTracker

· Hadoop 2.0 框架

o ResourceManager组件

o NodeManager组件

o ApplicationMaster组件

o YARN组件

· Hadoop 2.0 资源调度优化

o YARN调度原理

o CapacityScheduler

o FairScheduler

· Hadoop框架组件调优

o 慢启动优化

o 心跳优化

o 容错优化

o MR计算框架参数调优

· HDFS调优

o RPC线程调优

o 本地文件系统调优

o RAID与卷管理调优

o 小文件优化

主题5：大数据计算模型（二）实时交互计算– Spark

· Spark编程模型

o Scala：面向函数的编程

o Scala常见函数与开发

o Scala编译和运行

· Spark RDD开发模型

o Spark RDD运行机制

o Spark RDD主要Transformation

§ map

§ flatmap

§ filter

§ union

§ reduceByKey

§ groupByKey

o Spark RDD主要Action

§ count

§ collect

§ saveAsTextFile

o Spark RDD依赖关系

§ 宽依赖

§ 窄依赖

· Spark集群架构与关键组件

· Spark作业运行机制

o 执行DAG图

o 任务集

o executor执行模型

· Spark开发与应用实践

o Spark运行环境搭建与部署

o 应用案例

§ 基于HDFS+Flume+Spark的服务器运行日志实时分析Spark程序实例开发与运行

主题6：SQL on Hadoop大数据查询

· 基于MapReduce的大数据查询Hive

o Hive架构与工作原理

o Hive数据加载

o Hive内部表和外部表

o Hive分区表和分通表

o Hive的存储方式

§ 列存储和行存储

o Hive SQL基本操作

· 基于Spark的大数据查询SparkSQL

o SparkSQL工作原理与执行机制

o SparkSQL数据模型DataFrame

o SparkSQL数据读取与结果保存

§ json

§ Hive table

§ Parquet file

§ RDD

o SparkSQL和Hive的区别与联系

o 实践SparkSQL操作

§ 数据表读取、查询与结果保存

主题7：大数据计算模型（三）流计算

· 流数据处理应用场景

o 流数据处理特点

o 流计算系统：SparkStreaming，Storm对比

· 流数据计算框架：Spark Streaming

o Spark Streaming基本概念

o Spark Streaming数据模型DStream

o Spark Streaming架构与工作机制

o Spark Streaming数据源操作

o Spark Streaming开发示例

§ 基于文件流的SparkStraeming程序

§ 基于socket流的SparkStraeming程序

· 流数据计算框架：Storm

o Storm基本概念

o Storm编程模型

§ Spout，Bolt, Topology

o 数据流分组

o 并发度设置

o 容错机制

主题8：NoSQL数据库

· NoSQL数据库

o 关系型数据库瓶颈

o NoSQL数据库概念，分类与适用场景

§ HBase，MongoDB，Redis

· 列存储NoSQL数据库HBase

o Hbase原理与数据模型

§ 行、列簇、时间戳

o HBase系统架构

§ Hmaster

§ RegionServer

§ Zookeeper

o HBase的读写机制

§ LSM结构的数据组织与读写

o Hbase表的设计原则

§ 高表与宽表

§ rowkey设计

o Hbase适用场景

主题9：大数据采集

· RDBMS与Hadoop数据转换工具Sqoop

o Sqoop工作原理

· 文件采集工具Flume

o Flume组件与运行

o Flume常用配置

· Kafka

o Kafka基本概念: producer, broker, consumer

o Kafka集群架构

o Kafka运行机制

o Kafka应用场景

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势：
丰富专家资源，精准匹配相关行业，相关项目技术精英，面向用户实际需求，针对性培训或咨询，互动式交流，案例教学，精品小班，实际工程项目经验分享，快捷高效，节省时间与金钱，少走弯路与错路。

专家力量：
中国科学院相关研究所高级研究人员
西门子，TI,vmware，MSC,Ansys，MDI，Mentor, candence,Altium,Atmel 、Freescale,达索，华为等
大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关学历背景专业，理论素养高
多年实际项目实践，大型复杂项目实战案例分享，热情，乐于技术分享
针对客户实际需要，真实案例演示，互动式沟通，学有所值

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn