课程培训
|
云计算与大规模数据处理培训
云计算与大规模数据处理
|
第一章 |
|
主题 |
分布式系统概述 |
大纲 |
· 分布式系统基本概念 · 分布式系统设计遇到的问题 · 分布式系统的可靠性问题 · 分布式系统的可扩展性问题 |
实验: · 实验环境的介绍:实验环境中所涉及到的软件,实验中所需要的硬件配置,编程所需要的必要的Java知识等。 · 介绍如何在集群环境下进行Hadoop系统的安装以及配置,使得每个参加的学员都能够安装完成Hadoop,并进行正确配置与运行。 |
第二章 |
|
主题 |
分布式文件系统 |
大纲 |
· 传统的分布式文件系统,例如NFS,AFS等, · 新的分布式文件系统的介绍,如Ceph等。 · 介绍分布式文件系统GFS,以及相应的在Hadoop中的模块HDFS。 |
实验: · 学员实验所必须的相关的背景知识,例如多线程程序的编写,程序的同步问题,网络编程所需要的必要知识(实际是不用的,但是为了理解分布式程序的运行,必须要了解)。 · 熟悉使用Hadoop进行编程的基础知识:Hadoop的构成,Hadoop中相关类库的介绍,在Hadoop环境下,使用Java操作接口,对文件系统进行读写操作。 |
第三章 |
|
主题 |
MapReduce编程技术 |
大纲 |
· Google的MapReduce编程介绍 · 开源软件Nutch的体系结构与构成 · Hadoop的体系结构,构成以及MapReduce设计的编程要素 |
实验: · Hadoop的MapReduce编程环境 使用Hadoop进行MapReduce编程,并进行第一个实验,即做一次倒排表的实验。 |
第四章 |
|
主题 |
MapReduce算法 |
大纲 |
· 使用MapReduce进行图算法PageRank · 使用MapReduce进行聚类算法Canopy Clustering |
实验: · 图算法PageRank的实现 |
第五章 |
|
主题 |
云计算技术分析 |
大纲 |
· Amazon的云计算系统的介绍Elastic Computing Cloud · 微软所使用的大规模数据处理技术Dryad等 · Google云计算平台App Engine深入剖析 § App Engine概述及其典型应用分析 § App Engine架构和实现解析 § App Engine应用开发接口和编程实践 § App Engine与其他云计算平台的横向比较及展望 |
实验: · 聚类算法Canopy Clustering的实现 |
第六章 |
|
主题 |
在Google中所使用的其它技术 |
大纲 |
· Google的集群的构建 · Google的数据库系统BigTable · Google的分布式锁技术Chubby |
实验: · 对实验进行收尾工作 |