课程概况
入门级大数据课程,适合初学者,完备的课程在线服务体系,可以帮助初学者实现“零基础”学习大数据课程。课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。课程由国内高校知名大数据教师厦门大学林子雨副教授主讲。
课程内容(固定在每周一上午10点发布一章内容):
第一讲:大数据概述(2020年2月17日发布)
第二讲:大数据处理架构Hadoop(2020年2月24日发布)
第三讲:分布式文件系统HDFS(2020年3月2日发布)
第四讲:分布式数据库HBase(2020年3月9日发布)
第五讲:NoSQL数据库(2020年3月16日发布)
第六讲:云数据库(2020年3月23日发布)
第七讲:MapReduce(2020年3月30日发布)
第八讲:数据仓库Hive(2020年4月6日发布)
第九讲:Hadoop架构再探讨(2020年4月13日发布)
第十讲:Spark(2020年4月20日发布)
第十一讲:流计算(2020年4月27日发布)
第十二讲:图计算(2020年5月4日发布)
第十三讲:大数据在不同领域的应用(2020年5月11日发布)
期末考试:2020年5月18日发布上午10点到5月24日晚上11点
学习完本入门级课程以后,欢迎继续在中国大学MOOC平台学习后续的进阶级大数据课程《Spark编程基础》(课程地址:https://www.icourse163.org/course/XMU-1205811805)
课程大纲
第0讲 课程介绍
课程及其配套在线资源介绍
本讲配套讲义PPT-第0讲 课程介绍
第1讲 大数据概述
1.1 大数据时代
1.2 大数据概念和影响
1.3 大数据的应用
1.4 大数据的关键技术
1.5 大数据与云计算、物联网
本讲配套讲义PPT-第1讲-大数据概述
第1讲大数据概述章节单元测验
第2讲 大数据处理架构Hadoop
本讲实验答疑-第2讲-大数据处理架构Hadoop
2.1 概述
2.2 Hadoop项目结构
2.3 Hadoop的安装与使用
2.4 Hadoop集群的部署和使用
本讲配套讲义PPT-第2讲-大数据处理架构Hadoop
大数据处理架构Hadoop单元测验
第3讲 分布式文件系统HDFS
3.1 分布式文件系统HDFS简介
3.2 HDFS相关概念
3.3 HDFS体系结构
3.4 HDFS存储原理
3.5 HDFS数据读写过程
3.6 HDFS编程实践
本讲配套讲义PPT-第3讲-分布式文件系统HDFS
分布式文件系统HDFS单元测验
分布式文件系统HDFS单元作业
第4讲 分布式数据库HBase
4.1 HBase简介
4.2 HBase数据模型
4.3 HBase的实现原理
4.4 HBase运行机制
4.5 HBase应用方案
4.6 HBase安装配置和常用Shell命令
4.7 HBase常用Java API及应用实例
本讲配套讲义PPT-第4讲-分布式数据库HBase
分布式数据库HBase单元测验
分布式数据库HBase单元作业
第5讲 NoSQL数据库
5.1 NoSQL概述
5.2 NoSQL与关系数据库的比较
5.3 NoSQL的四大类型
5.4 NoSQL的三大基石
5.5 从NoSQL到NewSQL数据库
5.6 文档数据库MongoDB
本讲配套讲义PPT-第5讲-NoSQL数据库
NoSQL数据库单元测验
第6讲 云数据库
6.1 云数据库概述
6.2 云数据库产品
6.3 云数据库系统架构
6.4 Amazon AWS和云数据库
6.5 微软云数据库SQL Azure
6.6 云数据库实践
本讲配套讲义PPT-第6讲-云数据库
云数据库单元测验
第7讲 MapReduce
7.1 MapReduce概述
7.2 MapReduce的体系结构
7.3 MapReduce工作流程
7.4 Shuffle过程原理
7.5 MapReduce应用程序执行过程
7.6 实例分析:WordCount
7.7 MapReduce的具体应用
7.8 MapReduce编程实践
本讲配套讲义PPT-第7讲-MapReduce
MapReduce单元测验
第8讲 数据仓库Hive
8.1 数据仓库概念
8.2 Hive简介
8.3 SQL转换成MapReduce作业的原理
8.4 Impala
8.5 Hive编程实践
本讲配套讲义PPT-第8讲-数据仓库Hive
数据仓库Hive单元测验
第9讲 Hadoop再探讨
9.1 Hadoop的优化与发展
9.2 HDFS2.0的新特性
9.3 新一代资源管理调度框架YARN
9.4 Hadoop生态系统中具有代表性的功能组件
本讲配套讲义PPT-第9讲-Hadoop再探讨
Hadoop再探讨单元测验
第10讲 Spark
10.1 Spark概述
10.2 Spark生态系统
10.3 Spark运行架构
10.4 Spark SQL
10.5 Spark的部署和应用方式
10.6 Spark编程实践
本讲配套讲义PPT-第10讲-Spark
Spark单元测验
第11讲 流计算
11.1 流计算概述
11.2 流计算处理流程
11.3 流计算的应用
11.4 开源流计算框架Storm
11.5 Spark Streaming、Samza以及三种流计算框架的比较
11.6 Storm编程实践
本讲配套讲义PPT-第11讲-流计算
流计算单元测验
第12讲 图计算
12.1 图计算简介
12.2 Pregel简介
12.3 Pregel图计算模型
12.4 Pregel的C++ API
12.5 Pregel的体系结构
12.6 Pregel的应用实例——单源最短路径
12.7 Hama的安装和使用
本讲配套讲义PPT-第12讲-图计算
图计算单元测验
第13讲 大数据在不同领域的应用
13.1 大数据应用概览
13.2 推荐系统
13.3 大数据在智能医疗和智能物流领域运用
本讲配套讲义PPT-第13讲-大数据在不同领域的应用
大数据在不同领域的应用单元测验
预备知识
面向对象编程(比如Java)、数据库、操作系统
参考资料
林子雨.大数据技术原理与应用(第2版),人民邮电出版社,2017年2月(教材官网)。
林子雨.大数据导论(通识课版),高等教育出版社,2020年2月(教材官网)
林子雨-大数据基础编程、实验和案例教程,清华大学出版社,2017年8月(教材官网)。
林子雨,赖永炫,陶继平.Spark编程基础(Scala版),人民邮电出版社,2018年8月(教材官网)。
高校大数据课程公共服务平台:https://dblab.xmu.edu.cn/post/8197/
大数据学习路线图:https://dblab.xmu.edu.cn/post/10164/
【后续学习内容】学习完本入门级课程以后,欢迎继续在中国大学MOOC平台学习后续的进阶级大数据课程《Spark编程基础》(课程地址:https://www.icourse163.org/course/XMU-1205811805)