大数据新贵-Apache Spark入门
分布并行计算
从搬砖说起
一个简单的计数问题
Spark解决什么了问题
基于数据集的计算框架
数据集概念之SQL
数据集概念之JavaScript
Spark牛刀小试
操作符简介
Scala语言快速扫盲
Scala语言
Scala中的变量与常量
Scala函数定义与调用
Scala中的匿名函数
Scala对象定义
交互分析
启动Spark Shell
获得集群对象
构造分布数据集
操作数据集
不一样的动作和变换
RDD动作
RDD变换
RDD操作组合
RDD动作
count函数来计数
top函数取前N个记录
take函数采样N个记录
first函数取第一个记录
max函数取最大值记录
min函数取最小值记录
reduce规约RDD
collect函数取全部记录
RDD变换
map函数对RDD记录进行映射
filter筛选函数对RDD记录过滤
sample函数可以从RDD中随机采样
union函数合并两个RDD为新的RDD
intersection函数取两个RDD记录相交
distinct函数剔除RDD中的重复记录
30:00
有问题?问助教!